マテリアルズ・インフォマティクスとは
演繹的→材料の構造や組成から材料の機能や特性を導き出す
帰納的→材料の機能や特性から材料の構造や組成を導き出す
コンビナトリアル実験
一度に大量の材料を作成し、一気に評価する。
第2章
機械学習の種類
回帰
分類
ちょうどよい複雑さのモデルとは?(過学習と汎化性能)
正則化
交差検定
変数選択
クラスタリング
ハードクラスタリングとソフトクラスタリング
そもそも『似ている』とは?(類似度/非類似度)
次元削減→ユークリッド距離・コサイン距離
ハイスループット計算
→たくさんの材料に対する材料シミュレーションを網羅的に行う。
ロボティクス
ロボットが材料特性を評価し、機械学習によって実験の条件を洗い出し、ロボットが材料を作成し、実験する。
第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発
モデル解釈性が高いが、非線形的なモデルの作成が難しい。
3.2 LASSO回帰と太陽電池材料開発
LASSOはスパースモデリング(疎モデリング)手法で、材料データはスパースであることが多いので、適合しやすい。
多重共線性を回避してくれやすく、モデル解釈性が高いが、非線形的なモデルの作成が難しい。
3.3 決定木と熱電材料開発
モデル解釈性が高いが、汎化性能が高くない。
3.4 ランダムフォレストと新物質探索
あまり予測精度の高くない複数の弱学習器を組み合わせて、より性能の高い強学習器を作成するアンサンブル学習の一つ。
予測精度が高く、モデル解釈性も高い。説明変数の重要度、予測結果の確度も計算できる。
3.5 ニューラルネットワーク(MLP)とSiC材料シミュレーション
非常に予測精度が高いが、モデルの解釈性が余りたくない。
3.6 Interpretable ML(FAB/HMEs)と熱電材料開発
FAB/HMEsはモデル解釈性、予測性能、スパース性を備えている。
3.7 ベイズ最適化と磁性合金材料探索
ガウシアンプロセスは非線形の回帰モデル。
汎用性が高いが実装が面倒。
仮想材料評価(第一原理計算)→機械学習(ベイズ最適化)→仮想材料作成(第一原理計算)
3.8 階層的クラスタリングと結晶構造解析
類似度/非類似度とLinkageを自由に設定できるが、自由度が高いため、正解のクラスタ結果を得るまで時間がかかる。
3.9 非負値行列分解(NMF)と結晶構造解析
階層的クラスタリングはひとつのデータがひとつのクラスタに所属するハードクラスタリングだが、非負値行列分解(NMF)はひとつのデータが複数のクラスタに所属できるソフトクラスタの手法で、ひとつの行列を二つの行列に分解する手法。
クラスタリング結果の意味づけが比較的やりやすい。
3.10 多次元尺度(MDS)と結晶構造解析
距離(類似度/非類似度)の情報から、似ているデータを近くに、似ていないデータを遠くにプロットする手法。
次元削減ができるが、次元を減らすことで、もともとデータが持っていた情報も消える。
3.11 主成分分析(PCA)とデータドリブン周期表
3.12 パーシステントホモロジー(PH)とガラス材料開発
図形や画像などのデータに存在する形の情報を特徴づけることができる。
位相的データ解析(TDA)とも呼ばれる。
幾何学的特徴を抽出できる。
材料データベース
MatNavi
Materials Project
https://materialsproject.org/
NOMAD Repository
https://nomad-lab.eu/services/repo-arch
Polymer Genome
https://www.polymergenome.org/
日本のMIプラットフォーム
https://www.nims.go.jp/MII-I/MI2I-DPF.html
目次
はじめに
第1章
マテリアルズ・インフォマティクスとは
1.1 機械学習とマテリアルズ・インフォマティクス
1.2 機械学習さえあればすべて解決するの?
1.3 理論科学・計算科学・実験科学・データ科学(機械学習)
1.4 演繹的と帰納的
1.5 材料開発における機械学習のメリット
コラム1 マテリアルズ・インフォマティクスの歴史
コラム2 コンビナトリアル実験
第2章
材料開発における機械学習の基礎知識
2.1 機械学習ってそもそも何?
2.2 機械学習ってどうやって使うの?(PythonⓇとR)
2.3 機械学習ってどんな種類があるの?
2.4 教師あり学習って何?(その1:回帰)
2.5 教師あり学習って何?(その2:分類)
2.6 ちょうどよい複雑さのモデルとは?(過学習と汎化性能)
2.7 ちょうどよい複雑さのモデルを作るには?(その1:正則化)
2.8 ちょうどよい複雑さのモデルを作るには?(その2:交差検定)
2.9 ちょうどよい複雑さのモデルを作るには?(その3:変数選択)
2.10 予測性能が良いと『真のモデル』に近いの?
2.11 予測性能とモデル解釈性(ブラックボックスとホワイトボックス)
2.12 データが全くないところも予測できるの?(内挿と外挿)
2.13 相関関係と因果関係
2.14 教師なし学習って何?(その1:クラスタリング)
2.15 ハードクラスタリングとソフトクラスタリング
2.16 そもそも『似ている』とは?(類似度/非類似度)
2.17 各クラスターの意味は? クラスターの数は?
2.18 教師なし学習って何?(その2:次元削減)
2.19 材料データの構造化
2.20 データの前処理
コラム3 ハイスループット計算
コラム4 ロボティクス
第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発
3.2 LASSO回帰と太陽電池材料開発
3.3 決定木と熱電材料開発
3.4 ランダムフォレストと新物質探索
3.5 ニューラルネットワーク(MLP)とSiC材料シミュレーション
3.6 Interpretable ML(FAB/HMEs)と熱電材料開発
3.7 ベイズ最適化と磁性合金材料探索
3.8 階層的クラスタリングと結晶構造解析
3.9 非負値行列分解(NMF)と結晶構造解析
3.10 多次元尺度(MDS)と結晶構造解析
3.11 主成分分析(PCA)とデータドリブン周期表
3.12 パーシステントホモロジー(PH)とガラス材料開発
コラム5 材料データベース
コラム6 日本のMIプラットフォーム