akon2.00βのよっぱらいの戯言

色しょく是食、食しょく是色

マテリアルズ・インフォマティクス 材料開発のための機械学習超入門

 

 

マテリアルズ・インフォマティクスとは

演繹的→材料の構造や組成から材料の機能や特性を導き出す

帰納的→材料の機能や特性から材料の構造や組成を導き出す

 

コンビナトリアル実験

一度に大量の材料を作成し、一気に評価する。

 

第2章
機械学習の種類

教師あり学習

回帰

分類

 ちょうどよい複雑さのモデルとは?(過学習と汎化性能)
  正則化
  交差検定
  変数選択

 

教師なし学習

クラスタリング
  ハードクラスタリングとソフトクラスタリング
 そもそも『似ている』とは?(類似度/非類似度)

次元削減→ユークリッド距離・コサイン距離

 

ハイスループット計算

→たくさんの材料に対する材料シミュレーションを網羅的に行う。

 

ロボティクス

ロボットが材料特性を評価し、機械学習によって実験の条件を洗い出し、ロボットが材料を作成し、実験する。

 

第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発

モデル解釈性が高いが、非線形的なモデルの作成が難しい。


3.2 LASSO回帰と太陽電池材料開発

LASSOはスパースモデリング(疎モデリング)手法で、材料データはスパースであることが多いので、適合しやすい。

多重共線性を回避してくれやすく、モデル解釈性が高いが、非線形的なモデルの作成が難しい。

 

3.3 決定木と熱電材料開発

モデル解釈性が高いが、汎化性能が高くない。

 


3.4 ランダムフォレストと新物質探索

あまり予測精度の高くない複数の弱学習器を組み合わせて、より性能の高い強学習器を作成するアンサンブル学習の一つ。

予測精度が高く、モデル解釈性も高い。説明変数の重要度、予測結果の確度も計算できる。

 

3.5 ニューラルネットワークMLP)とSiC材料シミュレーション

非常に予測精度が高いが、モデルの解釈性が余りたくない。

 

3.6 Interpretable ML(FAB/HMEs)と熱電材料開発

FAB/HMEsはモデル解釈性、予測性能、スパース性を備えている。

 

3.7 ベイズ最適化と磁性合金材料探索

ガウシアンプロセスは非線形の回帰モデル。

汎用性が高いが実装が面倒。

 

仮想材料評価(第一原理計算)→機械学習(ベイズ最適化)→仮想材料作成(第一原理計算)

 

 

3.8 階層的クラスタリングと結晶構造解析

類似度/非類似度とLinkageを自由に設定できるが、自由度が高いため、正解のクラスタ結果を得るまで時間がかかる。

 


3.9 非負値行列分解(NMF)と結晶構造解析

階層的クラスタリングはひとつのデータがひとつのクラスタに所属するハードクラスタリングだが、非負値行列分解(NMF)はひとつのデータが複数のクラスタに所属できるソフトクラスタの手法で、ひとつの行列を二つの行列に分解する手法。

 

クラスタリング結果の意味づけが比較的やりやすい。


3.10 多次元尺度(MDS)と結晶構造解析

距離(類似度/非類似度)の情報から、似ているデータを近くに、似ていないデータを遠くにプロットする手法。

 

次元削減ができるが、次元を減らすことで、もともとデータが持っていた情報も消える。

 

3.11 主成分分析(PCA)とデータドリブン周期表


3.12 パーシステントホモロジー(PH)とガラス材料開発

図形や画像などのデータに存在する形の情報を特徴づけることができる。

位相的データ解析(TDA)とも呼ばれる。

 

幾何学的特徴を抽出できる。

 

材料データベース

MatNavi

https://mits.nims.go.jp/

Materials Project
https://materialsproject.org/

Aflow
http://www.aflowlib.org/

NOMAD Repository
https://nomad-lab.eu/services/repo-arch

Polymer Genome
https://www.polymergenome.org/


日本のMIプラットフォーム

https://www.nims.go.jp/MII-I/MI2I-DPF.html

 

目次
はじめに
第1章
マテリアルズ・インフォマティクスとは
1.1 機械学習とマテリアルズ・インフォマティクス
1.2 機械学習さえあればすべて解決するの?
1.3 理論科学・計算科学・実験科学・データ科学(機械学習
1.4 演繹的と帰納
1.5 材料開発における機械学習のメリット
コラム1 マテリアルズ・インフォマティクスの歴史
コラム2 コンビナトリアル実験

第2章
材料開発における機械学習の基礎知識
2.1 機械学習ってそもそも何?
2.2 機械学習ってどうやって使うの?(PythonⓇとR)
2.3 機械学習ってどんな種類があるの?
2.4 教師あり学習って何?(その1:回帰)
2.5 教師あり学習って何?(その2:分類)
2.6 ちょうどよい複雑さのモデルとは?(過学習と汎化性能)
2.7 ちょうどよい複雑さのモデルを作るには?(その1:正則化
2.8 ちょうどよい複雑さのモデルを作るには?(その2:交差検定)
2.9 ちょうどよい複雑さのモデルを作るには?(その3:変数選択)
2.10 予測性能が良いと『真のモデル』に近いの?
2.11 予測性能とモデル解釈性(ブラックボックスとホワイトボックス)
2.12 データが全くないところも予測できるの?(内挿と外挿)
2.13 相関関係と因果関係
2.14 教師なし学習って何?(その1:クラスタリング
2.15 ハードクラスタリングとソフトクラスタリング
2.16 そもそも『似ている』とは?(類似度/非類似度)
2.17 各クラスターの意味は? クラスターの数は?
2.18 教師なし学習って何?(その2:次元削減)
2.19 材料データの構造化
2.20 データの前処理
コラム3 ハイスループット計算
コラム4 ロボティクス

第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発
3.2 LASSO回帰と太陽電池材料開発
3.3 決定木と熱電材料開発
3.4 ランダムフォレストと新物質探索
3.5 ニューラルネットワークMLP)とSiC材料シミュレーション
3.6 Interpretable ML(FAB/HMEs)と熱電材料開発
3.7 ベイズ最適化と磁性合金材料探索
3.8 階層的クラスタリングと結晶構造解析
3.9 非負値行列分解(NMF)と結晶構造解析
3.10 多次元尺度(MDS)と結晶構造解析
3.11 主成分分析(PCA)とデータドリブン周期表
3.12 パーシステントホモロジー(PH)とガラス材料開発
コラム5 材料データベース
コラム6 日本のMIプラットフォーム