マテリアルズ・インフォマティクス材料開発のための機械学習超入門

マテリアルズ・インフォマティクスとは

演繹的→材料の構造や組成から材料の機能や特性を導き出す

帰納的→材料の機能や特性から材料の構造や組成を導き出す

コンビナトリアル実験

一度に大量の材料を作成し、一気に評価する。

第2章
機械学習の種類

・教師あり学習

回帰

分類

　ちょうどよい複雑さのモデルとは？（過学習と汎化性能）
　　正則化
　　交差検定
　　変数選択

・教師なし学習

クラスタリング
　ハードクラスタリングとソフトクラスタリング
　そもそも『似ている』とは？（類似度/非類似度）

次元削減→ユークリッド距離・コサイン距離

ハイスループット計算

→たくさんの材料に対する材料シミュレーションを網羅的に行う。

ロボティクス

ロボットが材料特性を評価し、機械学習によって実験の条件を洗い出し、ロボットが材料を作成し、実験する。

第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発

モデル解釈性が高いが、非線形的なモデルの作成が難しい。

3.2 LASSO回帰と太陽電池材料開発

LASSOはスパースモデリング(疎モデリング)手法で、材料データはスパースであることが多いので、適合しやすい。

多重共線性を回避してくれやすく、モデル解釈性が高いが、非線形的なモデルの作成が難しい。

3.3 決定木と熱電材料開発

モデル解釈性が高いが、汎化性能が高くない。

3.4 ランダムフォレストと新物質探索

あまり予測精度の高くない複数の弱学習器を組み合わせて、より性能の高い強学習器を作成するアンサンブル学習の一つ。

予測精度が高く、モデル解釈性も高い。説明変数の重要度、予測結果の確度も計算できる。

3.5 ニューラルネットワーク（MLP）とSiC材料シミュレーション

非常に予測精度が高いが、モデルの解釈性が余りたくない。

3.6 Interpretable ML（FAB/HMEs）と熱電材料開発

FAB/HMEsはモデル解釈性、予測性能、スパース性を備えている。

3.7 ベイズ最適化と磁性合金材料探索

ガウシアンプロセスは非線形の回帰モデル。

汎用性が高いが実装が面倒。

仮想材料評価(第一原理計算)→機械学習(ベイズ最適化)→仮想材料作成(第一原理計算)

3.8 階層的クラスタリングと結晶構造解析

類似度/非類似度とLinkageを自由に設定できるが、自由度が高いため、正解のクラスタ結果を得るまで時間がかかる。

3.9 非負値行列分解（NMF）と結晶構造解析

階層的クラスタリングはひとつのデータがひとつのクラスタに所属するハードクラスタリングだが、非負値行列分解（NMF）はひとつのデータが複数のクラスタに所属できるソフトクラスタの手法で、ひとつの行列を二つの行列に分解する手法。

クラスタリング結果の意味づけが比較的やりやすい。

3.10 多次元尺度（MDS）と結晶構造解析

距離(類似度/非類似度)の情報から、似ているデータを近くに、似ていないデータを遠くにプロットする手法。

次元削減ができるが、次元を減らすことで、もともとデータが持っていた情報も消える。

3.11 主成分分析（PCA）とデータドリブン周期表

3.12 パーシステントホモロジー（PH）とガラス材料開発

図形や画像などのデータに存在する形の情報を特徴づけることができる。

位相的データ解析(TDA)とも呼ばれる。

幾何学的特徴を抽出できる。

材料データベース

MatNavi

https://mits.nims.go.jp/

Materials Project
https://materialsproject.org/

Aflow
http://www.aflowlib.org/

NOMAD Repository
https://nomad-lab.eu/services/repo-arch

Polymer Genome
https://www.polymergenome.org/

日本のMIプラットフォーム

https://www.nims.go.jp/MII-I/MI2I-DPF.html

目次
はじめに
第1章
マテリアルズ・インフォマティクスとは
1.1 機械学習とマテリアルズ・インフォマティクス
1.2 機械学習さえあればすべて解決するの？
1.3 理論科学・計算科学・実験科学・データ科学（機械学習）
1.4 演繹的と帰納的
1.5 材料開発における機械学習のメリット
コラム1 マテリアルズ・インフォマティクスの歴史
コラム2 コンビナトリアル実験

第2章
材料開発における機械学習の基礎知識
2.1 機械学習ってそもそも何？
2.2 機械学習ってどうやって使うの？（PythonⓇとR）
2.3 機械学習ってどんな種類があるの？
2.4 教師あり学習って何？（その1：回帰）
2.5 教師あり学習って何？（その2：分類）
2.6 ちょうどよい複雑さのモデルとは？（過学習と汎化性能）
2.7 ちょうどよい複雑さのモデルを作るには？（その1：正則化）
2.8 ちょうどよい複雑さのモデルを作るには？（その2：交差検定）
2.9 ちょうどよい複雑さのモデルを作るには？（その3：変数選択）
2.10 予測性能が良いと『真のモデル』に近いの？
2.11 予測性能とモデル解釈性（ブラックボックスとホワイトボックス）
2.12 データが全くないところも予測できるの？（内挿と外挿）
2.13 相関関係と因果関係
2.14 教師なし学習って何？（その1：クラスタリング）
2.15 ハードクラスタリングとソフトクラスタリング
2.16 そもそも『似ている』とは？（類似度/非類似度）
2.17 各クラスターの意味は？　クラスターの数は？
2.18 教師なし学習って何？（その2：次元削減）
2.19 材料データの構造化
2.20 データの前処理
コラム3 ハイスループット計算
コラム4 ロボティクス

第3章
機械学習アルゴリズムとその材料開発への応用
3.1 線形回帰と蓄電池材料開発
3.2 LASSO回帰と太陽電池材料開発
3.3 決定木と熱電材料開発
3.4 ランダムフォレストと新物質探索
3.5 ニューラルネットワーク（MLP）とSiC材料シミュレーション
3.6 Interpretable ML（FAB/HMEs）と熱電材料開発
3.7 ベイズ最適化と磁性合金材料探索
3.8 階層的クラスタリングと結晶構造解析
3.9 非負値行列分解（NMF）と結晶構造解析
3.10 多次元尺度（MDS）と結晶構造解析
3.11 主成分分析（PCA）とデータドリブン周期表
3.12 パーシステントホモロジー（PH）とガラス材料開発
コラム5 材料データベース
コラム6 日本のMIプラットフォーム

akon2.00βのよっぱらいの戯言

色しょく是食、食しょく是色　当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

マテリアルズ・インフォマティクス材料開発のための機械学習超入門