人工知能は人間を超えるか - akon2.00βのよっぱらいの戯言

ディープラーニング(深層学習)→特徴表現学習(英語ではrepresentation laerning:表現学習であり、representationには代表するものという意味合い、さらにre-present:再び現れるという意味もあるが、日本語では表現というより表象に近いが哲学用語であるため、省略されている意味を補って特徴表現学習とする)の一種

オントロジー研究
知識を記述すること自体に対する研究のこと

is-a 関係
上位下位の関係のこと。下位は上位に属する。

parf-of関係
部分があるものに含まれた一部である関係のこと

is-a 関係の場合は推移律( 集合の二要素 x、y の間に関係 R があることを xRy と書くことにしたとき、「xRy かつ yRz なる限りつねに xRz」が成立する)が成り立つが、
parf-of関係の場合は推移律が成り立つは難しいので、知識を記述することは難しい。

フレーム問題
コンピューターにとって、あるタスクを実行する時に「関係のある知識だけを取り出してそれを使う」ことが難しいこと。

シンボルクラウンティング問題
コンピューターは記号（文字列・言葉）をその意味するものと結びつけることができない。
ex. 人間なら「シマウマ」を知らなくても、「ウマ」「シマ」がどんなものか知っていれば、実際にシマウマを見たときに「シマシマのウマだからあれがシマウマか」と認識できるが、コンピューターにはそれができない。

機械学習の手法
・最近傍法
・ナイーブベイズ法
例えば、「与党」というワードが含まれる確率を、「政治」「スポーツ」のジャンルごとに出す。その比率が10:1の場合には、log(1/10)を政治カテゴリに追加する。つまり、含まれる比率の差が大きいほど、プラスが加えられる。
・決定木
・サポートベクターマシーン
・ニューラルネットワーク
入力層の値に重み付けをして、出力層の値を得る。それをシグモイド関数に通して、出力値（確率）を得る。28*28ピクセルの手書き数字の識別では、入力層と出力層は784個づつになる。アルゴリズムが良かったのか、データが良かったのかが分かるように、機械学習研究ではエムニストのような共通のデータセットを使う場合が多いとのこと。なお、学習には時間がかかるが、推測には時間はほとんど時間はかからない。

機械学習の精度を上げるのは、「どんな特徴量を入れるか」にかかっているのに、それは人間が頭を使って考えるしかなかった。これが「特徴量設計」で、機械学習の最大の関門だった。
これは、本質的には物事の概念を理解するということで、概念はシニフィエ、そのラベルはシニフィアンと言われている。データから特徴量を取り出し、それを使った概念(シニフィエ:意味されるもの)を獲得したのちに、
ラベル(シニフィアン:)与えれば、シンボルクラウンティング問題は発生しない。

ディープラーニングでは、このように「ちょっと違ったかもしれない過去」のデータをたくさんつくり、それを使って学習することで、「絶対に間違いではない」特徴量を見つけ出す。

そして、「絶対に間違いではない」特徴量であるがゆえに、その特徴量を使った高次の特徴量も見つけることができるのである。

ディープラーニングの先
①画像からの特徴表現と概念の獲得
入力データ:画像データ
画像認識精度の向上
②マルチモーダルな特徴表現と概念の獲得→時間の扱い
入力データ:観測データ(動画+音声+圧力など)
環境認識
行動予測
③「行動と結果」の特徴表現と概念の獲得
入力データ:自分の行動データ+観測データ
プランニング
フレーム問題の解決
④一連の行動を通じた現実世界からの特徴量の取り出し
入力データ:試行錯誤の連続的な行動データ
推論・オントロジー
高度な状況の認識
⑤言語と概念のグランディング
入力データ:言語データ
シンボルグラウンディング問題
言語理解
⑥言語を通じての知識獲得(人間を超える？)
入力データ:人類が蓄積してきた大量の言語データ
知識獲得のボトルネック解消
高次社会予測

人工知能は本能を持たない

創造性
・個人の中で日常的に起こっている創造性
・社会的な創造性

人間は試行錯誤によっても創造する。