・ビッグデータ解析と統計解析
というカテゴライズがまずいが検索キーとして。
■頻度確率(統計解析)
・一部のサンプルだけを分析して、全体のデータを推測する
・サンプルデータは可能な限り正確で、整理されていなければいけない
・分析結果がなぜそうなったのか、理由をはっきりさせることにこだわる
■ベイズ確率(ビッグデータ解析)
・一部のサンプルではなく、全てのデータを分析する
・サンプルはちょっとくらい乱雑でもかまわない。データの質より量を重視
・分析結果がなぜそうなったのか、理由はどうでもいい
例
ここに1枚のインチキコインがあるとする。すなわち、表か裏のどちらかが出やすくなっている。
ただし、どちらが出やすいのかはわからない。では、このコインを投げたとして表が出る確率をどう計算すべきか?
- ベイズ確率
表が出る確率は、1⁄2である。
理由:表と裏のどちらが出やすいのか全く不明である。それ故、表の出る確率も裏の出る確率も全く平等である。それ故、理由不十分の原理により、ともに1⁄2とする以外にない。
- 頻度確率
表が出る確率は、0から1までのいずれかであるが、1⁄2ではない。
理由:コインを何度も投げると、[表の出た回数 / 投げた回数]は、ある値に近づく(大数の法則)。それが求める確率である。
ただし、このコインはインチキコインなのだから1⁄2には絶対にならない。要するに、ベイズ確率は、その時点で有する情報をもとにした一回限りの確率である。これに対して頻度確率は、無限回試行を前提とした確率である。