akon2.00βのよっぱらいの戯言

色しょく是食、食しょく是色

ビッグデータ解析と統計解析
というカテゴライズがまずいが検索キーとして。
■頻度確率(統計解析)
・一部のサンプルだけを分析して、全体のデータを推測する
・サンプルデータは可能な限り正確で、整理されていなければいけない
・分析結果がなぜそうなったのか、理由をはっきりさせることにこだわる

ベイズ確率(ビッグデータ解析)
・一部のサンプルではなく、全てのデータを分析する
・サンプルはちょっとくらい乱雑でもかまわない。データの質より量を重視
・分析結果がなぜそうなったのか、理由はどうでもいい

ここに1枚のインチキコインがあるとする。すなわち、表か裏のどちらかが出やすくなっている。
ただし、どちらが出やすいのかはわからない。では、このコインを投げたとして表が出る確率をどう計算すべきか?

表が出る確率は、1⁄2である。
理由:表と裏のどちらが出やすいのか全く不明である。それ故、表の出る確率も裏の出る確率も全く平等である。それ故、理由不十分の原理により、ともに1⁄2とする以外にない。

  • 頻度確率

表が出る確率は、0から1までのいずれかであるが、1⁄2ではない。
理由:コインを何度も投げると、[表の出た回数 / 投げた回数]は、ある値に近づく(大数の法則)。それが求める確率である。
ただし、このコインはインチキコインなのだから1⁄2には絶対にならない。

要するに、ベイズ確率は、その時点で有する情報をもとにした一回限りの確率である。これに対して頻度確率は、無限回試行を前提とした確率である。