akon2.00βのよっぱらいの戯言

色しょく是食、食しょく是色 当サイトではアフィリエイトプログラムを利用して商品を紹介しています。

ビッグデータ解析と統計解析
というカテゴライズがまずいが検索キーとして。
■頻度確率(統計解析)
・一部のサンプルだけを分析して、全体のデータを推測する
・サンプルデータは可能な限り正確で、整理されていなければいけない
・分析結果がなぜそうなったのか、理由をはっきりさせることにこだわる

ベイズ確率(ビッグデータ解析)
・一部のサンプルではなく、全てのデータを分析する
・サンプルはちょっとくらい乱雑でもかまわない。データの質より量を重視
・分析結果がなぜそうなったのか、理由はどうでもいい

ここに1枚のインチキコインがあるとする。すなわち、表か裏のどちらかが出やすくなっている。
ただし、どちらが出やすいのかはわからない。では、このコインを投げたとして表が出る確率をどう計算すべきか?

表が出る確率は、1⁄2である。
理由:表と裏のどちらが出やすいのか全く不明である。それ故、表の出る確率も裏の出る確率も全く平等である。それ故、理由不十分の原理により、ともに1⁄2とする以外にない。

  • 頻度確率

表が出る確率は、0から1までのいずれかであるが、1⁄2ではない。
理由:コインを何度も投げると、[表の出た回数 / 投げた回数]は、ある値に近づく(大数の法則)。それが求める確率である。
ただし、このコインはインチキコインなのだから1⁄2には絶対にならない。

要するに、ベイズ確率は、その時点で有する情報をもとにした一回限りの確率である。これに対して頻度確率は、無限回試行を前提とした確率である。