小島寛之氏の完全独習ベイズ統計学入門を読んだ。今更ながら、POPFileを導入し、メールを振り分けを始めたのだが、なんとなくわかっているようで、よく判っていないベイズ定理とか統計について調べてみようと思ったのが、読み始めた理由だ。POPFileの方は2か月ぐらい運用して、93%ぐらいの精度になったので、もう一息といったところだと思う。
本書の説明は非常にユニークで、直観に訴えるようになっているので、わかりやすかった。ベイズ定理というと必ず出てくる条件付確率の例の式だが、本書では第二部15章まで出てこないのだ。そのかわり、確率を図を使って説明している。例えば、あの有名なモンティ・ホール問題は以下のように説明されている。
まず最初、A、B、Cのどこにあるのかわからないので、それぞれの確率は1/3が割り当てられる。
そこで、Aに自動車があるのなら、司会者はBとCを対等の確率(1/2)で開けることになる。もし、Bに自動車があるのならCを確率1で、Cに自動車があるのならBを確立1で開けるので、次のようなる。
もし、司会者がBを開けたならば、Bには自動車がないことがわかり、Cを開けるという可能性の世界が消滅する。
この図から、正規化確率(全体の確率は1なので、図の面積を足して1になるように正規化する必要がある)は
Aである事後確率:Cである事後確率=1/6:1/3=1/3:2/3
となり、Cである事後確率はAの2倍になっている。もっとも、計算しなくても上の図を見ればCの方がAの2倍になっているのはすぐわかる。
この確率を図形の面積で表現する方法は、第二部の確率分布や確率密度関数が出てくると納得である。確率密度関数が与えられていて、ある条件(範囲)の確率を求めるためにはその区間を積分する必要があるが、それは図の面積を求めていることと等価だからだ。