隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

因果推論の科学 「なぜ?」の問いにどう答えるか

ジューディア・パール、 ダナ・マッケンジーの因果推論の科学 「なぜ?」の問いにどう答えるか(原題 The Book of Why The New Science of Cause and Effect)を読んだ。

非常に興味深いのだが、残念ながら、この本の説明だけではよくわからないところも多々あった。他の本でも書かれているが、データをいくら処理しても、その原因には迫れない。ではどのようにして、因果関係を明らかにするのかと言えば、著者は因果ダイヤグラムを書けというのだが、問題は、どのような因子が相互に関連していて、どちらが他方の原因であるかを判断するのは、対象にしている物事に関して深い知識がないとできない。そこをすっ飛ばして、因果ダイアグラムを書けというのは非常に乱暴だと思う。それができないからみんな苦労しているのだ。集められたデータからわかるのは測定した項目に関しての相関だけで、当然測定していない・測定できない項目に関しては考慮することもできないのだ。

但し、運よく因果ダイアグラムが書けた場合は、この本に書いてあるような色々な面白い考察ができるのだと思う。因果ダイアグラムはXがYの原因の時はX→Yのように表現する。しかし、世の中このような単純な場合だけではなく、本書には3つの項目がかかわっているダイアグラムが紹介されている。

1. チェーン
A→B→Cの関係にある場合、Bを媒介因子とみなす。例として、火→煙→火災報知器。火災報知器は実際には煙感知器の場合が多く、実際に火を検出しているわけではない。火により生成された煙を感知して、火災報知器が動作する。そのため、煙をAとBの間で遮断すると、Cは発生しない。

2. フォーク
A←B→Cの関係にある場合、Bを交絡因子と呼ぶ。BがあるせいでAとCが観測され、AとCの間に直接の因果関係がなくても、相関がみられる。子供の靴のサイズ(A)と読解力(C)の関係などはこの例だ。実際には年齢(B)が上がると、靴のサイズも大きくなり、読解力も上がるという何の変哲もないことをさも不思議な関係がるように表現した例だ。この場合年齢(B)を固定するとAとCには相関は見られない。

3. コライダー
A→B←Cの関係にある場合。例としてハリウッド俳優には才能→名声←美貌の関係がるとしている。ハリウッド俳優を言う条件を取り除けば、必ずしもこの関係、特に「名声←美貌」は成り立たない。

この3つの因果ダイヤグラムを巧みに用いて、もしあることを実行した場合の確率を計算する辺りの説明はなるほどと思ったのだが、正確に理解していないかもしれないので、もう少し詳しい説明が欲しいと思った。

本書の中で意外だったのが、3Gの頃から使われているターボデコーダに関しての説明だ。これはクロード・ベル―によって開発されたものだが、彼は知らずのうちにベイジアンネットワークのアイディアを使っていたというのだ。つまり、ベイジアンネットワークの考えを使うと動作をうまく説明できるらしいのだが、これ以上の詳細は書かれていないし、私自身がターボデコーダを理解しているわけではないので、これ以上はよくわからない。

本書に繰り返し「統計学者にとって因果はタブーである」と書かれている。確かにデーターからは因果関係は導けないので、誠意のある統計学者は因果については言及しないだろうが、だからと言って因果関係に踏み込まなかったのは不思議だ。本当にデータから見えた相関関係で満足していたのだろうか?