隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

データ分析の力 因果関係に迫る思考法

伊藤公一朗氏のデータ分析の力 因果関係に迫る思考法を読んだ。最近色々な本を読んでいて、因果関係の見極めの重要さ・難しさということを痛感しているのだが、本書はどのようにしてデータ解析して、因果関係を見極めるかということに関して書かれた、初心者向けの入門書だ。

まず著者はデータ分析を「すし職人」になぞらえる。重要なことの一点目は、素晴らしいネタを仕入れること。二点目はそのネタのうまみを生かせる包丁さばきができること。三点目は、お客さんが求めている味や料理を提供できること。ここで言っている「ネタ」とはまさに「データ」の事なのだ。データがあればそれから魔法のツールを用いて、あっという間に、魔法の如く結論が導き出せるわけではないのである。解析できるデータがなければ、やはり解析できないのだ。これが何よりも重要だと思う。もちろん本書では触れられていない手法を用いて、不完全なデータからも何らかの結論を導く手法があのかもしれないが、元となるデータがお粗末ならば、やはりそのような手法を使っても、有効な結果は導き出せないだろう。本書では以下の手法について解説されている。

基本はランダム比較試験 (RCT)

因果関係を介入効果という指標で評価することがまず紹介されている。因果関係をもたらした効果を介入効果として定義する。本書で紹介されているのは、電力価格が上昇したときの消費電力の違いである。価格上昇 (X) がAさんの電力消費量 (Y) にもたらした影響の場合は、料金が上がらなかった場合の消費量を Y0 、料金が上がった時の消費量を Y1 とすると、Y0-Y1という介入効果あったということになる。問題はAさんについて、同時に Y0 と Y1 を観測することが不可能なことだ。そこで、介入を受けるグループと介入を受けないグループ (比較グループ) を設定し、これらのグループの平均を比べることで介入効果を見積もろうというのだ。この時のグループ分けをランダムに行えば、介入効果以外の要因を排除できるであろうという発想から来ている。これは最近はやりのA/Bテストと共通する考え方だ。むしろA/Bテストが、この考えをもとに行われているのだろう。

自然実験の結果から分析する

この自然実験は歴史は実験できるのか――自然実験が解き明かす人類史 - 隠居日録の自然実験と同じである。実際には、必ずしもRCTを実施できるわけではないので、別な解析手段・評価手法が必要になる。

RDデザイン

RDとはRegression Discontinuityの略で、この手法で重要なところはDが表す不連続だ。Dはあるいは境界線という言葉で表せるだろう。現実に存在するデータの中の不連続点・境界領域に着目し、その前後で若し不連続が発生していない場合を仮定して、それを比較グループとし、それと不連続が発生したグループを介入を受けたグループとして、両者を比較して、介入効果を調べるのだ。本書で紹介されていたのは、日本の医療制度における70才を境とする、自己負担額の減額と外来患者数の関係だ。外来患者数は70歳以上になる所で約10パーセント程度上昇していることがデータから読み取れる。ここで、何が原因となるかは網羅的に考慮しなければならないが、第一に思い浮かぶのが、自己負担額の変化(3割負担からの減額)であろう。

積分

世の中には、何らかのインセンティブが階段状になっていることがある。例えば、所得税累進課税などがその一例である。集積分析では、インセンティブが変わる境界点でのデータの集積度合を分析し、インセンティブの変化に反応した因果関係を検証する。

本書では、まず日本の自動車の重量と燃費規制について考察している。日本の燃費規制の制度では、自動車の重量が重くなるほど規制が緩くなっている。そこで、国土交通省が公開している自動車燃費一覧のデータを分析し、横軸に自動車の重量、縦軸に自動車台数の分布を選択してグラフを描くと、燃費の規制が緩くなる自動車重量の境界の所に高いピークが存在し、多くの自動車がその重量に分布していることがわかる。これは自動車の重量を重くすることで、緩い燃費規制が適応されるようにし、だがあまり自動車の重量を重くしたくないという自動車メーカの戦略が見えてくる。

また、オランダの給与所得者の所得額と納税者数の関係を調べた場合は、納税額の税率が上がる所の付近で、お椀に棘が突き出たような形の分布が見られた。これは実際の所得額の調整は狙った通りにできないからこのような形になったのだろうと想像される。職種別に、教師と軍人を比べた場合は、教師では全体平均よりも高いピークがの集積がみられるが、軍人にはピークが見られなかった。これは教師の方が給与の調整が容易にできることが考えられれる一方、軍人には給与額の調整ができないことが考えられる。

パネル・データ分析

パネル・データとは、複数のグループに対して、複数期間のデータが入手できる場合のデータのことをいう。本書で紹介されているのは、デンマーク外国人労働者の推移の分析である。デンマークでは1991年に税制改革があり、10万3千クローネ以上の外国人労働者所得税が以前に比べて大幅に下がった。一方10万3千クローネ未満の外語久人労働者の所得税は変わらなかった。そこで、10万3千クローネ以上の外国人労働者を介入グループとし、10万3千クローネ未満の外国人労働者を比較グループとして分析を行った。1980年の労働者数を1として比較すると、1991年を境に介入グループの伸び率が高くなり、1995年には2倍になった。一方比較グループの増加は抑えられており、2005年になってようやく2倍になった。

パネルデータ分析では介入グループと比較グループの介入前データにおいて、平行トレンドがあることが示されなければならない。その結果をもって、介入がもしなかったとしたら、同じようなトレンドで推移したところが、介入を受けたことによりどのように変化したかを分析するのだ。

本書には「データ分析をビジネスや政策決定に生かすためには?」という章があり、そこに、オバマ政権下で「エビデンスに基づく政策のための評議会設置法」という法律が施行され、政策がどれだけ効果を生み出したか「政策効果の大きさ」を物差しとして政策決定を行っていることが紹介されていた。日本においてもこのような制度が必要だと痛感した。

非線形科学 同期する世界

蔵本由紀氏の非線形科学 同期する世界を読んだ。一見すると異なるリズムで動いているものが、互いに影響しあって、最終的には同期する現象がある。以下のyoutubeの動画は本書の中で紹介されていたものだが、この同期する現象を端的に表している。

www.youtube.com

最初にこの同期現象に着目し、考察した人物はオランダの科学者クリスチアーン・ホイヘンスだそうだ。1665年の冬、体調が悪く自宅にこもっていたホイヘンスは水平に取り付けられた一枚の支持板にぶら下げられた2つの振り子時計が、完全に歩調を合わせて左右に振れることに気が付いた。最終的にはホイヘンスは振り子が取り付けられている支持板を通して、かすかな振動が振り子に与える相互作用により同期するのだと結論付けた。

本書ではこの例を皮切りに様々な同期現象が紹介されている。ロウソクの炎、カエルの鳴き声、体内時計、橋と歩行の同期、拍手、ホタル、電力供給網、……。リズムを刻むところには必ず同期が存在するのではないかと思われるぐらい色々な例が紹介されている。

この中で紹介されている体内時計の実験なのだが、「人間の体内時計は24時間よりも若干長く25時間ぐらい」というを聞いたことがあったのだが、どうやらこれは最近では実験の方法がよくなかったという結論になっているようだ。1999年にチャールズ・A・ツァイスラーらの米国のハーバード大学の実験によると24時間11分で、以前考えられていた時間より24時間に近い値になっている。彼らの実験では被験者の生活サイクルを28時間にして実験を行い、体温やメラトニンとコーチゾルのレベルの測定を行った。人間の体内時計は28時間という周期には同期できないことが知られているので、この時間が選ばれたようだ。人間の体内時計の周期は24時間よりも長いが、十分強力な明暗サイクルにさらされることにより24時間に体内時計は同期するようになっている。

同期とは直接関係ないがクオラムセンシングという面白い現象も紹介されていた。例えば病原気に感染しても、健康体なら菌の密度が低く保たれるので問題がないが、免疫力が低下し、菌の密度がある限界を超えると、突然病原菌の活動が活発化し発病する場合がある。菌の密度がある限界を超えると急にある物質を生成することをクオラムセンシングと呼んでいる。細菌の集団ではシグナル分子と呼ばれる物資分子で細胞間で情報のやり取りが行われている。細菌が密集していれば、高い濃度のシグナル分子をどの細菌も感じることになり、その濃度がある限度を超えると、細胞脳遺伝子発現パターンにある変化が生じて、特定の物質が算出され始めることになる。

本書では色々な動機が紹介されていたのであるが、新書という性格上のせいか、なぜこのような同期が起こっているかがよく理解できなかった。そのあたりが残念な点で、もう少し詳細を知りたくなった。