隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

データは騙る 改竄・捏造・不正を見抜く統計学

ゲアリー・スミスのデータは騙る 改竄・捏造・不正を見抜く統計学 (原題 Standard Deviations Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statics)を読んだ。

本書でには少し考えれば信頼できないことがわかる、捻じ曲げられた主張を事例を挙げて検証している。

スポーツ結果を予想するタコ

2010年のサッカーの南アフリカワールドカップでタコのパウエルがドイツが対戦する13試合のうち11試合でドイツが勝つと予想し、ドイツは実際9試合で勝った。では実際にどのように勝敗を預言したかというと、エサの時間にパウエルの前に対戦するチームの国旗が張られた透明のプラスチックのボックスが2つ置かれる。どちらも全く同じエサが入っていて、パウエルが最初に開けたボックスのほうが勝利チームになるということになっていた。

タコはほぼ色盲だが、実験の結果明るさは見分けることができ、横長の形を好むことがわかっている。ドイツの国旗は横に三分割され、色鮮やかな配色がなされている。セルビアとスペインも同じ傾向にあり、パウエルがドイツ以外で選んだのはこれらの国旗だ。どうやらパウエルが選んでいたのは好みの国旗だったのではないかということなのだ。

データが先か理論が先か

本書の中で繰り返し繰り返し述べられているのだが、一見ランダムなデーターであっても、その中の一部を取り出したりするとある傾向・パターンが発見できることが多々あるのだ。このようなことを意図的にしているのか、データの処理を誤ってやっているのかで、発表者・報告者の人間性が透けて見えるだろうが、いずれにしても誤ったアプローチだ。

統計学検定は、本来、研究者が理論ありきで研究を進めることを前提としている。理論を試すためにデータを集め、統計的に有意か否かを、結果を出して発表する。ところが多くの人が逆方向で仕事をしている。すでにあるデータを都合のいいように改竄したり・誤って処理したりして、一見するととても不思議な話を作り出して、世間の注目を集めてしまうのだ。

バイアスのかかったデータ

1984年、ヴァージニア大学の心理学教授E・スコット・ゲラーはアメリカの心理学会の年次総会で、研究論文を発表した。大学の近くの3軒のバーで観察した結果、ビールをピッチャーで頼んだ人は、グラスやボトルで頼んだ人より平均で2倍以上消費をするという。そして、ビールのピッチャーを禁止すれば、飲酒の量に大きな影響を与えることができるだろうと結論付けた。

しかしである、バーに行く時点で飲酒する意思があるのだし、ピッチャーで頼むのはたくさん飲もうという意思の表れで、あえて飲酒の行動を観察しなくても容易に結果が想像つくであろう。ゲラーは既にバイアスがかかったデータを観測して、結論を導き出しただけなのだ。

小さな数字のパーセンテージのマジック

ウェルフリートはマサチューセッツ州にある牡蠣と芸術と静けさが売りの小さな町だ。それなのにある時ボストンの新聞にウェルフリートはマサチューセッツ州で最も殺人事件の発生が高いという記事が出た。年間で10万人当たり40件の殺人事件が発生しているというのである。10万人当たり17人(本文のママ)というボストンの2倍以上の数字だ。

調べてみると、30キロほど離れた場所で殺人を犯した男がウェルフリートの警察署に自首したため、誤ってウェルフリートの殺人事件とカウントされたことが分かった。この一件が10万人当たりに換算して40件の殺人事件になったのだ。

小さな数字の変化をパーセンテージで示したものと、大きな数字の変化をパーセンテージで示したものを比較するときは注意しなければならない。

政府債務の割合が90%を超えるとき

2010年、ハーバード大学の教授であるカーメン・ライトハートとケネス・ロゴフは以下のような論文を発表した。国内総生産(GDP)に対する政府債務の割合が90%を超えると、その国の経済成長は危うくなる。これは、政府の借金を全額返済するのに、国内生産高の90%を必要とする状態である。危機的状況かもしれないが、必ずしもそうではない。政務債務を今すぐ全額返済する必要はないからだ。だが、教授二人は債務の対GDP比率90%は分岐点であり、これを超えたとき国内の景気は後退局面に入ると主張した。教授二人は先進20か国(オーストラリア、オーストリア、ベルギー、カナダ、デンマークフィンランド、フランス、ドイツ、ギリシャアイルランド、イタリア、日本、オランダ、ニュージーランドポルトガル、スペイン、スウェーデン、イギリス、アメリカ)のGDPに対する債務の比率と、インフレ調整後のGDPの伸び率を計算し、彼らの主張の根拠とした。

 財布債務の対GDP比率
 30%未満30%から60%60%から90%90%超
GDPの平均成長率4.12.82.8-0.1
この表によると、GDPに対する債務の割合が高くなると、経済成長率は下がり、90%を超えると景気は後退し、GDPは落ち込み、経済は縮小する。世界はこの結論を、緊縮財政の根拠と受け止めた。 2012年マサチューセッツ大学アマースト校の大学院生だったトーマス・ハーンドンはこの論文の結果を再現しようとしたができなかった。自分がどこか間違っているのだろうと思ったのだが、どこが間違っているかどうしてもわからなかった。この再現は統計学の講義の課題として行っていたので、再現できなければハーンドンは単位がもらえない。ハードトンは自力で解決するのをあきらめて、ライトハートとロゴフに連絡を取った。一度での問い合わせでは返事をもらえなかったので、ハードトンは何度も問い合わせて、ライトハートとロゴフから元データと計算に使ったスプレッドシートを手に入れ、何が問題か分かったのだ。問題は、スプレッドーシートのミスで、データの一部しか用いられていなかったのと、計算するうえで、実際にはデータがあったのに、データがないとして省略している部分があったのだ。また、平均の出し方にも問題があった。平均成長率を計算するときに、国ごとの平均成長率を計算し、その結果を平均しているのだ。 計算しなおされた結果に90%のところには何ら優位な意味はなく、債務の比率が上がったから成長率が鈍るのではなく、成長率が鈍るから債務の比率が高まったと解釈するほうが正しいのだろうという推測が導かれた。

シンプソンのパラドックス

1970年代カリフォルニア大学バークレー校の大学院は、女性の入学希望者を差別していると訴えられた。

 応募者合格者
男性8,44244%
女性4,32135%
男性の応募者の44%が入学を許可されたのに対し、女性の応募者の35%しか合格していない。詳細の調査が開始されたが、85学部の合格率を調べたが、女性が差別されているという証拠はほとんど見つからなかった。逆に、男性より女性の合格率が高い学部がいくつかあった。
 合計男性女性
学部応募者数合格率応募者数合格率応募者数合格率
193364%82562%10882%
258563%56063%2568%
391835%32537%59334%
479234%41733%37535%
558425%19128%39324%
67146%3736%3417%
合計4,52639%2,69145%1,83530%
この表は規模の大きい6学部の合格率をしてしており、全体でみると男性の合格率が45%であるのに対し、女性の合格率は30%で、女性が差別されているように見える。しかし、各学部を個別にみると、男性の合格率が女性より高い学部は3と5の2学部だけであり、その差もごくわずかで、統計的に優位とは言えない。統計的に優位な差があるのは学部1で、女性の合格率が82%なのに、男性の合格率は62%となっている。合計したデーターを分解するとデーターのパターンが逆転しているのだ。このような現象をシンプソンのパラドックスという。なぜこのようなことが起きたか?女性が合格率の低い学部に応募する傾向があるのに対し、男性はその逆の傾向があるためだ。男性の合格率が高いのは合格しやすい学部に応募しているからだ。

平均への回帰

本書には色々な、様々な平均への回帰の例が出てくる。経済の問題、企業の業績の問題、野球選手の成績の問題。例えば世界史のテストの問題で、100人の人が20問のテストを受けたとする。90点の人も得れば、80点の人もいるし、0点の人もいる。80点の人は、平均すると80%の正解率だが、必ずしも80%正解するわけではなく、数限りない試験を繰り返せば、80%を上回ることもあれば、80%を下回ることもあるだろう。一回のテストでは正確な能力を図ることはできない。

しかし、ほかの人より高いスコアの人は、自身の能力以上のスコアをとったかもしれないということが言えるだろう。我々は測定する対象を不完全な形で測定する場合は、たいてい回帰を目にすることになる。ある場合にスコアが高かった人は、次の場合はスコアが低くなる可能性がある。

バックミラーで将来を見ることはできない

実はこの本の中で一番心に残った言葉が、この「バックミラーで将来を見ることはできない」という言葉だ。この本の中に繰り返し登場するデータの中に潜むあるパターンが我々に間違った将来を見せることの端的な表現だ。いくら過去にあるパターンに従って物事が変化したからと言って、その変化が未来にわたって永遠に続くなどということは、何らかの根拠がなければあり得ないだろう。私が記憶に残っている事象を上げるとすると、1ドルは100円を下回らないという神話だ。20世紀の後半まではまことしやかに信じられており、100円のところに心理的なバリアーが存在して、なかなか100円を下回ることはなかった。しかし、100円を下回らないということには根拠も論理もないので、90年代中頃のある日100円を下回る日がやってきた。これも、過去のデーターをいくら見ても、未来を予想することはできない一つの例示であろう。

そうすると、ビックデータを統計的手法・ディープラーニングで解析して未来を予測しても果たして有効なのかという疑問がわいてくる。我々は何かとんでもなく無駄なことをしているのではないだろうか?

理論なきデータ、データなき理論

結局のところ、理論だけでもダメだし、データだけでもダメだ。誰かがデーターに無理やりパターンを見つけても、それを説明できるような理論がなければ信じるに足るものではないし、また、理論をデータを用いて検証されていないのなら、いくら素晴らしい(あるいは世間の耳目をひくような)理論が提示されても信じることはできない。