隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

白と黒のとびら オートマトンと形式言語をめぐる冒険

川添愛氏の白と黒のとびらを読んだ。これはサブタイトルがついて、そこには「オートマトン」と書かれている。そう、これはあの計算理論に出てくるあの「オートマトン」だ。この本も以前から読もうと思っていたのだが、後回しにしてしまい、なかなか読む機会がなかった。この本は万人向けではないが、これはなかなか面白い作りになっている。

ストーリーは魔術師見習いのガレットが魔術師アルドゥインのもとで修業しながら、その後継者となるまでがを糸に、オートマトンチューリングマシンの動作を横糸にして描かれいく。オートマトンの教科書的な数学モデルの説明はとにかくとっつきにくく、何の説明だかよく判らないという印象があった。とくに具体的なイメージがないうちにいきなり数式により一般化されてしまうと、何を現しているのかさっぱり理解できないのだが、本書では遺跡をオートマトンになぞらえ、○と●を入力文字として、遺跡にある白と黒の2つのどちらかの扉を開けて部屋を移動するという動作に割り当て、遺跡へ入って出てくるという動作で、遺跡が○と●を入力文字列として受け入れということになぞらえていく。このことにより、オートマトンの動作に具体的なイメージを与えているのだ。最初に書いたように、万人受けする本だとは思えないが、オートマトンとかに少しでも興味がある人なら、その面白さはわかるだろう。

データ分析の力 因果関係に迫る思考法

伊藤公一朗氏のデータ分析の力 因果関係に迫る思考法を読んだ。最近色々な本を読んでいて、因果関係の見極めの重要さ・難しさということを痛感しているのだが、本書はどのようにしてデータ解析して、因果関係を見極めるかということに関して書かれた、初心者向けの入門書だ。

まず著者はデータ分析を「すし職人」になぞらえる。重要なことの一点目は、素晴らしいネタを仕入れること。二点目はそのネタのうまみを生かせる包丁さばきができること。三点目は、お客さんが求めている味や料理を提供できること。ここで言っている「ネタ」とはまさに「データ」の事なのだ。データがあればそれから魔法のツールを用いて、あっという間に、魔法の如く結論が導き出せるわけではないのである。解析できるデータがなければ、やはり解析できないのだ。これが何よりも重要だと思う。もちろん本書では触れられていない手法を用いて、不完全なデータからも何らかの結論を導く手法があのかもしれないが、元となるデータがお粗末ならば、やはりそのような手法を使っても、有効な結果は導き出せないだろう。本書では以下の手法について解説されている。

基本はランダム比較試験 (RCT)

因果関係を介入効果という指標で評価することがまず紹介されている。因果関係をもたらした効果を介入効果として定義する。本書で紹介されているのは、電力価格が上昇したときの消費電力の違いである。価格上昇 (X) がAさんの電力消費量 (Y) にもたらした影響の場合は、料金が上がらなかった場合の消費量を Y0 、料金が上がった時の消費量を Y1 とすると、Y0-Y1という介入効果あったということになる。問題はAさんについて、同時に Y0 と Y1 を観測することが不可能なことだ。そこで、介入を受けるグループと介入を受けないグループ (比較グループ) を設定し、これらのグループの平均を比べることで介入効果を見積もろうというのだ。この時のグループ分けをランダムに行えば、介入効果以外の要因を排除できるであろうという発想から来ている。これは最近はやりのA/Bテストと共通する考え方だ。むしろA/Bテストが、この考えをもとに行われているのだろう。

自然実験の結果から分析する

この自然実験は歴史は実験できるのか――自然実験が解き明かす人類史 - 隠居日録の自然実験と同じである。実際には、必ずしもRCTを実施できるわけではないので、別な解析手段・評価手法が必要になる。

RDデザイン

RDとはRegression Discontinuityの略で、この手法で重要なところはDが表す不連続だ。Dはあるいは境界線という言葉で表せるだろう。現実に存在するデータの中の不連続点・境界領域に着目し、その前後で若し不連続が発生していない場合を仮定して、それを比較グループとし、それと不連続が発生したグループを介入を受けたグループとして、両者を比較して、介入効果を調べるのだ。本書で紹介されていたのは、日本の医療制度における70才を境とする、自己負担額の減額と外来患者数の関係だ。外来患者数は70歳以上になる所で約10パーセント程度上昇していることがデータから読み取れる。ここで、何が原因となるかは網羅的に考慮しなければならないが、第一に思い浮かぶのが、自己負担額の変化(3割負担からの減額)であろう。

積分

世の中には、何らかのインセンティブが階段状になっていることがある。例えば、所得税累進課税などがその一例である。集積分析では、インセンティブが変わる境界点でのデータの集積度合を分析し、インセンティブの変化に反応した因果関係を検証する。

本書では、まず日本の自動車の重量と燃費規制について考察している。日本の燃費規制の制度では、自動車の重量が重くなるほど規制が緩くなっている。そこで、国土交通省が公開している自動車燃費一覧のデータを分析し、横軸に自動車の重量、縦軸に自動車台数の分布を選択してグラフを描くと、燃費の規制が緩くなる自動車重量の境界の所に高いピークが存在し、多くの自動車がその重量に分布していることがわかる。これは自動車の重量を重くすることで、緩い燃費規制が適応されるようにし、だがあまり自動車の重量を重くしたくないという自動車メーカの戦略が見えてくる。

また、オランダの給与所得者の所得額と納税者数の関係を調べた場合は、納税額の税率が上がる所の付近で、お椀に棘が突き出たような形の分布が見られた。これは実際の所得額の調整は狙った通りにできないからこのような形になったのだろうと想像される。職種別に、教師と軍人を比べた場合は、教師では全体平均よりも高いピークがの集積がみられるが、軍人にはピークが見られなかった。これは教師の方が給与の調整が容易にできることが考えられれる一方、軍人には給与額の調整ができないことが考えられる。

パネル・データ分析

パネル・データとは、複数のグループに対して、複数期間のデータが入手できる場合のデータのことをいう。本書で紹介されているのは、デンマーク外国人労働者の推移の分析である。デンマークでは1991年に税制改革があり、10万3千クローネ以上の外国人労働者所得税が以前に比べて大幅に下がった。一方10万3千クローネ未満の外語久人労働者の所得税は変わらなかった。そこで、10万3千クローネ以上の外国人労働者を介入グループとし、10万3千クローネ未満の外国人労働者を比較グループとして分析を行った。1980年の労働者数を1として比較すると、1991年を境に介入グループの伸び率が高くなり、1995年には2倍になった。一方比較グループの増加は抑えられており、2005年になってようやく2倍になった。

パネルデータ分析では介入グループと比較グループの介入前データにおいて、平行トレンドがあることが示されなければならない。その結果をもって、介入がもしなかったとしたら、同じようなトレンドで推移したところが、介入を受けたことによりどのように変化したかを分析するのだ。

本書には「データ分析をビジネスや政策決定に生かすためには?」という章があり、そこに、オバマ政権下で「エビデンスに基づく政策のための評議会設置法」という法律が施行され、政策がどれだけ効果を生み出したか「政策効果の大きさ」を物差しとして政策決定を行っていることが紹介されていた。日本においてもこのような制度が必要だと痛感した。