隠居日録

隠居日録

2016年(世にいう平成28年)、発作的に会社を辞め、隠居生活に入る。日々を読書と散歩に費やす

深層学習の原理に迫る 数学の挑戦

今泉允聡氏の深層学習の原理に迫る 数学の挑戦を読んだ。本書は深層学習がなぜ既存のニューラルネットワークに比べて高い性能が出るのかについて解説している。数学的側面から解説はしているが、難しい数式は殆ど出てこない。

多層の理由

普遍近似定理で「層が2層のニューラルネットがどんな関数であってもほぼ正確に表現できることが示されている。

普遍近似定理

層が2つあるニューラルネットワークは、一層辺りのパラメータの数が十分多ければ、どんな連続関数でも(無視できる範囲の誤差で)表現できる。

また、近似誤差レート(ニューラルネットワークのパラメーターの数を増やしたときの誤差の減少率)は2層のニューラルネットワークが十分に良い性能を持っていることも示されている。しかし、近年多層のニューラルネットの性能が従来型のニューラルネットを上回っている。一つ重要な点は「近似誤差レート」の考察の前提条件がニューラルネットで表そうとしている関数が滑らかである(微分可能)という前提がある。ある点で急峻に変化するような関数は微分不可能で、前提条件に合わない。また、不連続な点がある関数も、微分不可能だ。このような不連続な点がある場合は4層以上のニューラルネットワークが必要なことが導き出されている。

また、ニューラルネットワークで表そうとしている関数の滑らかさが非均一の場合も4層以上のニューラルネットワークが必要なことがわかってきた。

多パラメーター

従来は多パラメーターは過適応(過学習)になると考えられていたが、深層学習のニューラルネットワークは層が深いだけでなく、多パラメーターで、性能を上げている。

PACベイズ理論

PACベイズ理論とは、学習済のパラメータに人工的に摂動を事後的に加えて、その摂動による誤差を平均化することで、過適合しやすさを導出する理論である。学習されたパラメータが誤差関数の平坦最少解であるならば、摂動を与えても誤差関数の値はほぼ変わらない。PACベイズ理論は以下のような式を導き出す。

過適合しやすさ=誤差関数の平坦さの逆数+係数×\sqrt{\frac{パラメーターの数×各パラメータの平均値}{訓練データの数}}

この式の2項目にパラメータの数があり、その数に依存しているが、1項目に誤差関数の平坦さがあり、誤差関数が平坦であれば、過適合が起きにくくなることを示唆している。