今泉允聡氏の深層学習の原理に迫る 数学の挑戦を読んだ。本書は深層学習がなぜ既存のニューラルネットワークに比べて高い性能が出るのかについて解説している。数学的側面から解説はしているが、難しい数式は殆ど出てこない。
多層の理由
普遍近似定理で「層が2層のニューラルネットがどんな関数であってもほぼ正確に表現できることが示されている。
普遍近似定理
層が2つあるニューラルネットワークは、一層辺りのパラメータの数が十分多ければ、どんな連続関数でも(無視できる範囲の誤差で)表現できる。
また、近似誤差レート(ニューラルネットワークのパラメーターの数を増やしたときの誤差の減少率)は2層のニューラルネットワークが十分に良い性能を持っていることも示されている。しかし、近年多層のニューラルネットの性能が従来型のニューラルネットを上回っている。一つ重要な点は「近似誤差レート」の考察の前提条件がニューラルネットで表そうとしている関数が滑らかである(微分可能)という前提がある。ある点で急峻に変化するような関数は微分不可能で、前提条件に合わない。また、不連続な点がある関数も、微分不可能だ。このような不連続な点がある場合は4層以上のニューラルネットワークが必要なことが導き出されている。
また、ニューラルネットワークで表そうとしている関数の滑らかさが非均一の場合も4層以上のニューラルネットワークが必要なことがわかってきた。
多パラメーター
従来は多パラメーターは過適応(過学習)になると考えられていたが、深層学習のニューラルネットワークは層が深いだけでなく、多パラメーターで、性能を上げている。