THE長文日記

長文とか短文とかのクレームは一切受け付けません

LeCun先生で振り返る、ディープラーニングに至るまでの進化の過程

 ディープラーニング界の雄といえば、まずトロント大学のヒントン先生、DeepMindのデニス・ハサビス先生、そしてFacebookのルカン(LeCun)先生の三者が挙げられるでしょう。他にもtheanoやpylearn2を開発したベンジオ先生という英雄がいるらしい。


 あるときふと、LeCun先生のバイオグラフィーを見る機会があって軽く見てみると、LeCun先生がこれまでどんな論文を発表してきたかがまとまっていて(あたりまえですが)、これがまさに機械学習進化の歴史と言ってもいい内容なので少しご紹介。


1985 Une procédure d'apprentissage pour réseau a seuil asymmetrique(ネットワーク非対称しきい値の学習プロセス)

 最も古い論文は1985年。フランスの学会で発表されたフランス語の論文です。

 この時点で既に単純な文字の認識をやろうとされています。

https://i.gyazo.com/b29b0c875791e282998a806c059d418b.png

 フランス語で書かれているのでぜんぜんわかりません。

 おそらくこの論文を英語で書き直したのが1986年の「Learning Processes in an Asymmetric Threshold Network」でしょう。


 そのあともAI関係の論文を書いてますがPDFがないので内容を確認できません。

 次にPDFが確認できるのは1989年

  1. 1989 Improving the Convergence of Back-Propagation Learning with Second-Order Methods(バックプロパゲーション学習の収束を改善する2次手法)

 ここでいう二次手法はSecond-Order Methodsで、なんと畳み込みです。

https://i.gyazo.com/7d15238eb1aa0ac2d879b5c30433d66c.png

 LeCun先生すごい!なんと30年も前から畳み込みによって学習が改善できることを指摘しています。


 AI第二次冬の時代が到来した頃のはずですが、なんだ、この時点でいい線まで行っていたんじゃないの


 そして初の手書き数字認識に関する論文がこれです。

1989 Handwritten Digit Recognition: Applications of Neural Net Chips and Automatic Learning,(手書き数字認識: 自動学習とニューラルネットの応用)

 この論文のあと、完全に芸風(?)が確立したのが次の論文です。

1990 Handwritten character recognition using neural network architectures(ニューラルネットを利用した手書き文字認識)

 この論文には、記念すべきアレが出てきます。

https://i.gyazo.com/587626f19bd146e638ca5135364378ad.png


 おお、これには見覚えが。

 でもこれはMNISTではありません。アメリカの郵便局で集めた、9298種類の手書き文字です。

 この頃はビッグデータなんて言葉が概念すらないので、機械学習の人はまずデータがありそうなところと仲良くしないと研究ができなかったんですね。


 さあそして1993年

1993 on-line recognition of limited vocabulary chinese character using multiple convolutional neural networks(多重畳み込みニューラルネットによる限定的漢字オンライン認識)


 ついに論文のタイトルに「畳込み」の文字が登場しました。早い。早過ぎる。

 1993年ですよ。

https://i.gyazo.com/4956482501cb3f744cafe1815d3c8d0f.png


 畳み込みのほうが全結合よりもニューラロンの数が少なくて済み、しかも性能的にも問題ないということが指摘してあります。LeCun先生すごい。

 ただ、この時点では「畳込みの方が性能が高い」ことまでは確定していませんでした。なぜなら,手書き数字認識くらいなら全結合でもなんとなく学習できてしまうからです。

1999 Object Recognition with Gradient-Based Learning(勾配ベース学習による物体認識)

 これはもう記念碑的論文と言ってもいいのかもしれません。

 ついにLeCun先生が畳込みニューラル・ネットワークの原型を完成させます。

https://i.gyazo.com/dee60aec2f3b804134022d69df3c3028.png

 これが世にいう、五層構造のLeNet-5です。

 畳込み層を3層、全結合層を2層で5層です。途中で「subsampling」しているのは層ではなく処理方法(今で言うプーリング)なのでここは層に含めないのです。

 その後、ヒントン先生のチームで作られるAlexNetも、Googleが好成績をマークするGooLeNetも、これと同じ構造をしています。


 20世紀の論文で既にあったわけですね。

 ちなみにこの論文では福島先生のネオコグニトロンにも言及しています。


 この論文は長いですが、今の畳込みニューラル・ネットワークの基本と当時の期待を知る貴重な論文なので時間のあるときにじっくり読んでみたいと思います。

http://yann.lecun.com/exdb/publis/pdf/lecun-99.pdf


2004 Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting(姿勢や照明が変化したときに対応する一般物体認識の学習方法)

 ついにここで一般物体認識に踏み込みます。

 2004年、ようやくビッグデータが注目された頃です。この前後ではビッグデータをいかに学習するかという論文を大量に書いていますが、ついにここまで来たということのようです。

https://i.gyazo.com/61e0fd076198bb6087ba29e9c64543e8.png


 手書き数字や文字のように単純なものだけでなく、写真を認識するにはどうすればいいか。

 全結合ネットやサポートベクターマシンなどを駆使して比較しています。

https://i.gyazo.com/e7800930666106edc023296cb0697e0a.png

 そして汎化性能を意味するtest errorが、畳込みニューラル・ネットワーク(図ではConvNet)がダントツに高性能であることを示しました。すごい!やったぜLeCun先生!



 さあ、そんな感じで偉大な業績に偉大な努力あり、ということがわかりましたね。

 LeCun先生を始めとして、いろいろな先生のたゆまぬ努力の結果、我々は今、楽しく深層ニューラルネットワークを使うことができるのです。


 そんなLeCun先生の最新研究はarXivで見ることが出来ます。

arXiv.org Search


 一番新しい論文は、少し前に話題になった、エナジーベースのGAN(敵対的生成ネットワーク)ですね。

 まあいまやLeCun先生の研究チームはFacebookがガッチリサポートしているので、最新技術の見本市みたいになっていますね。自動運転に畳み込みによる自然言語解析など、ありそうな技術はだいたい友達という感じです。


 最新の論文がオンラインで手軽に読めるというのは、本当にいい時代になったものですね。


 僕が子供の頃は、大学の図書館に行かないと論文なんか読めませんでした。

 今の子供は恵まれていますね。