THE長文日記

長文とか短文とかのクレームは一切受け付けません

中島聡さんの国立AIクラウドに関する批判は的外れ

 中島聡さんは尊敬するプログラマーの一人でもあるし、最近対談したりもしてる(https://codeiq.jp/magazine/2016/08/43799/)

 中島さんのブログはこちら→http://satoshi.blogs.com


 その中島さんが、国家プロジェクトであるディープラーニング用橋渡しクラウド(ABCI)を「スパコンは税金の無駄遣い」と呼んでケチをつけているという。さすがにこれは見逃せないので一言言わせていただく。

税金195億のムダ。戦略なき日本のスパコン開発を中島聡氏が批判 - まぐまぐニュース!

http://www.mag2.com/p/news/229866


 まず、京とABCIでは目的も構成もぜんぜん違う。

 ABCIのイメージ的にはTSUBAMEに近い。また、195億円は建屋や研究施設も含めた総工費であって、実際のABCIはその数分の一以下の予算で作られている。



 中島さんはものすごく頭がいい人なので、ディープラーニングなど触らなくてもわかってる。その限界も可能性も両方分かっている。・・・と思ってらっしゃるんだろう。その上で、ABCIは無駄遣いだと切り捨てる。でもたぶんABCIがなんなのか、ぜんぜん理解してない。しようともしてない。



 いま、日本の私企業で、MicrosoftGoogleFacebookのように膨大な計算資源を確保できる会社がどれだけあるのだろうか。


 僕の知っている例では、わずかにドワンゴだけが、100台規模のGPUクラスタ紅莉栖を持っているだけである。この紅莉栖は、東京大学が持っている普通の設備よりも多くの計算資源であり、ドワンゴはこれを東京大学の学生が研究に使えるように一部解放している。


 しかし、この設備はハッキリ言って焼け石に水以下と言える。


 Googleが1000台規模のクラスタで猫を発見したりとか、Microsoftが、Amazonが、気の遠くなるような計算資源を用意してクラウドサービスとして展開している現状において、なぜ東証一部とはいえ、売上規模としてはいち中小企業にすぎないドワンゴが東大に計算資源を寄付しなければならないような状況に陥っているのか。


 それは我が国がディープラーニングというものの可能性に気づくのが、ほんの数年、欧米に遅れてしまったからである。


 私も昨年、ドワンゴトヨタが共同で寄付した東大の深層学習寄付講座を聴講した。そこで起きていたのは、学生同士による計算資源の熾烈な奪い合いである。授業に使うサーバーが落ちる落ちる。クラウド上にあるのにアクセスが満足にできない。学生も真剣だから色々な仮説を試したいのに、肝心の計算資源が足りない。これでは研究もおぼつかない。これでは意欲や能力があっても、欧米に大きく遅れを取ってしまうのは自明である。


 日本の名だたる企業が連合で10億寄付して開催した講座がこの有様だ。一般の学生の事情は推して知るべし。


 そして、日本の大企業には、そうした大胆な投資判断を未だできないでいる。

 1000台規模のクラスタ、建造費数十億円のディープラーニングへの投資を単独できる大企業はそう多くない。そういうノウハウはネット企業にしかないし、ネット企業にはディープラーニングを十分活用できるだけのビジネス的なバックグラウンドがないからだ。


 実際にディープラーニングによって飛躍的に成果が上がると考えられるのは、ネット企業よりもむしろ既存のエスタブリッシュメント企業だったり、第一次、第二次産業だったりするのだが、そうした会社はディープラーニングの重要性を理解するのが、ネット企業よりもさらに数ステップ遅いからだ。


 人材の育成となればこれも大きく周回遅れしているのは否めない。まず計算資源が必要なのは大学であり、公的研究機関であるはずなのだ。しかし、今この段階で、素早い判断をして、素早い調達をして、人材を育てるという決断ができるエスタブリッシュメント企業は少ない、というかほとんど存在してない、と言っても良い。


 工場と違って、ディープラーニングが具体的にどのように業務を改善するのか、その指標も見えない段階では、大企業が及び腰になるのはむしろ当たり前である。工場の場合、建てる時に実稼働時の売上と利益予測が立てられるから、銀行もお金を貸してくれやすい。しかしディープラーニングはいまのところ、どのように活用すればいいのか手探りの段階である。


 この段階では、まだお金を持っていない学生や研究者、ベンチャー企業などが頑張って応用法を模索したり、色々な仮説を同時並行的に試したりしなければならない。我々も相当数の深層学習マシンを所有しているが、いくらあっても足りないというのが正直なところだ。昨年のMaxwell世代のTITANXは、世界中から在庫が払底してしまった、それでもまだ足りない、というのが今の状況である。


 研究を支援するためにまず圧倒的に必要なのは計算資源であり、この計算資源がないことが、我が国の国力を直接削ぐような危機を呼び込んでいる。


 そもそもABCIは、スパコンではない。

 スパコンには絶対必要とされる、倍精度浮動小数点演算がない。


 つまりABCIは、そもそもスパコンとしては全く使えない。京とは全く目的が異なり、気象予報とかには全く向いていない。


 だからABCIがあれば京はいらなくなるとか、そういう問題ではない。


 新聞屋さんはセンセーショナルなニュースを欲しがるから、ちょっとスペックの高い計算資源を国が調達しようとすると、すぐに「スパコン」というレッテルを貼りたがる。その尻馬にのって、ろくに調べもせずに批判するのはいかがなものか。


 ABCIの開発を無駄と断言する中島さんは我々日本の宝である東大生や国内の研究者たちに、MicrosoftAmazonクラウドを使って研究せよと仰るのか。

現時点で、本気で Deep Learning の研究をしている研究者は、自作のパソコンに高性能な GPU カードを挿して専用マシンを作っています。ニューラルネットワークのトレーニングには膨大な計算能力が必要で、彼らにとっては高性能な専用マシンが必須なのです。

パソコンとは言え、最新のGPU カードは一昔前のスパコン並みの能力を持っており(例:NVIDEA TESLA M40 は 7 teraflops)、そんなマシンを、一人の研究者が、何時間も何日間も占有して使える時代になったのです。

そんなニーズに応えようと、AmazonGPGPU のレンタルサービスを充実させ始めましたが、まだまだ値段が高く、何時間もマシンを専用して学習させるのであれば、自作マシンの方がコストパフォーマンスが良いのが現状です。

国は195億円も税金を投入したスパコンを使い、何をしようというのでしょうか? 国立大学に安く時間貸しするのでしょうか? そのあたりが私には全く見えて来ません。

 ABCIが目指すのは、まさにその「研究者が使うハイエンドPC」を大量に並列化したもので、これを電気代程度の負担で国内の企業や学生に貸し出そうという試みである。


 AmazonGPGPUMicrosoftのAzureを使うよりも、安価に、しかも大量の学習ができる機械を調達しようとしているのに、中身も見ずに「スパコン」という言葉のイメージ(しかもそれも誤り)で批判とは、さすがに僕自身も中島さんに対して失望すら感じます。


 うちの会社はまさしくその「一昔前のスパコン並」の深層学習向けハイエンドPCを売っています(http://deepstation.jp)。ですが、これはあくまでも入門用が数十万円、プロ用のスペックとなれば簡単に数百万円のオーダーとなり、研究者だからといっておいそれと手に入るものでもありません。


 そのうえ、GPUによる学習は、うまくやれば分散学習ができるのですが、一台あたり数百万円のマシンを何台も買うよりも、クラウド時間貸しをしてもらったほうがよほど効率的です。


 ある学習タスクを一台のマシンでやると普通に数ヶ月かかります。

 たとえば、ImageNetのデータをダウンロードするだけでも6日とか平気でかかります。

 誰もが実験に使う典型的なデータですら、ダウンロードするだけでそれだけの時間がかかるわけです。

 これが、クラウドで共有化されていれば、ダウンロードし直す手間はないし、ABCIをハブとして、日本の研究者コミュニティ全体の底上げが期待できます。


 また、ABCIは京のような専門家しか使えないスパコンとは根本的に異なります。

 専門の研究者だけでなく、民間企業がディープラーニングというものを身近に学ぶために、手軽に使えるようなものも目指しています。


 ちょうど、来週月曜日に内閣府の「新たな情報財検討委員会」で僕も委員としてプレゼンすることになっています。


 このプレゼンの中で、国家AI戦略の要所として今回中島さんが批判しているABCIについて、そのあるべき姿を提言しています。


 なんで僕が提言しているのかというと、任意組織である機械学習利用促進勉強会(MLEP)で利用促進のためのツールとして知的財産戦略やABCIの位置づけをこの半年間、ずっと議論してきた当事者だからです。


 内閣府の委員会は一般の方でも無料で傍聴できます(応募多数の場合、制限あり)。

新たな情報財検討委員会の開催について

http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/kensho_hyoka_kikaku/2017/johozai/dai2/kaisai.html


 既に遅れ始めた日本のAI戦略を底上げするには、私企業の自助努力だけに頼っているわけにはいきません。

 日本は重要な社会インフラこそ、国が主導権を握って大きくしてきたという歴史があります。


 タバコも郵便も電話も、携帯電話もそうです。官が育てて、民営化させるというのが常套手段です。

 だいたい、当の中島さん自身も、もとは東大で学び、NTTという国策企業の研究所で働いていたはずではありませんか。自分は良くて、今の学生が国から計算資源を分けてもらうチャンスすら否定するのでしょうか?


 ちなみにABCIのモデルケースとしては京よりも遥かに構造が近い東工大TSUBAMEは、国産唯一と言って良い深層学習フレームワークChainerの開発に貢献しています。ABCIもおそらく同じように様々な研究機関や民間企業の研究活動を強力にサポートしてくれるようになるでしょう。ちなみにABCIの設計にはTSUBAMEの松岡先生も関わっています。


 資源のない島国である我々は、インフラ整備は基本的に国家の仕事と思っています。

 AIのインフラを考える上で、ABCIはその要石とも言える重要な計算資源です。


 さくらインターネットも高火力コンピューティングなど、比較的安価なサービスを提供していますが、まだまだハードルが高く、個人が気軽に使うというわけにはいきません。


 だからこそ我が国にはABCIが必要なのです。


 こんなインタビューにつきあってるヒマがあったら、その才能を発揮して、なにかマシな深層学習のツールでも作っていただいたほうがよっぽど国のためになると思うんですけどね。どうですか、中島さん。


 あーあと

私が担当者であれば、まずは「専用ハードウェアによる機械学習アクセラレーション」というテーマの研究の提案を各大学にさせ、優秀な提案には一件当たり1千万程度の予算を与えて、設計・試作をしてもらいます。そして、その結果次第では、ベンチャー企業として独立するためのさらなる資金を与えるなり、既存の企業への技術移転をしてもらい、実用化を目指します。


 こんなの数十億じゃそもそも無理ですから。最低100億は必要です。そしてもう予算がついてるプロジェクトもあります。


 ちょっと現状に疎すぎませんか。


 ASICの試作を一千万とかそもそも不可能ですよ。最低でも数億、ちゃんと動くものならやっぱり百億はかかります。そんな安価にできるなら、さすがにルネサスとかとっくにやってますよ。


 これって「一千万やるから画期的な電気自動車つくれ」とか「一千万やるから画期的なスマートフォンを試作しろ」くらい無茶ですよ。