THE長文日記

長文とか短文とかのクレームは一切受け付けません

僕の言葉は3000次元しかないらしい

 ニューラルネットワークに入力したり出力したりするニューロンの「次元」と呼ぶ。

 例えば、256x256のカラー画像の場合、入力次元は19万6608次元であり、それを1000種類のカテゴリーに分類するとすれば、出力次元は1000次元である。


 先日、僕の20年分のブログをとりあえず雑にLSTMに突っ込んでみたところ、僕の使う文字は3000次元程度しかないことを知って愕然とした。


 まあ常用漢字が2136文字しかないんだから、ひらがな・カタカナと英数字、そして句読点などの記号、たまにプログラムが入ってるからそれに関する記号とかも入ってると思うとまあそんなもんかなという気がする。


 3000次元に圧縮されるって、ちょっと知的生命体として自信を喪失してしまうできごとだ。


 JIS第一水準が2,965字、JIS第二水準が3,390字もあるのに、僕はたった3000字しか使ってないのだ。

 ショックでかい。


 ちなみに単語レベルで形態素解析すると、単語でも6000種類くらいしか使ってないようだ。

 自分の語彙がこんなに少ないとは思わなかった。


 これくらい少ない語彙の順列組み合わせの違いだけで本を何冊も書いたのかと思うとビックリする。なんかやっぱりもしかするともうこれでいいのではないか。


 こんなに単純に見えるのならば、やっぱりニューラルネットワークに僕の代わりに原稿を書かせるのはそう無謀なこととも思えない。


 最近思ってるのは、ニューラルネットワークの学習法は、現在知られているよなう方法とは別に、人間や生物が学習しているのと同じように、環境への作用と認知によってさらに効果的な学習ができるのではないかということ。


 人間、頭を使うときには紙が必要になる。

 なんで紙が必要なのかなーと思っていたんだけど、考えていることを紙に書いて、それを読んでさらに反応する、というフィードバックループが思考を整理するのに役立つからだ。


 そしてもしかすると、もう人間というのはそれほど賢くも複雑でもないのかもしれない。


 なんかけっこうお手軽にAGIが作れちゃうんじゃないかなーと思えてきた。

 だってたった3000字の組み合わせでしかないわけだから、そしてそんなものをかなり雑にニューラルネットワークに放り込んでもなんとかなっちゃうわけだから、もう、ねえ。


 まあアメリカ人なんかアルファベット26文字と数字10文字の合計36次元しかないんだから、日本人に産まれて良かったなあと思うべきなのか。


 しかしそう考えると、言語が思考を制約したり、また逆に言語によって思考が偏ったりするのはむしろ必然なのではないかと思えてきた。


 でもたぶんまだ決定的に足りない何かがあって、それは環境への作用と適応みたいなものなんだけど、そのあたり、どうなるのかな