THE長文日記

長文とか短文とかのクレームは一切受け付けません

静止画を見せると動画を自動生成するニューラル・ネットワークをMITが開発

 時代は進むよどこまでも


 今度は静止画を見せると動画が自動生成されるニューラル・ネットワークが開発された

https://i.gyazo.com/7422f6c9e46c7f077aec5eaf905f7e05.gif

https://i.gyazo.com/5b8a0237346bbc2971c20a1f6c5932c9.gif

 左が入力された静止画で右が生成されたアニメーション

 波がさざめくなどの効果が自動的に得られているのがわかる。

https://i.gyazo.com/bd821ced4fa9149f80fe95bca7b0d623.gif

https://i.gyazo.com/aa5641b1150a01b25bc2a145bb2f5310.gif

 また、静止画を入力しなくても、特徴ベクトルを入力すると適当な動画を生成することもできる。

http://web.mit.edu/vondrick/tinyvideo/network.png

 このアルゴリズムの肝は、100次元のノイズから、背景画を2D、手前に写っているものを3Dとしてそれぞれ畳み込みを行い、3Dは途中でマスクも生成しておいて最後に全て合成して動画を生成。


http://web.mit.edu/vondrick/tinyvideo/discriminator.png


 生成された動画をDiscriminator(識別器)で本物(自然に撮影された動画)か偽物(自動生成された動画)か見分けるビデオ生成敵対学習(VGAN)を行う


http://web.mit.edu/vondrick/tinyvideo/future.png


 静止画から動画を生成する場合はさらに前段に2D畳み込み層が追加される。


 ソースコードgithubにて公開されている(torch7を使用)

no title

https://github.com/cvondrick/videogan


 学習済みモデルもあるので、すぐに遊ぶこともできる

 まあそのうちどこかの学生がアニメの顔なんかを自動的に動かしたりする実装をchainerあたりで書くんだろうなあ