人工知能はチーズバーガーの夢を見るか

自分の中で、今年の流行語大賞は「PPMP（パイソンパイセン、マジパネエ）」。ポンダッドです。

「人工無脳（Bot）と人工知能(AI)の違いとはなんだろう。」そんな事について感じたことを書いてみます。ただのポエムです。

チーズ・バーガーとバイオレンス

映画「パルプフィクション」の中で、こんな印象的なシーンがあります。

組織の裏切り者の自宅に、ギャング２人組が乗り込みます。サミュエル・L・ジャクソン演じる「ジュールス・ウィンフィールド」とジョン・トラボルタ演じる「ヴィンセント・ベガ」の２人組です。

組織にとって重要なものを盗んだ裏切り者のグループは、明らかに悪そうな二人組に対し震え上がります。

ジュールスはそんな相手に対し、目もくれず気さくな口調で話しかけます。

「No, no-no-no-no, where’d you get them? McDonald’s, Wendy’s, Jack-in-the-Box, where?(ああ、違う違う！どこで買ったんだ、マクドナルド？ウェンズディ？ジャックインザボックス？)」

「Big Kahuna Burger! That’s that Hawaiian burger joint. I hear they got some tasty burgers. Ain’t never had one myself. How are they?(ビッグカフナバーガー！ハワイ風のやつだな。俺は食ったことねぇけどイケるそうじゃねぇか。)」

「You mind if I try one of yours?(食べても？)」

「Mm-hmm! This is a tasty burger!(んん！こいつはイケる！)」

一連の会話は一見日常よくみられる他愛無い会話ですが、サミュエル・L・ジャクソン演じる「ジュールス」が冷徹な眼付きでハンバーガーを頬張る姿に観客は恐怖を覚えるはずです。

クエンティン・タランティーノの演出の妙により、静かに暴力の予感を感じさせる名シーンの一つでもあります。

無脳と知能

さて、人工知能の話です。ここしばらく人工無脳（Bot）づくりに凝っていたのですが、いつもふと思うところがありました。

「人工無脳（Bot）と人工知能(AI)の違いとはなんだろう。」

人工知能は人間を超えるかディープラーニングの先にあるもの (角川EPUB選書) - Amazon.co.jp こちらの書籍、最初に読んだ時は内容が少し難しくなかなか理解できなかったのですが、機械学習を少し独学したのちに読み直してみたところ、成る程と腑に落ちました。

著書の中で過去の人工知能ブームを振り返り、なぜその後停滞してしまったかを振り返ります。

1960年代の第1次人工知能ブームでは迷路やパズル、ゲームなど分野で成果を発揮しました。しかし限定的なルールの中でしか問題解決が出来ない事が判明しました。

1980年代の第2次人工知能ブームでは数多くのデータを入力する事により、一見すると人間の様々な問題を解決出来るかに見えました。しかし膨大なデータ蓄積するだけでは人間が持つ知識を理解することは叶いませんでした。

※ いわゆる人工無脳（Elizaなど）はこの第2次人工知能ブームに含まれる様です。

膨大なデータを知識として利用するには、機械に「知能」を持たすしかない。その様な研究は初期段階から盛んに行われてきた様ですが、コンンピューターの処理能力や膨大なデータの収集などの問題により実現には至りませんでした。

2000年代の第3次人工知能ブームにより大きな変化が訪れます。「機械学習」によりプログラム自身が学習する事が可能になったのです。

これにより、レコメンドシステムなどが実用的なレベルで利用可能になりました。しかしながら学習の精度を上げるためには（特徴量を設計するには）最終的に人間の高度な知識と経験が必要となり、そこには限界があります。

近年、その限界を突破する技術が現れました。それが深層学習（ディープラーニング）です。

深層学習（ディープラーニング）

特徴量を機械が自動的に計算する事により、機械が「概念」を理解し始めたという話も最近では聞かれる様になりました。では、深層学習とはどんな仕組みになっているのでしょうか。

深層学習では「ニューラル・ネットワーク」という仕組みを利用します。

人間の神経細胞を図で表すとこんな風になる様です。このニューロンは生後10ヶ月で形成され、以降増えることは無いといいます。140億個といわれるニューロン同士を繋ぐ情報伝達物質はシナプスと呼ばれます。一つのニューロンから8000ものシナプスが生まれますがこれは３歳までしか発達しないといわれています。（参考：e-育児）

「三つ子の魂百まで」そんな格言は科学的にも正しいんだな、と思ったことのある方も多いかと思います。親の愛情を一身に受け112兆ものシナプスが私たちの脳の中にはあるということです。

さて、この神経細胞を模して作られたのがニューラル・ネットワークです。図で表すとこんな風になります。

この図の一つの円を一つの細胞とみなします。こちらから細胞の一つを取り出してみます。

入力がx1、x2、x3…出力がyとなります。入力される情報は全て重要だとは限りません。そこで、それぞれの入力に対しw1、w2、w3…という様に重要度の重りを設定します。これが神経細胞におけるシナプスに相当します。

事前にしきい値biasを決めておけば、入力xに対して出力yを決定づける事が出来ます。

この様な神経細胞を複数組み合わせる事でニューラルネットワークは出来ています。さらに深層学習ではこれを複数層重ね合わせる事で精度を高めることができるそうです。

（参考：JavaScriptで簡単に実践できる深層学習（1）- IT pro）

…ここはかのブルース・リー師父の言葉に従う事にします。

「Don’t think.Feel.（考えるな。感じろ。）」

特徴量を機械が自分で計算する事により、人間が計算したものよりはるかに高い精度の機械学習が行える事が出来る様になった。という事を理解できた様に感じました。

CNNとRNN

深層学習の深さを感じることは出来ましたが、では実際にどうな事が実現されているのでしょうか。機械が「概念」を持つとはどんな事なのでしょうか。

最近こんな記事を読んでちょっとどきりとしました。

GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ、そうとしか言えない不思議な現象が - TechCrunch Japan

Googleの翻訳ツールの精度が上がったとは聞いていたのですが、どうも翻訳AIが人間には理解できない中間言語を持ち始めたというのです。

清水亮さんが深層学習に関して過去のブログでこんな記事を書かれていました。

今流行ってるディープラーニングは画像が主流(従来技術では画像認識が一番難しかった)だが、学習できるものは画像だけに限らない。(中略）

CNN(コンボリューションニューラルネットワーク)に代表されるニューラルネットワークは内部状態を持たず、学習結果がネットワークそのものに保存される。つまり、ある時点のニューラルネットワークに同じ入力を与えれば常に同じ出力が返ってくる。

これに対し、RNN(リカレントニューラルネットワーク)は内部状態を持ち、同じ入力を与えても文脈によって出力が異なる。

イメージ的にはCNNが数学上の関数に近い(同じ入力に対しては常に同じ答え)のに対し、RNNはコンピュータや動物に近い。

ディープラーニングがなんなのか簡単に知りたい人はこれを読もう - shi3zの長文日記

深層学習にはいくつかモデルが存在し、それらを組み合わせる事で更に高度な学習が行える様です。

イメージキャプショニングと呼ばれる技術が開発されていますが、これは画像から深層学習により文章を生成することの出来る技術です。

画像引用：Show and Tell: image captioning open sourced in TensorFlow　- Google Research Blog

これはCNN(コンボリューションニューラルネットワーク)→RNN(リカレントニューラルネットワーク)を使って実現しているのですが、逆の生成も出来る そうなのです。

つまり、ある言葉を元にして機械が持つ「概念」を画像や他言語を通じて具体化出来る様になった。ということです。

(参考：よくわかる人工知能　最先端の人だけが知っているディープラーニングのひみつ - Amazon.co.jp）

…妖怪ウォッチに出てくる「コマさん」ならずともこんな感想を持つことでしょう。

「いやー、オラ、おったまげただ〜。」

「無脳」と「知能」の違いとは、機械が「概念」を持つか否かである。という事も出来るのではないでしょうか。

人工知能はチーズバーガーの夢を見るか

さて、冒頭のパルプフィクションのシーンに戻ります。

パルプ・フィクションをはじめとしたクエンティン・タランティーノ監督作品を人工知能が見続けたとしたら、チーズバーガーを頬張り、スプライトで流し込むサミュエル・L・ジャクソンを見てこんな概念を持つかもしれません。

「ああ、前作『レザボア・ドッグス』と同じだ。タランティーノはこうやってファストフードを画面に出す事、つまりは日常にありふれた物を画面に持ち出すことで観客の心を緩ませるんだ。不穏な場面をより効果的に見せる演出なんだ。ここで気を許しちゃいけない。この後想像を超えるバイオレンスシーンが待ち受けているぞ…。」

こんなオタク丸出しの人工知能が現れるのも、もうすぐなのかもしれませんね。ではまた。