ロボット・AIの「夢と現実」 今を見据えて、未来に繋げるために

2015.12.02
リスト
このエントリーをはてなブックマークに追加

画像・音声認識のブレイクスルーが訪れた

AIに関して最近、よく耳にするのが「Deep Learning」だ。これは一体、どのようなAI技術なのだろうか?

「Deep Learningは、人間や動物の脳を参考に作られたニューラル・ネットワーク(ニューラルネット)という技術の一種です。ニューラルネットは1950年代に研究開発が始まりましたが、当初から『ニューラル(脳の神経細胞)』とは名ばかりで、実際には複雑な数学的技法の産物でした。そのせいか、研究者達がどんなに頑張っても、中々性能が上がらず、実用化には至らなかったのです。
ところが今世紀に入ってから、脳科学の成果を本格的に導入し始めたことで大きな発展を遂げました。たとえば2004年にニューラルネット研究の大御所が、さまざまな分野の専門家達を集めた研究会を立ち上げましたが、その中に脳科学における視覚野の権威が含まれていたのです。
彼の意見を取り入れ、人間や動物が目で見た情報を視覚野がどう処理しているか、という脳科学の研究成果をニューラルネットに導入しました。そこから一気に画像認識の性能が上がったのですが、これを音声認識にも応用したところ、ここでも性能が飛躍的にアップしたのです。これが現在、Deep Learning、あるいはDeep Neural Network(ディープ・ニューラルネット)などと呼ばれている技術で、一般に画像や音声など、ある種のパターンを正確に認識できる技術として評価されています」

なるほど。確かに脳の視覚野の研究成果を取り入れたAI技術(Deep Learning)が、画像認識で素晴らしいパフォーマンスを示したのは納得できる。しかし、それが音声認識にも応用できたのは何故なのか?

「それは脳には汎用性があるからです。たとえば、こういう話があります:脳科学者がフェレットという小動物を使って実験をしました。ちょっとかわいそうな話ですが、フェレットの頭蓋骨を切り開いて、目から出て脳の視覚野に繋がっている神経のラインを切断し、これを聴覚野に繋ぎ直したのです。
当然、この動物は最初目が見えなくなりましたが、数ヶ月経つとまた(ぼんやりとですが)見えるようになりました。つまり本来、音声を処理すべき脳の領域(聴覚野)でも、無理矢理、目から入った視覚情報を与えられると、なんとか適応したというわけです。
これと同様の現象が、脳のそれ以外の領域でも観察され、ここから脳は汎用的な情報処理の仕組みに従っていることが、ほぼ確かめられました。この仕組みは『スパース・コーディング』と呼ばれていますが、これを導入したのがDeep Learningです。その結果、画像でも音声でも認識能力が一気に向上したのです。たとえば、ここ数年、スマートフォンなどで音声認識の精度がぐっと上がったのを実感している方も多いと思いますが、あれにはまさにDeep Learningが使われているのです」

Amazon Echo

「話題となったamazonの会話型コンピュータ兼スピーカー 「Amazon Echo」をはじめ、AIを搭載したデバイスと我々の生活との距離は確実に近付いている」(引用:amazon)

言葉を理解するまでには高いハードルが

「脳には汎用性がある」――そうと分かれば、脳を参考にすることによって単に画像や音声を認識するだけでなく、(コンピュータやロボットが)聞き取った音声を人間のように言葉として理解するAIが実現できないだろうか?

「いま期待が集まっているのは、まさにその分野で、これは『自然言語処理』と呼ばれる技術です。ただし、目で見たものや耳で聞いた音を脳が認識する仕組みは、犬や猫のような動物でも人間でもほぼ同じと思われますが、言葉を操るのは人間だけです。しかし人間の脳に対し、動物にやったのと同じような荒っぽい実験をすることはできません。もちろん、人間の頭がい骨を切り開かなくても、外から脳の動きを観察する手法は幾つかありますが、そこには残念ながら限界があります。つまり脳科学の分野で、もう一段のブレイクスルーが起きない限り、人間のように言葉を理解し、これを自由自在に操るAIを実現するのは難しいでしょう。それまでには相応の時間がかかると思います」

一気に躍進するかに思えたが、まだまだ高いハードルが立ちふさがるという。しかし、たとえばソフトバンクの「Pepper」やIBMの「Watson」などは一見、人間の言葉を理解しているようにも見えるのだが、
実際はどうなのだろうか?

「確かにPepperやWatsonにも、一種の自然言語処理の技術が搭載されています。専門的な用語では『記号処理型のAI』、あるいは『ルールベースのAI』などと呼ばれる技術で、AI全体の研究開発が始まった1950年代と基本的には同じ原則に従う、一種の『古典的な人工知能』です。ただし、それは私達人間に備わっているような汎用的で柔軟な知能というより、たとえばコンピュータに文法と語彙を移植して、機械的に言語を処理するといった仕組みです。
この種のAIは、過去に『全然使い物にならない』などと批判された時期が何度かあって、その度に『AIの冬』と呼ばれる低迷期を経験しました。それでも、研究者たちは黙々と努力し続けます。努力に努力を重ねることによって、ルールベースのAIも着々と進歩しているのです。たとえばアメリカのクイズ番組に出演して人間に勝ったり、最近では企業のカスタマーサポートにも導入されているAIコンピュータ『Watson』。これの言語能力には、実は古典的な『記号処理型のAI』を発展させた技術が、かなり使われているのです。
ただし、そこには性能上の限界があります。つまり『クイズ番組』や『カスタマーサポート』のように用途を一つに絞り込んでチューニングすれば、そうしたAIでも何とか使い物になりますが、人間のように、どんな状況でも本当に言葉の意味を理解し、それを自由自在に操る汎用的能力はありません。ましてや意識などを備えた、いわゆる『強いAI』と呼ばれる人工知能を実現する事は絶対に無理です。そうした本物のAIを実現するには、たとえ長い時間がかかっても脳科学の成果を導入していくしかないでしょう」

AIというと敷居が高い印象だが、小林さんの話を聞くうちに、意外に身近な話であることに気付いた。また、既にあらゆる産業に応用されている。映像や画像を認識する家電は珍しくなく、テレビやスマホの音声操作も可能になっている。また、スポーツや金融の分野では、データから簡易的なニュース記事を作成するAIが既に導入されている。

性能が向上すればするほど、更に多様なビジネスの現場でロボットやAIの導入が進むであろう。アイデア次第で、驚くような活用ができる。しかし、「何でもできる」「人間を越える」と漠然と思うだけでは、映画やマンガで思い描いた未来はいつまでたってもやってこない。キャッチーなニュースやキーワードに踊らされることなく、ロボットやAIに今、一体何ができるかを理解し、少し先の現実的な未来を見据え、夢を形にしていくべきだ。生活を豊かにするアイデアを出すのは、今のところ人間にしかできないのだから。
robot4
小林雅一(こばやし・まさかず) ●KDDI総研リサーチフェロー、情報セキュリティ大学院大学・客員准教授。東京大学・理学部物理学科卒、同大学院・理学系研究科修士課程了。東芝、日経BP、読売アメリカ、慶応義塾大学メディア・コミュニケーション研究所・非常勤講師などを経て、2006年より現職。ITやライフ・サイエンスなど先端科学技術の動向調査・研究が専門。著書に『AIの衝撃 人工知能は人類の敵か』(講談社現代新書、2015年)、『クラウドからAIへ アップル、グーグル、フェイスブックの次なる主戦場』(朝日新書、2013年)など多数。

執筆者:栃尾江美
写真:石原敦志

EVENTイベント