デジタル化のコア技術、AI その全体像を把握する

2017.08.29
リスト
このエントリーをはてなブックマークに追加

「人の仕事が機械に奪われる」「社会がコンピュータに支配される」。少し前まではSFのテーマでしかなかったAI(人工知能)の脅威が、リアルな問題として議論されるようになった。前向きに表現すれば「AIなら何でもできるんでしょ?」という期待感である。しかし読者の多くはお分かりのように、今日のAIは一部の仕事を置き換えることはできても、そこまで賢くない。

第1次、2次のAIブームを振り返る

少し歴史を紐解こう(図1)。そもそも人間にしかできなかった計算を自動化するために作られたのがコンピュータという機械(Machine)である。1960年代に起きた第1次AIブームでは、パズルや迷路問題を解いたり、数学の定理を証明する推論・探索が盛んに行われた。機械翻訳の開発もすでにこの時期に開始されていた。しかし当時のコンピュータは性能が低く、高価でもあったのでブームは長続きしなかった。


図1:AI(人工知能)の進展

第2次AIブームが起きたのは1980年代。ミニコンピュータやワークステーションといった比較的安価で性能も高いコンピュータが普及したのが契機である。当時は専門家の知識や判断のロジックを記憶させ、複雑な問題を解かせる「エキスパートシステム」の実用化が試みられた。医療診断や金融における融資判断など多くの分野で様々な取り組みがあった。

だが90年代初めにブームは終焉する。相当量の知識や判断ロジックを記憶させたとしても現実の問題はそれ以上に複雑である。結果、例外が多発し、役立つシーンが限られることが明らかになったのが原因の1つだ。加えて知識や判断ロジックを大量に入力・蓄積すると、当時のコンピュータでは処理が追いつかず、結果を出すのに数時間以上かかってしまうこともあった。やはり性能はボトルネックの1つだったのだ。

ディープラーニングの原理とは

そして今日の第3次AIブームを迎える。原動力はコンピュータ性能・機能の飛躍的進化、および「ディープラーニング(深層学習、以下DL)」と呼ばれる技術だ。前者によって数百万、数千万の文献データを因果関係や論理構造を維持して記憶し、瞬時に検索・探索できるようになった。好例が米IBMの「Watson」であり、あるいはルールベース管理システム(RBMS)と呼ばれる判断を伴う業務を自動実行するシステムである。

後者のDLは、第2次AIブームの頃に盛んに研究された「ニューラルネットワーク(NN)」を発展させたもの。NNは脳神経系に範をとった数学モデルで、入力層、中間層、出力層の3層にニューロンを置く。詳細は省くが、大量のデータを用いてニューロンの関数をチューニングし(学習)、新しいデータが学習済みデータの何に相当するのかを分類(認識)することができた(図2)。DLに学習させるためのデータがWebを中心に大量に蓄積されたことも、第3次AIブームの重要な原動力となっている。


図2:ディープラーニング(深層学習)と従来の機械学習の違い

この「データから学習して分類する」という機能がキーポイントだ。研究が進む中で、層やニューロンを増やすと分類能力が上がることが分かってきた。しかも分類といっても、単に直線の基準線(平面)を引いて分けるような単純な分類ではない。様々な要素を持ち、微妙に異なるデータをうまく分類するよう、学習によって分類の基準線(面)をグニャグニャに曲げることができる。そして多層化によりグニャグニャの分類の基準線(面)を多数持てることも分かった。非常にパラメータが多く、論理的に考えると一見矛盾するような複雑な分類問題にも、DLが使えることが実証されたのだ。

例を挙げよう。人は猫と犬、ネズミの顔を見ただけで瞬時に見分けられる。なぜ、できるのか? 当然、「猫と犬は目の幅が違う」などと論理的(単純に)に推論しているわけではない。そうではなく、数多くの猫や犬を見てきた結果、脳内に多数のグニャグニャの面から成る分類空間があるとイメージしてほしい。何かの画像を見た時、その分類空間に当てはめて、瞬時に「あ、猫だ」と判断するだけである。なぜ犬ではないのかは簡単には説明できないが、猫であることは瞬時に分かる仕組みである。

しかもDLでは複雑な分類空間を作るのに人が介在しなくてもいい。大量のデータを使って学習させることで適切な分類空間を作れるのである。問題は、多層で多数のニューロンを実装したDLでは、学習の際に膨大な回数の計算が必要で、時間がかかり過ぎることだった。1990年代のワークステーションでニューロン数が、10個程度の3層ニューラルネットワークをなんとか実行できたと説明すると、計算処理の膨大さを推測できるだろう。今日でも解消したとはいえないが、クラウドや並列計算技術の進歩により、この問題は大幅に緩和された。

Google「猫の論文」の実際とは?

その成果の1つとして2012年に発表されたのが、有名なGoogleの「猫の論文」である。YouTubeから抽出した 1000万枚の写真を DLで学習させ、新たな画像に猫が含まれるかどうかを認識できるようになったというものである。とはいえDLは人間のように意識を持っておらず、話すこともできないので、この処理には少々工夫が必要である。

どういうことか説明すると、まず膨大な画像をDLに学習させる。そのDLに猫の画像をたくさん入力して多数あるニューロンの状態を監視すると、猫の画像に反応する特定のニューロンを探し出せる。それが分かると、未知の写真を入力した時にそのニューロンが強く反応したら、その写真には猫が写っていると判断できる=画像認識ができると考えるわけである。

これがいわゆる「教師なし学習」であり、DLの大きな特徴となっている。「コンピュータが自ら学んで賢くなる機能を獲得した。そのうち人を超える」という、ある種の誤解を招く要因でもある。なおGoogleは、猫に反応するニューロンから逆に入力側に辿ることによって、もっとも猫らしい画像を生成することにも成功している。

一方、「画像」と「写っているものの名前」をセットで入力して学習させることもできる。そのセットを準備する手間はかかるが、こうすれば学習したDLは未知の写真を入力した際に「写っているものの名前」を出力できるようになる。これが「教師あり学習」であり、実社会やビジネスで使えるDLにしようとすると、今のところは教師あり機械学習を使うことになるだろう。

もう一つ、Google傘下でAI関連技術を研究している米DeepMindが開発した囲碁プログラム「AlphaGo」についても簡単に言及しよう。数手先までを条件分岐させながらシミュレーションし、分岐した打ち手それぞれについてその勝率を計算。これを繰り返し、最も勝率が高そうな手を選択する。多くの囲碁プログラムが採用している「モンテカルロツリーサーチ」というポピュラーな仕組みである。

AlphaGoでは、この仕組みの精度を高めるためにDLを使用。人間のプロ棋士でも一生の対局回数はせいぜい数万局であるところ、16万局も学習することで精度の高いパターン認識を実現。さらにAI同士の自己対戦により勝率の学習も大量に行うことで、プロ棋士に勝利した。第1次AIブームから50 年、「コンピュータが人間に勝つのは当面無理」と言われた囲碁で、今や人間が勝てなくなりつつあるレベルに到達した──。

以上、AIの歴史をざっと概観し、今、ホットな技術であるDLを紹介した。こういう説明をしたのには理由がある。DLは確かに重要で注目すべき技術だが、「AI」という時、DLだけとは限らないことをお伝えしたかったのだ。それにDLが学習した内容を人間が読むことはできず、判断の理由を説明できない問題もある。上の例でも挙げたように、人は猫を見て「猫だ」と判断できてもその理由を簡単には説明できない。人の脳神経系をモデルとしたDLも同様の問題を抱えている。

何よりも昔から研究開発されてきたルールベースや知識ベースも、今日では実用化が広がっている。論理的な記号処理も重要なのだ。ほかにも分類を得意とする「ナイーブベイズ」や「サポートベクターマシン」、また「遺伝的アルゴリズム」という最適化問題に適した技術もある。こうした様々な技術を巧妙に組み合わせ、問題を解決することが大切であり、我々に問われていることであると認識している。

AI実践にはAPI利用が有望

AI、特にDLについて感覚を把握したところで、実際のシステムやサービス開発にどうAIを生かせばいいのかに話を移そう。当然のことだが、基礎的な研究開発は専門の研究機関やIT 企業に任せ、企業はその成果を生かすことを考えるべきである。この視点に立った時、利用可能なツールやソリューションはすでに数多くある。オープンソースとして公開されているDLのフレームワークだけを取り上げても、日本のプリファードインフラストラクチャー&プリファードネットワークの「Chainer」、Googleの「TensorFlow」、Microsoftの「Cognitive Toolkit(旧CNTK)」、カリフォルニア大バークレー校BVLCの「Caffe」などがある。

一方、より応用指向で簡単に試したり使ったりできるのが、クラウド事業者やICT ベンダーのサービス(API)だ(表1)。


表1:海外大手ITが提供中のAI関連APIの一部。例えばマイクロソフトは20以上のAPIを提供中である

一例としてマイクロソフトの「Cognitive Services」を見てみよう。同社は20種を超えるAPIを提供しており、その中には、画像を認識して趣旨に合うサムネイル画像を作成したり、説明をつけるAPI、画像から文字データを読み取るAPI、顔写真から喜怒哀楽などの感情を判定するAPI、音声データとテキストを相互変換するAPI、学術文献や著者を検索するAPIなどがある。2017年4月にはリアルタイム翻訳を行う「Microsoft Translator Speech API」を発表。同社のサービスであるSkypeに実装した。

Googleはどうか? 画像内のさまざまな物体を検出して分類するVision API、言語翻訳のTranslate API、非構造化テキストから有意な情報を抽出するNatural Language APIなどを提供する。ほかにもIBMやAmazon Web Service、Salesforce.comがAI関連のAPIを提供している。

特に米国では、ベンチャーを中心に、ヘルスケアや製造、金融、教育などの応用特化型AIソリューションも多数ある。当然、英語ベースで日本語でも使えるとは限らない。それでも「共創のためのサービス体系」における情報収集のステップでリサーチし、訪問して議論すれば得るものは大きいはずだ。使えるものはどんどん試し、活用することが重要である。

富士通の「Zinrai」について

最後に富士通のAIソリューションについて解説しておこう。第2次AIブームの頃から継続的にAIの研究開発に取り組んできたが、2015年11月に改めて「Human Centric AI Zinrai(迅雷)」と命名して体系化した。脳科学のような先端研究やディープラーニング関連の技術開発からなる基盤技術の分野、画像処理や感情認識、自然言語処理、推論/計画といった実用を意識した分野をまとめている。技術と応用の両面から取り組んでいると考えていただきたい。

2016年11月には、具体的なサービスを複数、発表した。1つは学習性能に配慮した「Zinraiディープラーニング(Zinrai DL)」である。DLの実行エンジンには汎用CPUではなく、内部に多数のコアを搭載したGPUを使うのが普通だ。しかしGPU1台を使う場合はともかく、複数のGPUを使おうとするとGPU同士のデータ共有がボトルネックになって学習性能が向上しない問題があった。

Zinrai DLは、この問題を新規開発した並列化技術で解決した。GPU1台に対して16台の場合で14.7倍、64台の場合では27倍と完全に線形ではないが、性能劣化を最少化している。なおGPUには「NVIDIA TeslaP100」を、DLフレームワークには上述の「Caffe」を採用している。2017年4月にサービスの形で開始し、DL専用機としての販売も予定している。

DL専用のプロセサも開発中

同時にDL専用プロセサ「DLU」の開発も発表した。海外ではIBMやGoogleがやはり専用プロセサを開発している。NVIDIA Teslaは優れたGPUだが、本来はゲームなどの画像処理向け。やはりDL専用のプロセサがあるべきとの考えからだ。富士通が開発中のDLUはスパコンで磨いてきた大規模並列処理に関するノウハウをもとに、DL専用のアーキテクチャを採用した。省電力設計を徹底して発熱の問題もなくした。2018年には製品化する計画である。

さらに「FUJITSU AI Solution Zinraiプラットフォームサービス」として、「知覚・認識」、「知識化」、「判断・支援」の3分野18種類の基本API、および12種類の目的別APIを2017年度中に用意していく。この4月には画像認識や音声のテキスト化、知識や情報の検索・構造化、手書き文字認識、音声合成、予測の7種類の基本APIと、需要予測と専門分野別意味検索という2種類の目的別APIをリリースし、順次拡大していく予定である(図3)。


図3:富士通が2017年4月から順次リリースするAI API

こう説明すると、「なぜ今から富士通がAI関連のAPIを? 海外勢はとっくに提供しているんだから、それを使えばいいのでは?」という疑問が生じるかも知れない。確かにそういう面はあるが、1つには責任を持ってAIを実用化するためにハードウェア基盤からソフトウェアまでを富士通自身が手掛ける必要がある。もう一つは学習には企業が保有する大量データを使わなければならないが、その時、データの権利や取り扱いに関して、富士通のソリューションを期待する声が多いからである。富士通は、AI技術がデジタルビジネスのあらゆるシーンにおいて重要な役割を果たすと考えており、全社を挙げてAIへの取り組みを加速する所存である。

執筆者:中条 薫(富士通 AIサービス事業本部本部長)
高橋 哲朗(富士通研究所 人工知能研究所)

この記事は、IT Leaders特別編集版『Knowledge Integration in Action 2017 in Summer』からの抜粋です。

トップ写真:Bluehousestudio/Getty Images

EVENTイベント