mis

囲碁界震わす「AlphaGo」のAI、Deep Learningが生みだす強さの秘密

2017.02.02
リスト
このエントリーをはてなブックマークに追加

AI(人工知能)を使った囲碁プログラム「AlphaGo」がプロ棋士に勝利したことが2016年に大きな話題になりました。その後も米GoogleはAlphaGoの開発を続けています。そのAlphaGoの戦い方は「直感的」「戦略的」などと評されています。その“直感”や“戦略”を実現しているのがAIですが、実際にはどのような仕組みなのでしょうか。Googleが公開したAlphaGoに関する論文などから、その仕組みを探ってみましょう。

AlphaGoは、Google傘下でAI関連技術を研究している米DeepMindが開発した囲碁プログラムです。2016年3月に、韓国の世界クラスのトップ棋士を相手にした「チャレンジマッチ」を4勝1敗で勝利し、囲碁に詳しくない人々の間でも一躍有名になりました(動画)。DeepMindは今も、AlphaGoの開発を続けており、さらに強くなっていることを2017年1月に発表しました。進化したAlphaGoは、インターネット上での対局に「Magister」や「Master」の名前で参戦し、日中韓のトップ棋士たちに60連勝したのです。しかも1手を打つのに要した時間は、2016年が平均1分程度だったのに対し、ネット対局では平均5秒以下でした。2017年中には新たな公式戦を実施するとしています。

動画:2016年3月に開かれた「チャレンジマッチ」でのLee Sedol氏との第1局のサマリー

従来、囲碁の世界では「コンピューターがプロ棋士に勝利するのは、しばらく先の話」とされてきました。囲碁は黒と白の石を打って陣地を取り合うゲームですが、その盤面は19×19と広く、石を打てる場所が多くあります。そのため、どれだけ高性能なコンピューターを使っても、すべての手をシミュレーションするのは困難だと考えられてきたからです。それが、突如現れたAlphaGoが、プロ棋士に勝利したことで、AIが持つ大きな可能性と「コンピューターが人間の仕事を奪うのではないか」といった一種の脅威をも私たちに示したのです。AlphaGoの勝利がなければ、多くの人にとって、AIは今も半信半疑の存在だったかもしれません。

専門家も驚いたAlphaGoの強さ

コンピューターによる勝利が難しいとされてきた、もう1つの理由に「囲碁は戦略と戦術のゲーム」だということがあります。人間が囲碁を打つ時は、盤面全体に対する戦略と、それを実現するための戦術=ヨミの両方を考えながら進めています。当然、対局相手も同じように戦略と戦術を描いているだけに、自身の戦略・戦術をどう組み立てるかは、より複雑になっていきます。そのため人間は、戦略・戦術という論理的なテクニックに加え、“直感”や“センス”といった、あいまいな力をも駆使しながら勝負に挑んでいます。

では、AlphaGoが打つ碁は、どのようなものなのでしょうか。2016年3月の対戦時の対局を見たプロ棋士らの解説によれば、AlphaGoの特徴としては以下が挙げられています。

(1)AlphaGoは戦略的である。こちらの考えはお見通しで戦略を立てているようにみえる
(2)AlphaGoは独創的である。人間が思いもよらない独創的な着手をする
(3)AlphaGoは利己的である。対局を自分の勝ちパターンに誘導してくる

こうしてみると、AlphaGoは人間が使っている“あいまいな力”を駆使していることになります。ここがAIたるところでしょう。しかし、AlphaGoのプログラムは。こうした「戦略的」「直感的」と言われる動きをどのように実行しているのでしょうか。3つの特徴のそれぞれをみてみましょう。

AlphaGoは「戦略的」なのか

「まるで30手先の世界が正確に見えているようだ」は、AlphaGoの対局を見たプロ棋士の感想です。こちらの考えのすべてをお見通しで、AlphaGoの戦略に誘導されてしまうというのです。ところがAlphaGoが読んでいるのは、たったの数手先までです。ここで、AlphaGoの仕組みを簡単に説明しておきましょう。AlphaGoは、次の1手を決める際、まず数手先までを条件分岐させながらシミュレーションします。そして分岐した打ち手それぞれについて、その勝率を計算します。これを繰り返し最も勝率が高そうな手を選択します。この仕組み自体は「モンテカルロツリーサーチ」というアプローチであり、多くの囲碁プログラムが採用しています。AlphaGoでは、この仕組みの精度を高めるためにDeep Learning(深層学習)と呼ぶ機械学習の仕組みによるAIを組み合わせました。

組み合わせたAIは2つあります。1つは数手先をシミュレーションするためのAIで「直感力」をサポートします。人間の過去の対局結果(棋譜)から「こうした局面では、こう打つことが多い」というパターンを学習しています。AlphaGoが学習した対局数はなんと16万局。人間のプロ棋士でも一生の対局回数はせいぜい数万局です。AlphaGoは16万局分の棋譜を3000万局面に分解し、これを1週間で学習しました。

もう1つのAIは勝率を求めるためのもので、候補に挙がった数手を打つと、どうなるかを勝率で提示します。このAIは、AI同士の自己対戦で学習しました。AIを2組用意し、対局させることで「こういう手を打つと勝率が何%になるか」を傾向的に把握していきます。人間のプロ棋士は、直感も利用しながら盤面全体の戦略を立てているとされますが、AlphaGoがシミュレーションしているのは、数手先までと、とてもシンプルな仕組みです。シンプルな仕組みでも、なぜ強いのかの理由が、もう1つの強さにつながっています。

AlphaGoは「独創的」なのか

AlphaGoが戦略的と評されるのは、人間が思いつかないような手を序盤から打つことがあるからです。例えば、チャレンジマッチの第2局の序盤でAlphaGoは非常に奇妙な手を打ちました。対局の模様を見ていたプロ解説者の誰もが「あ~、こんな手を打つようじゃAlphaGoの負けですね」と解説したほどです。ところが、その十数手後から形勢が突如として良くなり、「あの奇妙な手は、この戦略の伏線だったのですね」と言うほど解説者を慌てさせました。

人間の棋譜から学習しているAlphaGoが、どうして奇妙な手を打ったのでしょうか。大量の棋譜を学習している間に、独創性が生まれてきたのでしょうか。これには、学習の元になったデータが関係しています。

AlphaGoの打ち手は、学習元のデータである人間の棋譜の中から選択されます。しかし、その学習元にはアマチュアの棋譜も多く含まれていたのです。プロ棋士は、定石など勝つためのパターンを身体に染みこませています。そのため、定石から外れた手については“奇妙”だと認識し、多くの場合は、打ち手の選択肢から自然に排除しています。ところがAlphaGoは、定石から外れた手であっても勝率が高ければ選択します。結果、囲碁に詳しい人ほどAlphaGoの選択は奇妙であり、戦略的という印象につながったのです。

AlphaGoは「利己的」なのか

AlphaGoの打ち方は、先手を利用して早々に中盤に持ち込んでから勝負に出るというタイプです。じっくりと構えて相手の出方をみるというタイプではありません。囲碁の中盤以降は、比較的ヨミのテクニックが重視されるため、コンピューターには得意な分野です。AlphaGoは、自らが得意な戦法を理解し、そこに誘導しているように見えます。

その動きの鍵は、AlphaGoの学習プロセスにありました。AlphaGoは自己対戦の学習において「勝てばボーナスがもらえる」という条件の下、勝敗だけを指標に学習してきました。そのため人間があまり打たない“奇妙な手”も選択します。ただし、AlphaGoの精度は、まだ完璧ではありません。奇妙な手を選択して決定的なミスを犯す可能性があります。実際、チャレンジマッチでの1敗は、AlphaGoがプロ棋士ならあり得ないミスを犯したことで形勢が逆転しました。

AlphaGoがミスを犯す可能性は、盤面が空いている、すなわち打ち手の選択肢が多い序盤ほど高くなります。そのため、先手を活用して早々に序盤を終え、精度が高まる中盤に持ち込んで勝負するというパターンを学習の中から見つけ出したと考えられます。人間がプログラミングしたのではなく、自身の弱点を避けるための有利な戦法をAlphaGoは、自ら身につけたのです。これこそがAIの特徴であり、今後も進化するであろうことを示唆しています。

AlphaGoが示したDeep Learningの価値

AlphaGoの勝利以降、囲碁プログラムの分野ではDeep Learningを採り入れた研究が加速しています。IT企業ではない一般企業や個人が開発した囲碁プログラムが、ネット上の対局に多数登場し、プロ棋士に勝利するなど飛躍的な進化を遂げています。例えば日本からも「DeepZenGo」が誕生し、トッププロに1勝しました。中国のSNS大手のテンセントが開発するAIや、正体不明の「GodMoves」といったプログラムも登場し、対局場をにぎわせています。2017年3月には、電聖戦やワールド碁チャンピオンシップなど囲碁プログラムと人間が戦う世界的なイベントも開催されます。

一方、AlphaGo自体は、AI自らが、どこまで強くなれるかに取り組んでいます。冒頭で紹介した「Magister」や「Master」は、人間が打った棋譜データを学習データとしてインプットするのではなく、最初からAIに考えさせるというアプローチでの実験の一環でした。これが有効に機能するようになれば、データが十分にそろっていない分野へのAIの適用が期待できます。DeepMindは、AIが自らの力でどこまで強くなれるのかの実験を続け、次世代AIの研究につなげる予定です。

こうしたAI分野の研究は、単に囲碁に勝利するためだけのものではありません。例えばDeepMindは、AlphaGoの研究を応用しデータセンターの消費電力のコントロールに成功しました。このAIによりGoogleのデータセンターの電力消費量を15%、年間コストにして数十億ドルの削減を見込んでいます。将来的には国レベルのエネルギー効率の向上への活用を目指しています。Deep Learningの本格的な研究は始まったばかりです。AlphaGoだけでなく、多くのAIが切磋琢磨しながら研究が進めば、実社会において、より広い範囲で活用できるようになることでしょう。

執筆者:築山 万里沙(Digital Innovation Lab)

EVENTイベント

PARTNERパートナー