mis

「Hey Siri」「OK, Google」そして「Alexa」、音声での操作が当たり前に

2016.12.26
リスト
このエントリーをはてなブックマークに追加

最近、街中でもスマホに話しかけて何かを検索したり道順を確かめたりしている姿を目にするようになりました。まさにスマホは私たちの「パーソナルアシスタント」へと近づいています。これを可能にしているのが、音声認識機能。AI(人工知能)の活用もあり、より自然な反応を示してくれるようになっています。この機能をスマホ以外の分野にも広げるための競争が激しくなっています。

スマートフォンの音声認識で最も知られているのは米Appleが「iPhone」に搭載している「Siri」でしょう。米GoogleはAndroid端末向けに「OK, Google」を提供しています。さらに日本市場では未投入ながら米国ではSiriやOK, Google以上に一般家庭内に入り込んでいるのが米Amazon.comの「Alexa」です。まずは、それぞれの最近の動きを概観してみましょう。

iPhoneもMacにも搭載されるAppleの「Hey Siri」

iPhoneに搭載されている「Siri」は、パーソナルアシスタント機能を一般に認知させた代表的なサービスといえます。iPhoneのホームボタンを長押ししたり、あるいはiPhoneに向かって「Hey Siri」と話しかけることで、音声による操作を可能にします。2016年秋に登場した最新OS「iOS10」からは、Apple以外のサードパーティーが開発するアプリケーションを起動したり一部を操作したりが可能になっています。対応アプリが増えれば、利便性が高まることでしょう。

さらにPCのMac用最新OSである「sierra」でも、デスクトップ用のSiriが実装されました。iPhone同様に、PC内のファイルやWeb上の画像検索のほか、Siriが検索した結果を通知センターに貼り付けておき答えをいつでも確認できるようになりました。iPhone/iPadとMacというハードウェアの違いを越えて同じように操作できるというわけです。

「OK, Google」とiPhone対抗機に搭載した「Google Assistant」

「OK, Google」は、GoogleがAndroid用に提供している音声認識機能です。最初に利用者の「OK, Google」という発声を記録することで、Siriと同様にスマホで、検索やスケジュール登録、メールの送信などを音声で操作できるようになります。Googleは2016年10月、同社のオリジナルスマホ「Pixel」シリーズを発売し、新しい音声インタフェース「Google Assistant」を実装しました。Google Assistantでは、利用者のアカウントに紐付いたスケジュールや位置情報、画面の状態などを加味しながら、利用者の音声による質問や指示を解析することで、より適切な検索や操作を可能にしています。ただ日本語版Pixelは、2016年12月時点では未投入です。

家庭内への設置で先行するAmazonの「Alexa」

Amazon.comは「Amazon Echo」というスピーカー型端末を海外では発売済みで、現地の生活に入り込んでいます。形状がスマホではなく、机や棚の上にある端末に向かって話すという、人に話しかけるかのようなスタイルが印象的です(動画)。安価で小型の「Echo Dot」やバッテリー駆動の「Amazon Tap」もあります。これらに搭載されている音声インタフェースが「Alexa」です。「Hey Siri」「OK, Google」同様に、「Alexa」と話しかけることで、音楽再生などを指示できます。日本からは、米国Amazonのアカウントがあれば、Alexaの機能を試せるツール「Echosim.io」にブラウザーからアクセスできます。

動画:「Amazon Echo」の紹介ビデオ。「Alexa」と話しかけている

実はAppleとGoogleも、Amazon Echoのようにリビングに設置する端末を投入しています。Appleの「Homekit」とGoogleの「Home」がそれです。Homekitでは、iPhoneやiPadといったデバイスだけでなく、セットトップボックスの「Apple TV」を使ったアクセサリーの操作が可能です。Homeでは、スピーカー状の装置からスマートデバイスを操作したりGoogleの検索を利用できたりします。

Appleは第4世代のApple TVにはSiriを搭載しています。Amazonもスティック型のセットトップボックスである「Fire TV Stick」にAlexaを搭載しています。Googleもテレビ用に「Android TV」を提供しています。ソニーが最近、テレビCMで紹介している音声操作ができるテレビが、このAndroid TVを搭載しています。そのCMにあるように、テレビを操作するのにいちいちリモコンを探さなくても、音声で操作できる時代になりました。

SDKを開発し第3者を加えてエコシステムが拡大中

音声を使った操作環境が、スマホからリビング、テレビへと広がっている背景には、各社が音声インタフェースの技術仕様をオープンにすることで、第3者がソフトウェアやサービスを実現できる仕組みを提供していることがあります。Apple、Google、Amazonのいずれもがアプリケーションの開発環境であるSDK(ソフトウェア開発キット)を公開しています。

SDKの開発で先行したのはAmazonのAlexa。2015年6月から「Skills Kit」というSDKを公開しています。第3者が開発した機能やサービスを「スキル」と呼んでいますが、2016年9月時点でスキルの数は3000を超えたとしています。音声でツイート(つぶやき)を聞く、放送中の番組内で登場したレシピの情報を取り寄せるよう依頼するといったスキルが開発されているようです(表1)。

voice_h1
表1:Alexaを採用したサービスの例

これだけのスキル開発うながすためにAmazonは、SDKだけでなく、ファンドによるスタートアップ企業の開発を支援したり、大学生を対象にしたソフトウェア開発コンテスト「Amazon Prize」を開催したりしています。2016年から2017年にかけてのAmazon Prizeのテーマは、人気の話題やニュースについて会話ができる「social bot」の開発で、最大100万ドルの賞金が提供されます。

Appleは2016年9月、iOS10を提供して以降、Siriの開発環境となる「SiriKit」の情報を公開しています。GoogleのOK, Googleでは、2015年4月から第3者のアプリケーションの操作が可能でした。今後は、Google Assistantでタスクを実行するための「アクション」の開発を可能にする「Actions on Google」は2016年12月から提供する予定です。2017年には、Google Assistantを種々のデバイスに統合するための「Embedded Google Assistant SDK」をハードウェアベンダーに提供していきます。

音声認識や言語処理の技術が進展している

SDKを含め、第3者が次々とサービスを投入できているのは、AIによる音声認識や自然言語処理、会話といった技術が向上しているからにほかなりません。音声認識技術は、話し言葉の理解や、個人の音声から個々の人間を識別する技術です。今後は声のトーンや速度などから感情を読み解けるようになる進化が期待されています。

文章を理解するのが自然言語処理技術です。少し前までは「明かりを操作」「点灯」「リビング」など機械が認識しやすいように人間が表現しなければなりませんでしたが、最新のSiriやOK, Google、Alexaなどは、より自然な文章で検索や操作ができるようになっています。

例えば、Alexaの「スキル」数は、2016年1月に130だったものが同年6月には1000に、そして同年9月に上述したように3000にまで伸びています。ただGoogle Assistantの国内投入が遅れているように、ひらがな・カタカナ・漢字が続けて並ぶ日本語は、単語ごとに区切られている英語と比べ、構造解析が難しいのも事実です。しかし、そうした課題も昨今の技術の進歩により、かなり解消してきているといえるでしょう。

実際、みずほ銀行がAmazon Echoや米Facebookが開発する自動応答サービス「Facebook bot」を使ったチャットボットや音声操作による新しいサービスの実証実験を始めていますし、旅行関連サイトを串刺しに検索するサービスを手がけるKAYAKがAlexaを利用した検索システムを提供するなど、日本語圏でのサービス開発にも動きが出てきています。

音声インタフェースのエコシステムにどう参画するか

文字を入力するという行為は、スマホの操作が苦手な人や目が不自由な人には大きなハンディです。音声インタフェースは、そうした人にも各種サービスを利用できる機会を提供できる仕組みです。現状、国内での知名度ではSiriやOK、Googleが、eコマース分野の話題度ではAlexaが、それぞれ先行していますが、他のプラットフォーム技術の開発会社も音声分野には興味を示しています。米MicrosoftはWindows10に音声操作を可能にする「Cortana」を搭載しています。ベンチャー企業の参入も否定できません。

音声を軸としたサービスのエコシステムはさらに広がるはずです。みなさんが手がけるビジネスにおいても、音声インタフェースをどう採り入れるのかを考える必要がありそうです。

執筆者:岩月 大悟(Digital Innovation Lab)、奥野 大児(ライター/ブロガー、https://twitter.com/odaiji)

EVENTイベント

PARTNERパートナー