【西田宗千佳連載】「事例」の量で不利なAppleと日本

「週刊GetNavi」Vol.56-4

スマートスピーカーのキモは、やはり「音声で応答してくれる」ことだ。だから、音楽のような強い用途があるとはいえ、音声をどれだけ認識してくれるのか、という能力が重要であることは間違いない。

スマートスピーカーに使われる音声コマンドの機能は、スマホで使われるものに非常に近い。いまや音声コマンドを実現する技術は特別なものではなく、「作るだけ」ならどこでもできる。だが現実問題として、現状でスマートスピーカーに本格的に取り組んでおり、市場でも有望と観られている企業は、ネットで大きなビジネスをしている“クラウドジャイアント”級の企業ばかりである。具体的に言えば、Google・Amazon・マイクロソフト・LINE、そしてAppleだ。現在のAI技術では、多数の利用例を集めてそこから精度を上げるための学習を行う……というアプローチが必須になる。だから、クラウドで個人向けの大きなサービスを運営しており、多数のデータが集まる企業でないと、トップレベルで戦うことができないのである。

なかでも、スマホの雄であるGoogleとAppleは、スマホで使っている技術をそのままスマートスピーカーに転用することで優位な地位を確保する。Googleの「Google Home」のコアはAndroid用技術である「Googleアシスタント」だし、Appleの「HomePod」のコアは、iPhone・iPadでおなじみの「Siri」だ。

現状、音声コマンドに対する反応のクオリティではGoogleが上位、といわれている。それに対し、AppleはAmazonに比べても劣る、という評価が一般的だ。

ここには、Appleと他社の“ポリシーの違い”がある、ともいわれている。

AmazonにしろGoogleにしろ、音声コマンドの処理の多くは“クラウド側”で行う。一方でAppleは、クラウドから情報は得るものの、処理の大半を“ローカル側”で行う。この違いは、Appleがセキュリティポリシー上、個人に帰属するデータは端末内で処理する方針でいるからだ。

だから品質が落ちる……というほどシンプルなものではないのだが、データが集まりやすいのはGoogleのアプローチであるため、いまはGoogleの方が有利な部分があることは否めない。

現状、音声コマンドの“認識”ではどこもそこまでの差はない。しかし“解釈”と“反応”には差がある。現在の技術によって“認識”は一気に高度化したものの、より人間の発想に近い“解釈”“反応”の部分では、まだまだノウハウが足りない。Appleは手作業でウィットに富んだ返答を埋め込み、クオリティを高める方策を採っているのだが、そのアプローチは古く、“認識”の向上に使われた“深層学習”のアプローチで“解釈”“反応”も向上させる流れが広がっている。そうした部分でAppleはGoogleなどに遅れをとっている……と分析する関係者は多く、筆者も部分的に同意する。

「HomePod」以降、Appleの「Siri」がどこまで進化するか、そこでGoogleやAmazonに負けない体験を演出できるかが重要だ。

日本人の観点から観ると、そうした能力をきちんと把握できるようになるまでには、まだかなりの時間がかかりそうだ。Appleは「HomePod」を、初期には英語圏でのみ販売する。少なくとも、日本での年内販売はない。言語に依存するものなので、まずユーザーが多く、事例も多く集まっている英語から……という形だ。技術的には、英語と日本語の差は昔ほど致命的ではなくなっている。だが、問題はやはり“事例の量”だ。まず英語圏で実績を積んでからでないと、Appleとしても手を出せないのであろう。

Googleは今年後半までに、日本でも「Google Home」を販売する。LINEも秋には「WAVE」の一般販売をスタートする。だから日本では、この2社がAppleやAmazonに先行してスマートスピーカー市場を引っ張ることになりそうだ。

●Vol.57-1は「GetNavi」9月号（7月24日発売）に掲載予定です。

週刊GetNavi、バックナンバーはこちら！