AIアシスタントを搭載するスマートスピーカーが日本に本格上陸してから間もなく2年が経とうとしています。その後も音声で操作できるスマートデバイスは次々に発売されていますが、その精度はかつて夢見たようなAIアシスタントとの「対話」にはほど遠く、まだ自分と身近になものに感じられないという方も多いはず。
今日は、映画やアニメの物語に出てくるような「人間とスムーズに、楽しく会話ができるAIアシスタント」がまもなく現実のものになって、私たちの家庭で使えるようになるために何が必要か? ということを考えてみたいと思います。
日本語が得意なAIアシスタント「クローバ」
AIアシスタントといえばAndroidスマホに標準搭載されている「Googleアシスタント」や、iPhoneの「Siri」、そしてスマートスピーカーが普及しはじめた頃から急成長を続けるアマゾン「Alexa」などが有名です。これらの先行するAIアシスタントに比べると、LINEが独自に開発するAIアシスタント「Clova(クローバ)」の名前は聞きなじみがないかもしれません。実はこのクローバは「日本語による会話」にとても長けているAIアシスタントなのです。
クローバやSiri、AlexaなどのAIアシスタントが、人と会話をする際の一般的な仕組みを解説しましょう。最初にスマートスピーカーなどデバイスに内蔵するマイクがユーザーが発声した音声コマンドをキャプチャします。続いてその音声にテキスト変換処理をかけて、文節を区切りながら「命令=コマンド」の部分が認識・抽出されます。ここで日本語が正しく認識できないと「AIアシスタントが言うことを聞いてくれない」ということになってしまいます。
入力されたコマンドに対する最適な回答が見つかると、その次にテキストで返されるコマンドを音声に変換して、スピーカーなどのデバイスに発声させます。この時点で自然な言い回しや抑揚感の決め手を担うのが「音声合成技術」の出来映えです。日本語の発話がキレイにできるAIアシスタントは、ここの段階の技術が十分にブラッシュアップされているということになります。
LINEではクローバの日本語による音声コマンドの認識力、発話のスムーズさが他の追随を許さないレベルにあると強調しています。いったいどれほどのレベルに到達しているのでしょうか? LINEの新プロジェクト「DUET」の動画が参考になるのでご紹介したいと思います。DUETはAIアシスタントのクローバの技術をベースにして、人と自然に会話ができる電話応答サービスを実現するプロジェクトです。
DUETはレストランの座席予約の受付/変更/キャンセルに用途を特化して作り込まれていますが、例えばチケットの購入、カスタマーサポートなどほかの用途を見据えた応答シナリオに変えることで、別のサービスにも応用できるといいます。この技術が確かなものになれば、採用する企業にとっては単純作業をAIに任せて、従業員の能力をより生産性の高い仕事に当てられるメリットが生まれます。かたやカスタマーサポートなどを利用するユーザーにとっては、頭数に制限のないAIアシスタントが受け答えしてくれる回線が増えれば、電話がつながるまでの待機時間が短かくなるかもしれません。
LINEでは現在、AIに関わる技術開発を専門として携わる1000人規模のエキスパートチームを社内に組織して、クローバーの技術向上に日々全力を注いでいるそうです。その中には音声入力だけでなく、カメラとディープラーニングの技術を駆使して文字を自動で認識するOCR(光学文字認識)の技術なども含まれています。今後、LINEでは様々なAIに関連する技術を音声認識やOCRなどのパーツ単位で、またはそれぞれを組み合わせてDUETのようなパッケージにして、外部に販売するビジネスにもより力を入れていくと宣言しています。
人気キャラクターを載せたスマートデバイス。実現する日はもう間近?
クローバを搭載するスマートデバイスとして、LINEのグループ会社であるGateboxが開発を進める“バーチャルホームロボット”「Gatebox」にも要注目です。
クローバの音声合成や会話エンジンを載せて、オリジナルキャラクターの“逢妻ヒカリ”と一緒に「極限まで声優の生声に近く、感情豊かで幅広い会話が楽しめる」ようになるスマートスピーカーなのだとか。LINEでは現在、量産モデルを2019年秋以降の発売に向けて準備中です。こちらもLINEのイベントで紹介されたコンセプトムービーをご覧ください。
そしてLINEではこのGateboxの開発によって積み上げられたノウハウをオープンプラットフォーム化して、AIアシスタントをベースにしたキャラクタービジネスに発展させていく計画も発表しています。今後、我こそはというパートナーが手を上げれば、Gateboxのスクリーンに人気キャラクターを“アバター”として映し出すデバイスが続々と商品化されるかもしれません。そうなると、これまでとはAIアシスタントと人間の距離感がまた一歩大きく近づく可能性があります。
さらにクローバの「声」を自由に変えられる仕組みについてもLINEはいま同時に開発を進めています。LINEは2018年に開催したプレスイベントで、ある人物から少量の声データを“サンプル”として集めて、その声や話し方の特徴点をクローバの合成音声に当てはめて、“ものまね”をさせる技術である「DNN-TTS」(Deep Neural Network Text to Speech)の開発に着手したことを伝えていました。あれから1年が経った今は、その技術も相当の段階にまで練り上げられていることでしょう。
アニメ・マンガ・ゲームの2D/3Dエンタメが豊富な日本では、キャラクタービジネスを取っ掛かりにAIを暮らしと繋ぎあわせていくのは有効的な一手だと思います。キャクターコラボが具体的に走り出して活性化すれば、いよいよ日本国内で、そして日本から発信されて海外でも、AIアシスタントとスマートデバイスのビジネスが本格的な花盛りの季節を迎えるかもしれません。
さらにいうと、現在ではVRChat界隈などで、アバターをオリジナルで制作し販売するクリエイターも増えています。既存キャラクターを超えて、自分だけのオリジナルアバターを手に入れる、またカスタマイズする「見た目の自由度」が手に入れば、AIアシスタントへの親近感が増すのではないでしょうか。しかし外観だけでなく、繰り返しになりますがコミュニケーションと音声において円滑に「対話」できることが大事。そのためには高度なAIはもちろんスムーズな「声」が不可欠だと思います。この2点が手に入ったとき、ついに未来予想図として描かれていた「AIとの暮らし」が実像を持つでしょう。