ワールド
2020/12/16 6:00

「読唇AI技術」で会話が正確に伝わる! AIで変わるコミュニケーションの形

人間には音や手話を使わなくても他人の発話を推測する力があります。それが読唇術。唇の動きや形から相手の言葉を読み取るこのスキルは習得するのが難しく、この能力があったとしても、話している内容を正確に判断することは決して容易ではないと言われています。しかし、そんな読唇術に近いスキルをAIによって開発しようとする試みが行われています。

↑何を話しているか当てられる?

 

口や顔の筋肉の動きから、話している内容を推測するAI技術を開発しているのが、アメリカのカリフォルニア大学バークレー校の研究チーム。人間は言葉を話すとき、ひとつひとつの単語を発声するために顔や舌、喉の筋肉を細かく動かします。この動きは音節ごとに微妙に異なるため、この違いに注目して発話内容を推測しようというのがこの研究の趣旨。このチームは、声を出さずに口だけを動かす「サイレントスピーチ」を使って技術開発を行っており、先日このAIの開発が順調に進んでいると発表しました。

 

研究チームでは、まず話し手の喉と、頬などの口のまわりに電極を装着。筋細胞が収縮したときに発生する微弱な電位の変化を読み取る「EMG(筋電図)」を利用して、AIにそのデータの読み取りと、話し手の言葉の内容を推測するよう訓練させました。すると、発声しながら文章を読んだ場合と比べて、無発声で単語を推測するときの誤認率は64%から4%まで減少。かなり正確に言葉を推測することができるようになりました。

 

同じような技術には、Googleの傘下であるDeepMindとイギリスのオックスフォード大学が2016年に発表した読唇AIの技術があります。この技術では、AIにBBCなどのテレビ番組5000時間分を学習させ、人の唇の動きだけで何を話しているかを推測させました。

 

そして、読唇技術を持ったプロとこのAIに動画を見せて話の内容を推測させたところ、プロは12.4%を読み取ったのに対して、AIは46.8%とプロに勝る結果を残しました。おまけにAIの間違えた内容は、三人称の動詞や、名詞の複数形の後につく「s」だったそうです。

↑AIはこの違いがわかる

 

このような読唇AI技術は視覚障がいのある方への利用のほか、リアルタイムでの字幕表示にも活用されるかもしれません。しかし、カリフォルニア大学バークレー校の研究チームが発表したAI技術は、読唇AIとは一味違って、言葉をうまく発声できない人はもちろんのこと、それ以外のさまざまなシーンでも活用できる汎用性があると研究チームは期待しています。例えば、電車のなかや図書館など大きな声で話せない場所での電話や、逆に周囲が騒々しい場所での電話。周囲の環境に関わらず、このAIによって自分の言葉が相手により正確に伝わる可能性があります。

 

パソコンやスマートフォン、インターネットは私たちのコミュニケーションを大きく変えてきました。次はAIが読唇術を使って人間の会話や言語活動をさらに変えるかもしれませんね。