【西田宗千佳連載】Googleはなぜ生成AIでマルチモーダルにこだわるのか？

Vol.134-4

本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回のテーマはGoogleが発表した生成AI「Gemini」。Googleがこだわっているマルチモーダル性の生成AIにせまる。

今月の注目アイテム

Google

Gemini

Googleの生成AIであるGeminiは、文字だけでなく画像・音声も含めた「マルチモーダル性」の高さが特徴だ。

人間は文字だけから理解しているわけではなく、目や耳から入る情報すべてを日常的に使っている。AIが人間を助ける存在としてもっと便利で賢いものになるには、人間と同じように画像・音声も活用できた方が便利なのは間違いない。

たとえば、テキストで「音声の中に含まれる内容」について質問する、というのは人間にとって自然なことだが、AIにとってはまだ特別なこと。それを実行する場合、生成AIが高いマルチモーダル性を備えていることが望ましい。

特にGoogleは、初期からマルチモーダルなAI開発に積極的だった。理由は、彼らがスマートフォンのプラットフォーマーでもあるからだ。デジタル機器を介してマルチモーダルな情報にアクセスする場合、当然カメラやマイクが必要になる。PCにもついているし別々に用意することもできるが、常に持ち歩いている可能性が高いスマホは、カメラもマイクも内蔵しているので使いやすい。

画像からネット検索や翻訳をする「Googleレンズ」は、すでに存在するマルチモーダルなAIのひとつ、といってもいい。ネット検索で動画や音声も対象とし、多様かつ適切な回答を目指したい、というのがGoogleの狙いであり、そのためにマルチモーダル技術の研究をしてきた、という面もある。

現在の生成AIはWebから使うのが基本だが、今後より一般性の高いサービスが増えることになるなら、それはスマホの上で展開されることも増えるだろう。特に、人のアシスタントのような生成AIになるなら、スマホの上で動いてくれる方がありがたい。

そう考えると、生成AIにとってのマルチモーダル性は、スマホ向けほど重要……ということになり、Googleが力を入れるのもわかる。

また、スマホではより即応性・プライバシー重視が必要にもなってくる。消費電力の点を考えても、常に通信し続けるクラウド側での動作にはマイナスもある。

Geminiは最初からサイズが小さく、スマホで動かすことを前提とした「Nano」も用意されている。すでに「Pixel 8 Pro」向けには実装され、ボイスレコーダー機能の「音声書き起こしの要約」に使われている。ただし現状は英語の書き起こしのみに対応している。

サイズの小ささは賢さに直結するため、サーバーで動く「Gemini Ultra」や「Gemini Pro」に比べると制限は大きい。だが、用途や対応言語を制限した形でなら有用であり、そのことは商品電力の少なさやわかりやすさに通じていそうだ。

このところ各社は、性能を競う「超大型モデル」だけでなく、スマホやPC単独で動作する小型の生成AIも作るようになってきた。Geminiが初期から「スマホ向けの小型版」を用意しているのは、スマホやPCで「オンデバイスの生成AIが増えていく」ことを意識しているのだろう。

それが2024年じゅうに花開くかはまだわからないが、PCやスマホの在り方・使い方を変える技術になるのは間違いない。

週刊GetNavi、バックナンバーはこちら

関連リンク