Vol.134-1
本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回のテーマはGoogleが発表した生成AI「Gemini」。同社が生成AIにおいて巻き返しを図るために開発した新たな技術の実力を探る。
今月の注目アイテム
Gemini
複合的な学習により生成AIの能力を拡大
12月6日(アメリカ時間)、Googleは、新しい生成AIである「Gemini(ジェミニ)」を発表した。
その能力は凄まじい。最大の特徴は、文章だけでなく絵や音など多数の要素を理解して答える「マルチモーダル性」にある。従来、生成AIと言えば、テキストを入力することで回答を得るものがほとんど。画像を理解するものも増えてはきたが、補助的な要素だった。
だがGeminiは、ゼロから学習を構築する段階で、テキスト情報だけでなく画像や音声などもあわせて、複合的な学習が行なわれている。だから、「手書きのテストを読んで採点し、間違った部分がどこかを解説する」ことや「2つの自動車の絵を見てどちらが空力的に有利か」を判断したりできる。
Googleは、Geminiで最も規模の大きなモデルである「Gemini Ultra」を使った場合、「主要な32のベンチマークのうち、30で競合を超える」「57科目を組み合わせた専門知識を図るテストで、人間の専門家を上回る」とその能力を誇示する。
同社は2023年に吹き荒れた「生成AIの嵐」のなかで、OpenAIのGPT-4に先手を取られ、ずっと後手に回りっぱなしだ。AI開発といえばGoogle……というイメージも強かったので、これは同社にとって忸怩たるものがあっただろう。
Geminiのデモビデオが公開されると、“これまでの生成AI のイメージとは違う”“次の段階にGoogleが進んだ”とネットでは絶賛の嵐が巻き起こった。
マルチモーダル性はまだ非公開のまま
だが、その時間も短かった。
翌日になって、デモビデオが編集されたものであり、ビデオで示されたままの素早く賢い反応が“いま実現できる”わけではない、と報道されたからだ。「結局はフェイクなのか」と多くの人は考え、落胆した。
これはGoogleの取った手法が悪かった、と筆者も考える。
実のところ、ビデオの冒頭には“反応など画像をキャプチャしたもので、リアクションのなかから気に入ったものを選んでいる”と書かれていた。そのため、ビデオは編集されたものであると認識はできたし、反応の素早さなどは実際のものとは異なるだろう……と予測できたわけだが、結局Googleは、ビデオを“うまく作りすぎて失敗”したのだ。
逆に言えば、Googleはそのくらい焦っており、強く優位性を示したいと考えていたのだ。では、Geminiの優位性は完全に偽物なのか?
おそらくそうではない。Geminiはまだ開発途上であることが公表されている。もっとも高性能な「Ultra」は2024年になってからの公開とされており、2023年じゅうに使えるのは「Pro」のみ。こちらは速度と賢さのバランスが良好なもの、とされているが、性能はGPT-3.5相当という。しかも最大の特徴であるマルチモーダル性については、まだ全容が一般向けに公開されていない。
Googleがビデオで示したのは、2024年春以降に実現する可能性があるGeminiの姿だった。
では、Geminiは実際どのようなものになるのか? その将来はスマホにも大きな変化をもたらすことになる。それがどんなものになるのかは、次回以降解説していく。
週刊GetNavi、バックナンバーはこちら