Vol.134-3
本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回のテーマはGoogleが発表した生成AI「Gemini」。ここ数年、Googleが開発してきた生成AIの流れを追う。
今月の注目アイテム
Gemini
Googleは今後同社が活用する生成AIの基盤技術として、新たに「Gemini(ジェミニ)」を開発した。
同社はここ数年で、複数の生成AIを開発している。最初に世に出たのは「BERT」。2018年に論文の形で発表され、2019年には検索エンジンに組み込んでいる。当時は「生成AI」という言い方はされておらず、自然な文章を処理して検索に活かす「自然言語処理技術」とされていた。
だが、BERTは「Bidirectional Encoder Representations from Transformers(Transformerによる双方向のエンコード表現)」の略。Transformerはその後の生成AIに使われる技術で、GPTのTも「Transformer」だ。
この後、2021年には会話に特化した生成AIである「LaMDA」を投入、同時により汎用性の高い「PaLM」を開発、2023年5月からは、GoogleのチャットAIサービス「Bard」に、PaLMの最新モデルである「PaLM 2」を導入している。
Geminiは、5月にPaLM 2が公開されるのと同時に“次に向けた開発”として存在が公表されていた。だが、さすがにPaLM 2の提供を開始したばかりなので、Geminiの投入はしばらく先……と予想されていた。
だがその予想は覆され、Geminiは2023年内に投入されることになった。名前の「Gemini」は双子座のことだが、Google社内のAIチームと、Google傘下でAIを開発してきたDeepMindが一丸となって開発したから……という意味でもあるようだ。
この開発ペースからは、Googleがどれだけ“急いで開発をしているか”が見えてくるようだ。最上位の「Ultra」の公開が2024年であること、以前解説したようにデモビデオが編集されたもの=実際の動作とは異なるものであった、という点からも、Googleの焦りを感じる。
Googleとしては、賢さで先行していると言われる「GPT-4」を超えた生成AIを提示したい、という意気込みがあるのは間違いない。
そして、GPT-4との差別化点として彼らが強調するのは「マルチモーダル性」だ。マルチモーダルとは、テキスト・画像・音など複数の情報を並列に扱うこと。人間が文字も絵も音も扱って考えているのと同じような流れと言って良い。
従来の生成AIは文字ベースの情報を中心に学習し、そこに画像や音声の学習結果も加える形でマルチモーダル性を実現してきた。しかしGeminiの場合、最初の学習からテキスト・画像・音を並列に扱って作り上げられたため、「絵を見て答えを文章で返す」「絵と音から内容を把握して回答する」といった処理に向いているという。
GPT-4を超えていると噂される「Gemini Ultra」は、この記事を書いている2023年末の段階では未公開であり、その性能を実際に確かめることはできていない。また、GPT-4に画像認識を加えた「GPT-4V」でも、Gemini Ultraと同じようなテストをパスしたという報道もあり、どちらが賢いか結論を出すのは難しい状況だ。
とはいえ、Googleがマルチモーダルに向かうのは正しい方向性であり、それは、Googleの抱える事業の性質にも大きく関わってくる話だったりもする。それがなにで、どういう影響が出てくるかは次回解説する。
週刊GetNavi、バックナンバーはこちら