【西田宗千佳連載】ゼロから作り直して「生成AI世代らしく」なった次世代Alexa

週刊GetNavi Amazon Alexa

ink_pen 2025/4/9

西田宗千佳

にしだむねちか

モバイル機器、PC、家電などに精通するフリージャーナリスト。取材記事を雑誌や新聞などに寄稿するほか、テレビ番組などの監修も手がける。ツイッターアカウントは@mnishi41。

もっと見る arrow_forward

Vol.148-3

本連載では、ジャーナリスト・西田宗千佳氏がデジタル業界の最新動向をレポートする。今回はAmazonが発表した新たな音声アシスタント「Alexa+」の話題。生成AI時代に生まれ変わるサービスにはどんな変化があるのかを探る。

今月の注目アイテム

Amazon

Echo Show 15（第2世代）

実売価格4万7980円

↑音声での対話による情報の提供には欠かせない、ディスプレイ付きのスマートスピーカー。Echo Show 15は15インチの画面で文字などの視覚情報により、スムーズな対話が可能になるデバイスと期待されている。

Amazonが2月に発表した「Alexa＋」は、同社の音声アシスタント「Alexa」を、生成AI技術を使ってゼロから作り直したものだ。

その結果としてAlexa＋は、「自然な対話」「対話の中での複数の作業」といった、人間になにかをお願いした時と同じような挙動を実現している。現時点では英語デモの様子しか確認できていないため、どこまで人間に近い、理想的な挙動になっているかは判然としない部分もある。しかし、いままでのAlexaに比べ、自然で“会話しながらなにかをする”イメージに近いサービスへと近づいているのは間違いない。

Alexa＋の特性は、生成AIを使ったAIエージェントそのものだ。

ご存じのように、生成AIは文章での問いかけに対し、自然な文章で応対する。音声認識を軸にしたAIから生成AIに切り換えたことで、Alexa＋の応対は、当然自然なものになる。

また、現在生成AIの世界では、複数の作業を連続して行う機能が注目されている。人間の代わりに色々なことを行う……という要素から、そうしたシステムを「AIエージェント」と呼ぶことが多い。

声や文書など、言語でコンピュータに命令を与えることには利点と欠点がある。利点はいうまでもなく「簡単」であること。欠点は「ボタンをクリックするのに比べるとまどろっこしいこと」だ。ボタンを1つ押せば済むことではなく、もっと複雑なことをお願いするか、対話すること自体を楽しめるようにするなどの副次的要素を加えるかといった形にしないと、生成AIによるアシスタントは便利な存在にならない。単純に生成AIとチャットしても便利なサービスと言えないのは、もう皆さんも体験しているのではないだろうか。

だからこそ各社は、生成AIを“複数のことを人間の代わりに行う”“多少曖昧だったり複雑だったりする命令も読み解いて、結果的に目的を果たす”ものにすることを目指している。それがすなわち「AIエージェント」だ。

実はAmazonは、Alexaで複数の命令を自然な会話の中で聴き取り、作業を進める仕組みをずっと開発していた。筆者が最初にデモを見たのは2019年のことだが、結局オリジナルのAlexaでは、正式に実装されることは無かった。作っていたのはいまでいうAIエージェントそのものだが、他のサービスとの連携などに課題があったため……と言われている。

しかし、生成AIをベースとして全体を作り直した結果として、音声アシスタントに求められる「AIエージェント的挙動」を実現できたことになる。処理はすべてクラウドで行われるため、すでにあるAlexaデバイスでそのまま使えるのも重要な点だ。

Amazonは生成AIへの取り組みで遅れている……と言われていたのだが、ここに来て他社を一気に追い越してきた印象も強い。では、それはなぜできたのか？他のプラットフォーマーはどう対抗してくると考えられルのか？その点は次回解説する。

週刊GetNavi、バックナンバーはこちら