今は亡きアップルの共同創業者にして元CEOスティーブ・ジョブズの音声をAIにより蘇らせ、やはりAIで再現した著名ポッドキャスターのジョー・ローガン氏にインタビューさせるという、不思議なポッドキャスト番組が公開されました。
この「Podcast.ai」は、音声合成サービス会社Play.htが制作したもの。ディープラーニング技術により実在の人間のボイスクローン、つまりディープフェイク音声を作り出すわけですが、そのためには複製される人の音声データでAIモデルを訓練する必要があります。
ローガン氏の場合は、本人のポッドキャストに大量のサンプルがあるため、AI音声学習にとって理想的だったようです。スティーブ・ジョブズ氏については、本人の伝記とオンラインで見つけた全ての音声を元に学習させたとのこと。
また、Play.htはインタビューのテキストもAIで生成したと主張していますが、米Ars TechnicaはおそらくGPT-3(超高精度の言語AIとして有名)に似た大規模言語モデル(LLM)を使っているのだろうと推測しています。
約19分にわたるインタビューはとりとめがなく、ときおり美学や革命的な製品、グーグルやマイクロソフト(以下「MS」)などについて語られていますが、それはジョブズ氏がよく話す内容を混ぜ合わせているかのようです。
例えば、AIジョブズ氏がMSを批判しているくだりは、本物が1995年のドキュメンタリー「ナードのトライアンフ(Triumph of the Nerds)」で語っているものとソックリ。ただし2つを注意深く聞き比べると「彼らは賢い人たちだし、いい仕事をしてきた。でもセンスがない。美的センスがないんだ」などの声がデッドコピー(そっくりそのまま模造すること〔デジタル大辞泉〕)ではなく合成されていることが分かります。
その話の内容はさておき、しゃべり方は生き生きとしており、本当に故人が蘇ったような錯覚に囚われるほど。しかし、生前の本人が同意している場合なら問題ありませんが、本人や遺族の了承がないままにボイスクローンが今後も作られるとすれば、物議を醸すかもしれません。
Source:Podcast.ai
via:Ars Technica