アップルの研究者が、音声コマンドを理解して応答する人工知能システム「ReALM(Reference Resolution as Language Modeling)」を開発したと学術誌に報告しています。
アップルといえば次期OS「iOS 18」において、生成AIにより音声アシスタント「Siri」などを強化すると噂されていますが、その生成AIはアップルが独自で開発するものではなく、グーグルの「Gemini」やOpenAIの「ChatGPT」、百度(バイドゥ)の「Ernie」が採用されるという見方もあります。
今回のReALMは、画面上の視覚的な要素への曖昧な参照や、会話や背景のコンテキストを理解できる模様。これにより、ユーザーとデバイスの間でより直接的で自然な対話が可能になるとしています。また、画面上の要素とその位置を解析することで、テキストを生成することも可能。これは、ChatGPTの最新バージョン「GPT-4」を含む従来の方式よりも優れていると言われています。
さらにユーザーは正確な指示をしなくても、画面上の表示を参照して、デジタルアシスタントともっと効率的に対話ができるそう。これは、自動車のインフォテイメントシステムの操作や、身体に障がいがあるユーザーなどでも活用できそうです。
アップルは以前にも、AI関連の研究論文を発表していました。iOS 18で同社の生成AIが採用されるかどうかは不明ですが、将来的には独自開発のAIの登場に期待したいものです。
Source: Cornell University via MacRumors