アップルとフィンランドのアールト大学が共同で行った研究により、アプリのユーザーインターフェースを視覚と言語で理解するAIモデル「ILuvUI」が発表されました。
このモデルは、スクリーンショットや自然言語の会話からモバイルアプリのインターフェースを理解することを目的としており、既存のモデルを基に性能を向上させたということです。
研究チームは、人間とコンピュータの相互作用において長年の課題であった、AIが人間のようにユーザーインターフェースを理解する能力を向上させることに取り組みました。具体的には、視覚的および意味的にUIを解釈する能力を高めることを目指しています。
現在、多くの視覚と言語モデルは自然画像(例えば犬や道路標識)を基に訓練されており、アプリのUIのような構造化された環境を解釈する際には性能が劣るとされています。研究者たちは、視覚とテキスト情報を融合させることがUI理解に重要であるとし、オープンソースのビジョンと言語モデル「LLaVA」を微調整し、UI分野に特化した訓練方法を採用しました。
この訓練では、合成生成されたテキストと画像のペアを用い、Q&A形式のインタラクションや詳細な画面説明、予測されるアクションの結果、多段階のプラン(例:「最新のポッドキャストエピソードを聞く方法」や「明るさ設定を変更する方法」)を含むデータセットが使用されました。
このデータセットで訓練された結果、ILuvUIはオリジナルのLLaVAを機械基準および人間の好みのテストで上回る性能を示しました。
さらに、このモデルは特定のインターフェース領域を指定する必要がなく、シンプルなプロンプトから画面全体を文脈的に理解することができます。視覚的質問応答のようなユースケースに対応するために、UI画像と共にテキストプロンプトを入力として受け入れます。
アップルの研究者は、このアプローチがアクセシビリティや自動UIテストに役立つ可能性があるとしています。今後の研究では、より大きな画像エンコーダーや高解像度への対応、既存のUIフレームワークとシームレスに連携する出力形式(例えばJSON)を含めることが考えられています。
最近のAIモデルがアプリ内のアクションの結果を予測する能力についての調査と組み合わせると、特にアクセシビリティに依存してデバイスを操作する人や、アプリ内の煩雑な作業を自動化したい人にとって興味深い進展となる可能性があります。