Appleの研究者は、アプリと連携して動作するオンデバイスAIエージェント「Ferret-UI Lite」を開発したと発表しました。このモデルは、パラメータ数が30億でありながら、24倍大きなモデルと同等またはそれ以上の性能を示しているということです。
Ferret-UI Liteは、Appleが以前に発表した「Ferret」シリーズの一部であり、特にモバイルUIの理解を強化するために設計されています。元々のFerret-UIは、モバイルUIの理解を強化するために固定解像度のスクリーンショットを使用していましたが、Ferret-UI 2では複数のプラットフォームと高解像度の認識をサポートするように拡張されました。
しかし、Ferret-UI Liteは、デバイス上で動作する軽量モデルとして設計されています。研究者によれば、現在の多くのGUIエージェントは大規模な基盤モデルに依存しており、これらは大規模な計算能力を必要とするため、デバイス上での実行が難しいということです。
Ferret-UI Liteは、30億のパラメータを持つ小規模なモデルとして開発され、特にリアルタイムのクロッピングとズームイン技術が注目されています。この技術により、モデルは初期予測を行い、その領域をクロップして再予測することで、画像トークンを大規模に処理する能力を補っています。
また、Ferret-UI Liteは、独自のトレーニングデータを生成することも可能です。研究者は、実際のGUIプラットフォームと直接対話するマルチエージェントシステムを構築し、大規模な合成トレーニング例を生成しています。このプロセスにより、実世界のインタラクションの曖昧さを捉えることができ、クリーンな人間による注釈データに依存するよりも現実的なデータを得ることが可能です。
この研究の中で、Ferret-UI Liteは短期間の低レベルタスクでは良好な性能を示しましたが、複雑なマルチステップのインタラクションでは性能が劣るということです。ただし、デバイス上で動作するため、データをクラウドに送信する必要がなく、プライバシーの観点からも利点があります。
詳細なベンチマークや結果については、研究論文を参照してください。
