アップルの研究者は、LLM(大規模言語モデル)が音声と動作データを解析することで、ユーザーの活動をより正確に把握できることを示す研究を発表しました。
この研究は「Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition」というタイトルで、LLMを伝統的なセンサーデータと組み合わせることで、ユーザーの活動をより精密に理解する可能性があるとしています。特に、センサーデータが十分でない場合でも、活動分析の精度を向上させる可能性があるということです。
研究によれば、センサーデータストリームは活動やコンテキストに関する貴重な情報を提供しますが、補完的な情報を統合することは挑戦的です。LLMは音声と動作の時系列データから活動を分類するための遅延融合に利用できるとしています。研究チームは、Ego4Dデータセットから多様な活動認識のためのデータを選定し、12クラスのゼロショットおよびワンショット分類でF1スコアが大幅に向上したと報告しています。さらに、モダリティ固有モデルからのLLMベースの融合は、共有埋め込み空間の学習に必要な整合したトレーニングデータが限られている場合でも、マルチモーダルな時間的アプリケーションを可能にします。
研究では、実際の音声録音ではなく、音声モデルとIMUベースのモーションモデル(加速度計とジャイロスコープデータを使用して動きを追跡)によって生成された短いテキスト記述がLLMに入力されました。
研究チームは、Ego4Dという大規模なデータセットを使用しました。これは、家庭内の作業や屋外活動など、現実世界の環境や状況を数千時間分含むものです。選定されたデータセットは、掃除機がけ、料理、洗濯、食事、バスケットボール、サッカー、ペットと遊ぶ、読書、コンピュータの使用、皿洗い、テレビ視聴、筋トレの12の高レベル活動の20秒サンプルを含んでいます。
研究者たちは、音声と動作データを小型モデルに通してテキストキャプションとクラス予測を生成し、それらを異なるLLM(Gemini-2.5-proとQwen-32B)に入力して活動の特定能力を評価しました。
最終的に、この研究は複数のモデルを組み合わせることが活動や健康データにどのように利益をもたらすかについて興味深い洞察を提供しています。特に、センサーデータだけではユーザーの活動を明確に把握するのに不十分な場合に有効です。
アップルはまた、研究結果を再現したい研究者のために、Ego4DセグメントID、タイムスタンプ、プロンプト、ワンショット例などの補足資料を公開しました。
