アップルは、新しい研究において、AIモデルを使用して元のトレーニングデータセットに含まれていない手のジェスチャーを認識する技術を開発したと発表しました。この研究は、2026年4月に開催されるICLR会議で発表される予定です。
この研究では、EMBridgeと呼ばれるクロスモーダル表現学習フレームワークを開発し、EMGとポーズの間のモダリティギャップを埋める方法を説明しています。
EMG(筋電図)は、筋肉の収縮時に生成される電気活動を測定する技術で、医療診断やリハビリテーション、義肢の制御に応用されています。最近では、ウェアラブルデバイスやAR/VRシステムでも広く探求されています。
アップルの研究では、トレーニングに使用されたEMG信号は手首に装着するデバイスによって検出されたものではなく、2つのデータセットを使用して行われました。
この技術により、将来的にはアップルウォッチや他のウェアラブルデバイスが、Apple Vision ProやMac、iPhone、さらには噂されるスマートグラスの操作に応用される可能性があります。
研究では、ウェアラブルデバイスを用いた人間とコンピュータのインタラクションの実用的な応用が示唆されています。特にVR/ARや義肢制御の場面で、手首に装着するデバイスがEMGから手のジェスチャーを継続的に推測し、仮想アバターやロボットハンドを操作することが求められます。
EMBridgeは、実際のEMG筋信号と構造化された手のポーズデータの間のギャップを埋めるために開発されました。クロスモーダルフレームワークを使用してトレーニングされたモデルは、最初にEMGと手のポーズデータを別々に事前学習しました。その後、2つの表現を整合させ、EMGエンコーダーがポーズエンコーダーから学習できるようにしました。これにより、EMG信号からジェスチャーパターンを認識する能力が向上しました。
研究者たちは、emg2poseとNinaProの2つのベンチマークでEMBridgeを評価し、特にゼロショット(初めて見る)ジェスチャー認識において既存の方法を上回る成果を上げたとしています。重要なのは、トレーニングデータの40%のみでこれを達成した点です。
このモデルは、EMG信号と同期した手のポーズデータを含むデータセットに依存しているため、特殊なデータセットの収集が必要であるという制約があります。それでも、EMGを用いたデバイス制御が注目される中で、興味深い研究といえるでしょう。
