グーグル・ディープマインドは10月17日、ロボットがインターネット接続なしで動作可能な新しい言語モデル「ジェミニ・ロボティクス・オンデバイス」を発表しました。
このモデルは、3月にリリースされた「ジェミニ・ロボティクス」モデルを基に開発されており、ロボットの動きを制御することができます。開発者は自然言語プロンプトを用いて、様々なニーズに合わせてモデルを調整することが可能です。
ベンチマークテストでは、このモデルはクラウドベースの「ジェミニ・ロボティクス」モデルに近い性能を示しているということです。グーグルは、他のオンデバイスモデルに比べて一般的なベンチマークで優れているとしていますが、具体的なモデル名は明らかにしていません。
デモンストレーションでは、このローカルモデルを使用したロボットがバッグを開けたり、服を畳んだりする様子が示されました。グーグルによれば、このモデルは最初にALOHAロボット向けに訓練されましたが、その後、二腕のフランカFR3ロボットやApptronikのアポロヒューマノイドロボットにも適応させたとしています。
グーグルは、二腕のフランカFR3ロボットが、産業用ベルトでの組み立て作業など、これまで「見たことのない」シナリオや物体にも対応できたとしています。
また、グーグル・ディープマインドは「ジェミニ・ロボティクスSDK」もリリースする方針です。開発者はこのモデルを使用し、MuJoCo物理シミュレーター上でロボットに50から100のタスクデモを示すことで、新しいタスクを訓練できるということです。
他のAIモデル開発者もロボティクスに注力しています。Nvidiaはヒューマノイド用の基盤モデルを作成するプラットフォームを構築中で、Hugging Faceはロボティクス向けのオープンモデルやデータセットを開発するだけでなく、ロボットそのものの開発にも取り組んでいます。また、未来アセットが支援する韓国のスタートアップRLWRLDは、ロボット向けの基盤モデルを作成しています。