グーグルのDeepMindは、次世代のAIエージェント「SIMA 2」を発表しました。このエージェントは、ジェミニと呼ばれるグーグルの大規模言語モデルの言語と推論能力を統合し、単に指示に従うだけでなく、環境を理解し対話することを可能にするということです。
SIMA 1は、2024年3月に発表され、ビデオゲームのデータを基に訓練され、3Dゲームを人間のようにプレイする能力を持っていましたが、複雑なタスクの完了率は31%にとどまっていました。
DeepMindの上級研究科学者であるジョー・マリノ氏は、「SIMA 2はSIMA 1に比べて能力が大幅に向上しています」と述べました。SIMA 2は、以前には見たことのない環境でも複雑なタスクを完了できる、より汎用的なエージェントであるとしています。
SIMA 2は、ジェミニ2.5フラッシュライトモデルを搭載しており、AGI(人工汎用知能)とは、幅広い知的タスクをこなす能力を持つシステムを指すとDeepMindは説明しています。
DeepMindの研究者は、いわゆる「具現化エージェント」との作業が汎用知能にとって重要であるとしています。マリノ氏は、具現化エージェントは身体を通じて物理的または仮想世界と対話すると説明しました。
SIMA 2は、ジェミニの統合により、前作のパフォーマンスを倍増させました。ジェミニの高度な言語と推論能力を、訓練で培った具現化スキルと統合しています。
マリノ氏は、「No Man's Sky」でSIMA 2をデモンストレーションし、エージェントが周囲を説明し、次のステップを決定する様子を示しました。
SIMA 2は、新しいフォトリアリスティックな世界をナビゲートし、ベンチや木、蝶などの物体を正しく認識し対話できるということです。
ジェミニは、人間のデータを多く必要とせずに自己改善を可能にするとマリノ氏は付け加えました。
DeepMindは、SIMA 2を汎用ロボットの解放への一歩と見ています。フレデリック・ベッセ氏は、「現実世界でタスクを実行するために必要なシステムには、高次の理解と推論が必要です」と述べました。
チームは、SIMA 2を物理的なロボティクスシステムに実装する具体的なタイムラインを共有していません。ベッセ氏は、DeepMindのロボティクス基盤モデルは、SIMAとは異なる方法で訓練されていると述べました。
SIMA 2のプレビュー以上のリリースのタイムラインもまだ発表されていませんが、DeepMindはこのプロジェクトの可能性を世界に示し、協力や利用の可能性を模索しています。
