グーグルは、最も高度なAI推論モデルである「ジェミニ2.5ディープシンク」を発表しました。このモデルは、複数のアイデアを同時に検討し、最適な答えを選択する能力を持つということです。
グーグルの月額約3万9千円(250ドル)のウルトラサブスクリプション契約者は、金曜日からジェミニアプリで「ジェミニ2.5ディープシンク」にアクセスできるとしています。
このモデルは、今年5月に開催されたGoogle I/O 2025で初めて発表されました。グーグルの初の公開されたマルチエージェントモデルであり、複数のAIエージェントが並行して質問に取り組む仕組みです。この方法は、単一エージェントよりも計算資源を多く使用しますが、より良い答えを導き出す傾向があるということです。
グーグルは、この「ジェミニ2.5ディープシンク」を使用して、今年の国際数学オリンピックで金メダルを獲得しました。
さらに、グーグルはこの国際数学オリンピックで使用したモデルを、選ばれた数学者や学者に提供する方針です。このAIモデルは、通常の消費者向けAIモデルのように数秒や数分ではなく、数時間かけて推論を行うとしています。グーグルは、このモデルが研究を強化し、学術的な利用に向けてマルチエージェントシステムの改善につながるフィードバックを得ることを目指しています。
「ジェミニ2.5ディープシンク」は、Google I/Oで発表したものよりも大幅に改善されたとグーグルは述べています。また、推論経路をより効果的に利用するための新しい強化学習技術を開発したとしています。
グーグルはブログで、「ディープシンクは創造性、戦略的計画、段階的な改善を必要とする問題に取り組む上で役立つ」と述べました。
「ジェミニ2.5ディープシンク」は、数学、人文科学、科学にわたる数千のクラウドソース質問に答えるAIの能力を測定する「ヒューマニティーズ・ラスト・エグザム(HLE)」で最先端の性能を達成したとしています。グーグルのモデルは、HLEで34.8%のスコアを達成しました。これはxAIのGrok 4の25.4%、OpenAIのo3の20.3%を上回っています。
また、グーグルは「ジェミニ2.5ディープシンク」が競争的なコーディングタスクを評価する「ライブコードベンチ6」において、OpenAI、xAI、AnthropicのAIモデルを上回る性能を示したとしています。グーグルのモデルは87.6%のスコアを達成し、Grok 4は79%、OpenAIのo3は72%でした。
「ジェミニ2.5ディープシンク」は、コード実行やGoogle検索などのツールと自動的に連携し、従来のAIモデルよりも「はるかに長い応答」を生成できるとしています。
グーグルのテストでは、このモデルは他のAIモデルと比較して、より詳細で美的に優れたウェブ開発タスクを生成しました。グーグルは、このモデルが研究者を支援し、「発見への道を加速する可能性がある」と主張しています。
複数の主要AI研究所がマルチエージェントアプローチに収束しつつあるようです。イーロン・マスクのxAIは最近、独自のマルチエージェントシステム「Grok 4 Heavy」をリリースし、いくつかのベンチマークで業界をリードする性能を達成したとしています。OpenAIの研究者ノアム・ブラウン氏は、今年の国際数学オリンピックで金メダルを獲得した未発表のAIモデルがマルチエージェントシステムであったとポッドキャストで述べました。Anthropicのリサーチエージェントも、マルチエージェントシステムによって詳細な研究ブリーフを生成しています。
強力な性能にもかかわらず、マルチエージェントシステムは従来のAIモデルよりもコストがかかるようです。そのため、テクノロジー企業はこれらのシステムを最も高価なサブスクリプションプランの背後に置くことを選択する可能性があります。xAIとグーグルがこの方針を取っているということです。
今後数週間で、グーグルは「ジェミニ2.5ディープシンク」をジェミニAPIを通じて選ばれたテスターに提供する計画です。開発者や企業がマルチエージェントシステムをどのように利用するかを理解することを目指しています。
