Anthropicは月曜日、主力モデルの最新バージョンであるOpus 4.5を発表しました。これは9月に発表されたSonnet 4.5と10月に発表されたHaiku 4.5に続く、4.5シリーズの最後のモデルとなります。
Opus 4.5は、SWE-BenchやTerminal-benchなどのコーディングベンチマーク、tau2-benchやMCP Atlasのツール使用、ARC-AGI 2やGPQA Diamondの一般的な問題解決など、さまざまなベンチマークで最先端の性能を示しています。特に、SWE-Bench verifiedという著名なコーディングベンチマークで80%以上のスコアを初めて達成しました。
Anthropicは、Opusのコンピュータ使用能力とスプレッドシート機能を強調し、これらの環境でのモデルの性能を示すためにいくつかの関連製品を発表しました。Opus 4.5とともに、以前は試験運用中だったClaude for ChromeとClaude for Excelが広く利用可能になります。Chrome拡張機能はすべてのMaxユーザーが利用可能で、Excel向けモデルはMax、Team、およびEnterpriseユーザーが利用できます。
Opus 4.5には、長いコンテキスト操作のためのメモリ改善も含まれており、モデルがメモリを管理する方法に大きな変更が加えられました。Anthropicの製品管理部門の責任者であるダイアン・ナ・ペン氏は、「Opus 4.5のトレーニングで長いコンテキストの質を向上させましたが、コンテキストウィンドウだけでは不十分です。適切な詳細を覚えることが重要です」と述べています。
これらの変更により、有料のClaudeユーザー向けに長らく要望されていた「エンドレスチャット」機能も実現しました。これにより、モデルがコンテキストウィンドウに達した際に、ユーザーに通知することなくコンテキストメモリを圧縮し、チャットを中断なく続行できます。
多くのアップグレードはエージェント的な使用ケースを念頭に置いて行われており、特にOpusがHaikuを搭載したサブエージェント群を指揮するシナリオにおいて、その価値を発揮します。これらのタスクを管理するには、作業メモリの強力な制御が必要であり、ペン氏が説明するメモリ改善が重要な役割を果たします。
Opus 4.5は、最近リリースされた他の最先端モデル、特にOpenAIのGPT 5.1(11月12日リリース)やGoogleのGemini 3(11月18日リリース)との激しい競争に直面することになります。
