AIエージェントの専門的な能力を評価する新たな指標について、先月報告しました。当時、主要な研究所のスコアは25%未満で、法律業務においてAIが人間を取って代わることは当面ないと結論付けられました。しかし、AIの能力は数週間で大きく変化する可能性があります。
今週、Anthropic社が発表したOpus 4.6は、大きな進展を見せました。この新モデルは、ワンショット試験で30%近くのスコアを獲得し、複数回の試行では平均45%に達しました。特に注目すべきは、エージェントスウォームを含む新機能が追加され、複雑な問題解決に役立った可能性があるということです。
このスコアは、以前の最先端技術から大きく飛躍したもので、基盤モデルの進歩が続いていることを示しています。Mercor社のCEOであるブレンダン・フーディ氏は、「18.4%から29.8%への数ヶ月の進歩は驚異的だ」と述べています。
30%というスコアは、100%にはまだ遠いですが、法律業務においてAIがすぐに人間を置き換えるわけではありません。それでも、先月よりは安心できない状況です。
