AIの「思考」監視を求める研究者たち

OpenAIやGoogle DeepMind、Anthropicを含む企業や非営利団体の研究者たちは、AIの思考モデルの監視技術の研究を深めるよう求める声明を発表しました。

AIの思考モデルの重要な特徴は、チェーン・オブ・ソート（CoT）と呼ばれるもので、これは人間が難しい数学の問題を解く際に使うメモのようなプロセスを外部化したものです。これらのモデルはAIエージェントを強化するための重要な技術であり、声明の著者たちは、AIエージェントが広く普及し能力が向上する中で、CoTの監視が制御のための重要な方法になる可能性があるとしています。

「CoTの監視は、AIエージェントがどのように意思決定を行うかを理解するための貴重な追加の安全対策を提供します。しかし、現在の可視性が将来も続く保証はありません」と研究者たちは述べています。「研究コミュニティと最前線のAI開発者がCoTの監視可能性を最大限に活用し、それを維持する方法を研究することを奨励します」としています。

声明では、AIモデル開発者に対し、CoTがどのように「監視可能」なのか、つまりAIモデルがどのように答えを導き出すかの透明性を高める要因を研究するよう求めています。著者たちは、CoTの監視がAI思考モデルを理解するための重要な方法である可能性があるとしつつ、その透明性や信頼性を低下させるような介入を避けるよう注意を促しています。

また、AIモデル開発者に対して、CoTの監視可能性を追跡し、この方法が将来的に安全対策として実装される可能性を研究することを求めています。

この声明には、OpenAIの主任研究官マーク・チェン氏、安全な超知能CEOイリヤ・サツケバー氏、ノーベル賞受賞者ジェフリー・ヒントン氏、Google DeepMindの共同創設者シェーン・レッグ氏、xAI安全顧問ダン・ヘンドリックス氏、Thinking Machinesの共同創設者ジョン・シュルマン氏が署名しています。声明の第一著者には、イギリスAIセキュリティ研究所やアポロリサーチのリーダーが名を連ねており、その他の署名者にはMETR、Amazon、Meta、UCバークレーの関係者が含まれています。

この声明は、AI業界の多くのリーダーがAIの安全性に関する研究を推進するために一致団結した瞬間を示しています。これは、MetaがOpenAIやGoogle DeepMind、Anthropicからトップ研究者を引き抜くために数百万ドル（約1億5500万円）のオファーを出すなど、激しい競争が繰り広げられている時期に発表されました。最も求められている研究者は、AIエージェントやAI思考モデルを構築する人々です。

「私たちは、チェーン・オブ・ソートという新しいものがあるこの重要な時期にいます。これは非常に有用に見えますが、もし人々が本当に集中しなければ、数年で消えてしまう可能性があります」と、OpenAIの研究者で、この声明に関与したボーウェン・ベイカー氏はTechCrunchのインタビューで述べています。「このような声明を発表することは、私にとって、このトピックに関する研究と注目を集めるための手段です」としています。

OpenAIは、2024年9月に最初のAI思考モデルであるo1のプレビューを公開しました。それ以来、技術業界は同様の能力を持つ競争モデルを迅速にリリースしており、Google DeepMind、xAI、Anthropicの一部のモデルはベンチマークでさらに高度な性能を示しています。

しかし、AI思考モデルがどのように機能するかについては、比較的理解が進んでいません。AIラボは昨年、AIの性能を向上させることに成功しましたが、それが必ずしも答えを導き出す方法の理解に繋がっているわけではありません。

Anthropicは、AIモデルが実際にどのように機能するかを解明する業界のリーダーの一つです。今年初め、CEOのダリオ・アモデイ氏は、2027年までにAIモデルのブラックボックスを解明し、解釈可能性に対する投資を増やすことを発表しました。彼は、OpenAIやGoogle DeepMindにもこのトピックの研究を呼びかけています。

Anthropicの初期の研究では、CoTがこれらのモデルが答えを導き出す方法を完全に信頼できる指標ではない可能性があることが示唆されています。一方、OpenAIの研究者たちは、CoTの監視が将来的にAIモデルの整合性と安全性を追跡する信頼できる方法になる可能性があるとしています。

このような声明の目的は、CoTの監視などの新しい研究分野に注目を集めることです。OpenAIやGoogle DeepMind、Anthropicなどの企業はすでにこれらのトピックを研究していますが、この声明がこの分野へのさらなる資金提供と研究を促進する可能性があります。

About NihonTechHub