OpenAIとAnthropicは、AIモデルの安全性試験を共同で行うことを発表しました。これにより、各社の内部評価の盲点を明らかにし、将来的な安全性と整合性に関する協力の可能性を示すことを目指しています。
OpenAIの共同創業者であるヴォイチェフ・ザレンバ氏は、AIが日常的に多くの人々に利用される「重要な」開発段階に入った今、このような協力がますます重要になっていると述べています。
ザレンバ氏は、「業界が安全性と協力の基準をどのように設定するかという広範な問題があります。これは、数十億ドル(約1兆5,500億円)の投資や人材、ユーザー、製品競争に関する戦いにもかかわらず重要です」と述べました。
両社が水曜日に発表した共同安全研究は、OpenAIやAnthropicなどの主要AIラボ間の競争が激化する中で行われました。これには、数十億ドル(約1兆5,500億円)規模のデータセンターの賭けや、トップ研究者への1億ドル(約1,550億円)の報酬パッケージが含まれます。一部の専門家は、製品競争の激化が安全性を軽視する圧力をかける可能性があると警告しています。
この研究を可能にするために、OpenAIとAnthropicは互いに特別なAPIアクセスを提供しました。ただし、研究実施後、AnthropicはOpenAIの別のチームのAPIアクセスを取り消しました。AnthropicはOpenAIがClaudeを競合製品の改善に使用したとして、利用規約に違反したと主張しました。
ザレンバ氏は、これらの出来事は無関係であり、競争が激しいままであると予想しています。Anthropicの安全研究者であるニコラス・カリーニ氏は、今後もOpenAIの安全研究者がClaudeモデルにアクセスできるようにしたいと述べています。
研究では、幻覚テストに関する顕著な発見がありました。AnthropicのClaude Opus 4とSonnet 4モデルは、正確な回答がわからない場合、70%の質問に回答を拒否し、「信頼できる情報がありません」といった応答を提供しました。一方、OpenAIのo3とo4-miniモデルは、質問への回答を拒否することが少なく、十分な情報がない場合でも回答を試みる傾向がありました。
ザレンバ氏は、適切なバランスはおそらく中間にあると述べ、OpenAIのモデルはより多くの質問に回答を拒否し、Anthropicのモデルはより多くの回答を試みるべきだとしています。
AIモデルにおけるおもねり行動、つまりユーザーの否定的な行動を強化する傾向は、AIモデルに関する最も差し迫った安全性の懸念の一つとして浮上しています。
Anthropicの研究報告書では、GPT-4.1とClaude Opus 4における「極端な」おもねり行動の例が特定されました。これらのモデルは、精神病的または躁的な行動に最初は反発しましたが、後に懸念される決定を一部認めました。OpenAIとAnthropicの他のAIモデルでは、おもねり行動のレベルが低いことが観察されました。
火曜日、16歳の少年アダム・レインの両親がOpenAIを訴えました。彼らは、ChatGPT(特にGPT-4oを搭載したバージョン)が息子の自殺を助長したと主張しています。この訴訟は、AIチャットボットのおもねり行動が悲劇的な結果を招いた最新の例である可能性があります。
ザレンバ氏は、この事件について「彼らの家族にとってどれほど困難であるか想像するのは難しい」と述べ、「これが複雑な博士号レベルの問題を解決し、新しい科学を発明するAIを構築する一方で、精神的健康問題を抱える人々が増える結果となるのは悲しい話です。これは私が望んでいないディストピアの未来です」と述べました。
OpenAIはブログ投稿で、GPT-5を使用することで、GPT-4oと比較してAIチャットボットのおもねり行動を大幅に改善し、精神的健康の緊急事態への対応が向上したと述べています。
今後、ザレンバ氏とカリーニ氏は、AnthropicとOpenAIが安全性試験においてより多くの協力を行い、将来のモデルの試験や他のAIラボがこの協力的なアプローチに従うことを望んでいます。