OpenAIは、AIブラウザ「ChatGPT Atlas」におけるプロンプトインジェクション攻撃の脆弱性について、完全に解決することは難しいと発表しました。この攻撃は、ウェブページやメールに隠された悪意のある指示をAIエージェントが実行するように操るものです。
OpenAIは、プロンプトインジェクションがウェブ上の詐欺やソーシャルエンジニアリングと同様に完全には解決されないとし、これを長期的なAIセキュリティの課題と位置づけています。これに対し、同社は防御を強化するためのプロアクティブな迅速対応サイクルを採用し、新しい攻撃戦略を内部で発見することに注力しています。
この問題に対する取り組みはOpenAIだけではありません。イギリスの国家サイバーセキュリティセンターも、生成AIアプリケーションに対するプロンプトインジェクション攻撃が完全には防げない可能性があると警告しています。
OpenAIは、強化学習を用いて訓練した「LLMベースの自動攻撃者」を活用しています。このボットは、AIエージェントに悪意のある指示を送り込む方法を探るハッカーの役割を果たします。シミュレーションで攻撃をテストし、AIの反応を観察して攻撃を改良することが可能です。
同社は、プロンプトインジェクションに対する完全な防御は難しいものの、大規模なテストと迅速なパッチサイクルを通じてシステムを強化する方針です。
しかし、AIブラウザのリスクと価値のバランスについては慎重な見方もあります。サイバーセキュリティ企業Wizの主任研究者ラミ・マッカーシー氏は、AIシステムのリスクは自律性とアクセスの積により評価されるべきと述べています。OpenAIもユーザーに対し、エージェントに具体的な指示を与えることを推奨しています。
OpenAIは、プロンプトインジェクションからAtlasユーザーを保護することを最優先事項としていますが、リスクの高いブラウザに対する投資の回収については、慎重な姿勢を求める声もあります。
