Googleは、ChromeブラウザにおけるGeminiと今後導入されるエージェント機能の安全対策について発表しました。
Googleによれば、「すべてのエージェントブラウザが直面する主な新たな脅威は、間接的なプロンプトインジェクションである」としています。この攻撃の目的は、「エージェントに金融取引の開始や機密データの流出など望ましくない行動を取らせること」であるとしています。これらは「悪意のあるサイト、iframe内のサードパーティコンテンツ、またはユーザーレビューのようなユーザー生成コンテンツに現れる」可能性があるということです。
このような課題に対し、Googleは攻撃者が被害を与えることを困難かつ高コストにするために、決定論的および確率論的防御を含む多層防御に投資する方針です。
まず、Geminiを用いて構築された独立した「ユーザーアライメントクリティック」モデルが導入されます。このモデルは「計画が完了した後に実行され、各提案された行動を再確認し、承認または拒否する」ということです。拒否された場合、計画モデルは計画を再構築し、繰り返し失敗した場合はユーザーに制御が戻るとしています。
このモデルの主な焦点はタスクの整合性です。提案された行動がユーザーの明示された目標に合致しているかを判断します。行動が不整合である場合、アライメントクリティックがそれを拒否します。このコンポーネントは提案された行動に関するメタデータのみを参照し、未加工の信頼できないウェブコンテンツを直接見ることがないよう設計されています。
さらに、GoogleはChromeの「オリジン隔離機能を拡張し、エージェントが相互作用できるオリジンをタスクに関連するものに限定する」方針です。
これに対処するため、「エージェントオリジンセット」を設計し、エージェントがタスクに関連するオリジンまたはユーザーがエージェントと共有することを選んだデータのみへのアクセスを制限するということです。これにより、妥協したエージェントが無関係なオリジンで任意の行動を取ることを防ぎます。
また、ユーザーが制御を維持できるように、ChromeのGeminiは「作業ログの各ステップを詳細に記録し、いつでも停止して制御を引き継ぐことができる」ようにしています。
この行動の透明性は、モデルの誤りや敵対的な入力に対するガードレールとして、エージェントが影響力のある行動を取る前にユーザーの確認を求める決定論的およびモデルベースのチェックと組み合わされています。
ユーザー確認が必要であるということです。
