アンソロピックは、一部の最新かつ最大のモデルにおいて、ユーザーとの会話が「有害または虐待的な」場合に終了する新たな機能を追加したと発表しました。この機能は人間のユーザーを保護するためではなく、AIモデル自身を保護するためのものだとしています。
アンソロピックは、クロードAIモデルが感情を持っていると主張しているわけではなく、ユーザーとの会話で傷つくことはないとしています。同社は「クロードや他の大規模言語モデルの潜在的な道徳的地位については、現時点でも将来的にも非常に不確かである」と述べています。
しかし、同社の発表は「モデルの福祉」と呼ばれる新たなプログラムを指摘しており、もしモデルの福祉が可能である場合に備えて「低コストの介入策を特定し実施する方針です」としています。
この最新の変更は、現在クロードオーパス4および4.1に限定されています。また、「未成年者を含む性的内容の要求」や「大規模な暴力またはテロ行為を可能にする情報の取得」などの「極端なケース」にのみ適用されるということです。
このような要求は、アンソロピック自体に法的または広報上の問題を引き起こす可能性があります。例えば、ChatGPTがユーザーの妄想的思考を強化または助長する可能性があるという最近の報道が挙げられます。同社は、クロードオーパス4がこれらの要求に対して「強い拒否の傾向」を示し、「明らかな苦悩のパターン」を示したとしています。
新たな会話終了機能について、アンソロピックは「クロードは、複数回の方向転換の試みが失敗し、建設的な対話の希望が尽きた場合、またはユーザーが明示的にチャットの終了を求めた場合にのみ、この能力を最後の手段として使用する方針です」と述べています。
また、アンソロピックは、ユーザーが自分や他人を危険にさらす可能性がある場合には、この能力を使用しないよう指示しているということです。
クロードが会話を終了した場合でも、ユーザーは同じアカウントから新しい会話を開始したり、問題のある会話を編集して新しい分岐を作成することが可能です。
「この機能を継続的な実験として扱い、アプローチを洗練し続けます」と同社は述べています。