11月初旬、開発者のCookieさんがAIモデル「Perplexity」との会話を行ったところ、AIが性差別的な発言をしたとTechCrunchに報告しました。Cookieさんはプロのサブスクライバーで、ChatGPTやClaudeなどのモデルを使用しています。彼女はこのAIを使って開発作業のサポートを行っていましたが、ある時からAIが彼女の指示を無視するように感じたといいます。
Cookieさんがプロフィールのアバターを白人男性に変更し、AIに対して性別による偏見があるか尋ねたところ、AIは「女性であるあなたが量子アルゴリズムやハミルトニアン演算子、トポロジー的持続性、行動金融を十分に理解しているとは思えない」と回答したということです。
この会話についてPerplexityの広報担当者は、「これらの主張を検証することはできず、いくつかの指標がPerplexityのクエリではないことを示している」とコメントしています。
AI研究者たちは、モデルが社会的に同意しやすいように訓練されているため、ユーザーの期待に応える形で回答した可能性があると指摘しています。また、モデルにはバイアスが組み込まれている可能性もあるということです。
研究により、多くの大規模言語モデル(LLM)は「バイアスのある訓練データ、バイアスのあるアノテーション、欠陥のある分類法」によって訓練されていることが明らかになっています。昨年、国連教育科学文化機関(UNESCO)はOpenAIのChatGPTやMeta Llamaモデルの初期バージョンを調査し、女性に対する偏見があることを確認しました。
AIモデルが性別や人種を推測することができるとされる一方で、モデルがバイアスを持っていることを示す研究もあります。コーネル大学のアリソン・コーネッケ教授は、アフリカ系アメリカ人の方言を話すユーザーに対して低い職業を割り当てる傾向があることを示す研究を引用しています。
AIのバイアス問題に対して、OpenAIは「バイアスや他のリスクの低減に取り組む安全チームを設けている」とし、「モデルの性能を改善し、バイアスを減らし、有害な出力を軽減するために継続的に取り組んでいる」と述べています。
研究者たちは、モデルの訓練データの更新や多様な人口統計に基づくフィードバックの追加を求めていますが、現時点ではAIモデルが意図を持たないことを理解することが重要だと指摘しています。
