アップルの研究者が共同執筆した新しい研究で、オープンソースの大規模言語モデル(LLM)が自身の作業をチェックすることで性能が大幅に向上したと発表しました。
LLMの訓練後、その品質は通常、人間のフィードバックによる強化学習(RLHF)という後処理ステップでさらに向上します。RLHFでは、モデルが回答を出すたびに、人間のラベラーがその回答に対して「良い」または「悪い」の評価を行い、モデルの全体的な有用性を向上させるということです。
この後処理段階の一部は「アライメント」と呼ばれる分野に関連しており、LLMが有用かつ安全に振る舞う方法を探求しています。
アップルの研究では、チェックリストベースの強化学習スキームである「チェックリストフィードバックによる強化学習(RLCF)」を提案しました。RLCFは、チェックリストの各項目をどれだけ満たしているかを0から100のスケールで評価します。
研究者によると、RLCFは他のアライメント手法と比較して、5つの広く研究されているベンチマークすべてで性能を向上させた唯一の方法であるとしています。特に、FollowBenchで4ポイント、InFoBenchで6ポイント、Arena-Hardで3ポイントの向上を示したとしています。
研究では、各チェックリストの作成方法と項目間の重要度の重み付けについても詳述しています。アップルの研究者は、130,000の指示に対するチェックリストを生成し、新しいデータセット「WildChecklists」を作成しました。
研究者は、適切なチェックリストを作成するためのシステムを整備することで、あるベンチマークで最大8.2%の向上を確認しました。しかし、RLCFは「複雑な指示に従う」ことに焦点を当てており、他の用途には最適でない可能性があるとしています。また、RLCFは安全性のアライメントを目的としていないと明言しています。
それでも、この研究は人間とLLMベースのアシスタント間の相互作用における信頼性を向上させる新しくもシンプルな方法を提供しています。
