アップルとオハイオ州立大学の研究者は、新しい言語モデル「FS-DFM」を発表しました。このモデルは、従来のモデルと比較して最大128倍の速度でテキストを生成できるということです。
この研究では、FS-DFMがわずか8回の迅速な改善ステップで、従来の拡散モデルが千以上のステップを要して達成する品質を実現できたとしています。研究者たちは、モデルが異なる改善の予算に対応できるように訓練し、その後、ガイド役の「教師」モデルを使用して、各ステップでより大きく正確な更新を行うようにしました。最終的には、各ステップの働きを調整し、より少ないステップで結果に到達できるようにしています。
FS-DFMは、より大規模な拡散モデルと比較して、パープレキシティとエントロピーの2つの重要な指標で優れた性能を発揮しました。パープレキシティは言語モデルにおけるテキストの品質を測る標準的な指標で、数値が低いほど自然で正確なテキストとされています。一方、エントロピーはモデルが各単語を選択する際の信頼度を測るもので、適切なバランスが求められます。
研究者たちは、Dream拡散モデル(70億パラメータ)やLLaDA拡散モデル(80億パラメータ)と比較して、FS-DFMの1.7億、1.3億、0.17億パラメータのバリアントが一貫して低いパープレキシティを達成し、エントロピーも安定していると報告しています。
この結果と手法の可能性を受けて、研究者たちはコードとモデルのチェックポイントを公開し、再現性とさらなる研究を促進する方針です。
詳細については、arXivに掲載されている「FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models」を参照してください。
