アップルは、大規模言語モデル(LLM)の応答速度を向上させる技術を開発したと発表しました。この技術は、出力の品質を維持しつつ、効率を高めることを目的としています。
従来、LLMは一度に1つのトークンを生成し、前のステップすべてに依存して出力の一貫性と正確性を保っていました。例えば、「The cat is black」という文を生成する際、モデルは各トークンを順番に予測し、「The cat is」と書いた後、それまでのすべての情報を基に次のトークンの確率を計算します。これは自己回帰と呼ばれます。
アップルの研究チームは、通常は次のトークンのみを予測するように訓練されているこれらのモデルが、複数の将来のトークンに関する有用な情報を保持していることを発見しました。この発見を基に、複数のトークンを一度に生成できる「マルチトークン予測(MTP)」フレームワークを開発しました。
この研究では、プロンプトに特別な「マスク」トークンを挿入し、今後の単語のプレースホルダーとして機能させました。例えば、「The cat is 」というプロンプトは、一度に「very fluffy」と補完される可能性があります。この方法により、モデルは複数の単語を一度に推測し、各単語が標準的な自己回帰デコーディングで生成されるものと即座に照合されます。推測がチェックを通過しない場合、通常の一度に1つのプロセスに戻ります。これにより、速度が向上しつつも精度が犠牲にならないということです。
アップルは、オープンソースのTulu3-8Bモデルを使用して、8つの追加トークンを予測するようにモデルを訓練し、一般的なタスクでは2〜3倍、コーディングや数学のような予測可能なドメインでは最大5倍の速度向上を報告しました。この向上は、「ゲーテッドLoRA適応」と呼ばれるシンプルで効果的な技術のおかげで、生成品質の低下は見られないとしています。
詳細な研究内容はarXivで公開されています。
9to5mac
2025年8月11日
5分で読めます
アップル、大規模言語モデルの数学とコーディングタスクの速度を最大5倍に向上
アップルは、大規模言語モデルの応答速度を向上させる技術を開発したと発表しました。この技術は、出力の品質を保ちながら効率を高めることを目的としています。
NihonTechHub
技術系ジャーナリスト

About NihonTechHub
日本の最新テクノロジーやスタートアップ情報を発信するプラットフォームです。国内外のイノベーションをつなぎ、未来を切り開くための知識とインスピレーションを提供します。