中国のAI企業DeepSeekは、新たな実験的モデル「V3.2-exp」を発表しました。このモデルは長文コンテキストでの推論コストを大幅に削減することを目的としています。DeepSeekはこのモデルをHugging Faceで発表し、関連する学術論文をGitHubに公開しました。
新モデルの最も重要な特徴は「DeepSeekスパースアテンション」と呼ばれる技術です。このシステムは、「ライトニングインデクサー」と呼ばれるモジュールを使用し、コンテキストウィンドウから特定の抜粋を優先的に選択します。その後、「細粒度トークン選択システム」がこれらの抜粋から特定のトークンを選び、モジュールの限定されたアテンションウィンドウにロードします。これにより、スパースアテンションモデルは、比較的小さなサーバー負荷で長いコンテキストを処理することが可能になります。
DeepSeekの初期テストによれば、長文コンテキストでの単純なAPIコールのコストが最大で半減する可能性があるということです。さらなるテストが必要とされていますが、モデルはオープンウェイトでHugging Face上で自由に利用できるため、第三者による評価が行われるのも時間の問題とされています。
DeepSeekの新モデルは、推論コスト、すなわち事前学習済みAIモデルの運用にかかるサーバーコストを削減するための最近の一連の進展の一つです。DeepSeekの研究者たちは、基本的なトランスフォーマーアーキテクチャをより効率的に動作させる方法を模索しており、改善の余地が大きいことを見出しています。
中国に拠点を置くDeepSeekは、AIブームの中で特異な存在です。特にAI研究を米中間の国家的競争と捉える向きには注目されています。今年初めに、主に強化学習を用いて低コストで訓練された「R1」モデルを発表し話題を呼びましたが、AI訓練に革命を起こすことはありませんでした。その後、同社はしばらく注目を集めませんでした。
新たな「スパースアテンション」アプローチは、R1ほどの大きな反響を呼ぶことはないかもしれませんが、米国のプロバイダーにとって推論コストを低く抑えるための有用な手法を提供する可能性があるということです。
