AIインフラのコストに関する議論では、通常、NvidiaやGPUに焦点が当てられますが、メモリもますます重要な要素となっていると発表しました。大規模データセンターの構築を準備する中で、DRAMチップの価格が昨年に比べて約7倍に跳ね上がったということです。
同時に、適切なデータを適切なエージェントに適切なタイミングで届けるためのメモリ管理の重要性も増しています。この分野をマスターした企業は、少ないトークンで同じクエリを実行できるようになり、事業継続の鍵となる可能性があるとしています。
半導体アナリストのダグ・オラフリン氏は、半導体におけるメモリチップの重要性について、WekaのAI最高責任者であるヴァル・ベルコビッチ氏と共にSubstackで議論しています。彼らは半導体の専門家であり、チップに焦点を当てた議論を展開していますが、AIソフトウェアにも大きな影響があるということです。
特に印象的だったのは、Anthropic社のプロンプトキャッシュに関する文書の複雑化についての記述です。Anthropic社のプロンプトキャッシュの価格ページを見ると、数ヶ月前は非常にシンプルだったのが、今では詳細なアドバイスが掲載されており、5分単位や1時間単位でのキャッシュ書き込みの事前購入が可能になっています。
この問題は、キャッシュメモリにプロンプトをどのくらい保持するかに関わります。5分間のウィンドウを購入するか、1時間のウィンドウを購入するかで価格が異なります。キャッシュに残っているデータを利用する方がはるかに安価で、適切に管理すれば大幅なコスト削減が可能です。しかし、新しいデータを追加するたびに他のデータがキャッシュから押し出される可能性があるという問題もあります。
このように、AIモデルにおけるメモリ管理は今後ますます重要になるということです。メモリ管理を効率化する企業が業界のトップに立つとされています。
この新しい分野にはまだ多くの進展の余地があります。例えば、スタートアップのTensormesh社がキャッシュ最適化に取り組んでいることが報じられています。
他の分野にも機会が存在します。例えば、データセンターが異なる種類のメモリをどのように使用しているかという問題があります。DRAMチップとHBMの使用についての議論もありますが、技術的な詳細に踏み込んでいます。さらに、エンドユーザーは、共有キャッシュを活用するためにモデル群をどのように構造化するかを模索しています。
企業がメモリ管理を向上させるにつれ、トークンの使用量が減り、推論コストが低下します。同時に、モデルは各トークンの処理効率を向上させ、コストをさらに押し下げます。サーバーコストが下がると、現在は採算が取れないと思われている多くのアプリケーションが利益を生む可能性があるということです。
