9to5mac
2025年8月24日
5分で読めます

アップル、長時間動画理解のための大規模言語モデルを開発

アップルは、長時間動画の分析と理解において優れた性能を発揮する大規模言語モデルを開発したと発表しました。このモデルは、効率的なフレーム選択で動画の内容を理解し、従来のモデルを上回る成果を示しています。

NihonTechHub

NihonTechHub

技術系ジャーナリスト
アップル-長時間動画-言語モデル

アップルは、長時間動画の分析と理解において優れた性能を発揮する大規模言語モデルを開発したと発表しました。このモデルは、SlowFast-LLaVAモデルを改良したもので、より大規模なモデルを凌駕する性能を持つということです。

このモデルは、動画をフレームに分割し、コンピュータビジョンを活用して視覚的特徴を抽出し、それらの特徴が時間と共にどのように変化するかを分析します。さらに、これらを言語と整合させ、動画をテキストで説明または推論できるようにするということです。

アップルの研究チームは、SlowFast-LLaVAモデルを基に、画像と動画の両方を使用して訓練を行い、時間的構造を学習しつつ画像の理解を損なわないようにしました。その結果、SlowFast-LLaVA-1.5(SF-LLaVA-1.5)という、1B、3B、7Bのパラメータスケールを持つモデル群が開発され、さまざまな動画タスクでより大規模なモデルを上回る成果を示したとしています。

このモデルは、LongVideoBenchやMLVUといった長時間動画のベンチマークにおいて、すべてのモデルサイズで新たな最先端の結果を示しました。また、知識、数学的推論、OCR、テキストリッチなシナリオなどの画像タスクでも優れた性能を発揮しています。

研究チームは、いくつかの動画圧縮戦略を試みましたが、速度、精度、トークン数のバランスが最も良いと判断しました。ただし、SF-LLaVA-1.5には、128フレームの最大入力フレーム長という制限があります。この制限により、長時間動画の重要なフレームを見逃す可能性があるということです。

アップルの研究チームは、将来的な研究でメモリ節約技術の統合を検討する方針です。SF-LLaVA-1.5は、GitHubやHugging Faceでオープンソースとして公開されており、arXivで完全な研究内容を確認することができます。

NihonTechHub

About NihonTechHub

日本の最新テクノロジーやスタートアップ情報を発信するプラットフォームです。国内外のイノベーションをつなぎ、未来を切り開くための知識とインスピレーションを提供します。

アップル、長時間動画理解のための大規模言語モデルを開発