アップルの研究者たちは、新しいマルチモーダルモデル「Manzano」を発表しました。このモデルは、視覚理解とテキストから画像への生成を統合し、現行の実装における性能と品質のトレードオフを大幅に削減することを目指しています。
研究は「MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer」というタイトルで発表され、約30名の研究者が新たな統一アプローチを詳述しています。このアプローチにより、画像理解とテキストから画像への生成が単一のマルチモーダルモデルで可能になります。
現行の統一マルチモーダルモデルは、画像生成をサポートする際にトレードオフが発生しがちです。すなわち、視覚理解を犠牲にして自動回帰型画像生成を優先するか、逆に理解を優先して生成の忠実度を犠牲にするという問題があります。
研究者によると、この問題の主な原因は視覚トークン化の性質にあります。自動回帰型生成は通常、離散的な画像トークンを好む一方、理解は連続的な埋め込みが有利です。多くのモデルは、リッチで連続的な特徴を持つセマンティックエンコーダと、生成を扱う量子化トークナイザ(VQ-VAEなど)を使用する二重トークナイザ戦略を採用しています。しかし、これにより言語モデルは、高レベルのセマンティックスペースと低レベルの空間スペースという異なる画像トークンタイプを処理する必要があり、大きなタスクの衝突を生じます。
Manzanoは、オートレグレッシブLLMを用いて画像が意味的に含むべき内容を予測し、これらの予測をディフュージョンデコーダに渡すことで、理解と生成のタスクを統合します。
研究者たちは、Manzanoが「The bird is flying below the elephant」のような直感に反するプロンプトを、GPT-4oやNano Bananaと同等に処理できると述べています。また、Manzano 3Bおよび30Bモデルは、他の最先端統一マルチモーダルLLMと比較して優れた、または競争力のある性能を達成したとしています。
アップルの研究者たちは、Manzanoを300Mパラメーターモデルから30Bパラメーターバージョンまで、さまざまなサイズでテストしました。これにより、モデルのスケールに伴う統一マルチモーダル性能の向上を評価することができました。
Manzanoは、画像編集タスクにも優れており、指示に基づく編集、スタイル転送、インペインティング/アウトペインティング、深度推定などを含みます。
詳細な技術情報は、Manzanoのハイブリッドトークナイザのトレーニング、ディフュージョンデコーダの設計、スケーリング実験、人間による評価を含む研究全文をご覧ください。
