アップルの研究者は、1枚の画像から3Dオブジェクトを再構築し、異なる角度からの光の反射やハイライトを一貫して再現するAIモデルを開発したと発表しました。
この研究は、機械学習における「潜在空間」という概念に基づいています。潜在空間は、データを数学的に表現することで、計算コストを抑えつつデータ間の距離を測定し、生成すべき内容を推定する方法です。
アップルの新しい研究「LiTo: Surface Light Field Tokenization」では、オブジェクトの形状と視点に依存した外観を同時にモデル化する3D潜在表現を提案しています。これにより、3Dオブジェクトの再構築と、異なる角度からの光の相互作用の再現を可能にしています。
従来の研究は、3D形状の再構築か、視点に依存しない拡散外観の予測に焦点を当てており、リアルな視点依存効果を捉えるのに苦労していました。しかし、LiToはRGB深度画像を利用して表面の光フィールドをサンプリングし、それを潜在ベクトルのコンパクトなセットにエンコードすることで、形状と外観の両方を統一された3D潜在空間で表現することを可能にしています。
この研究では、150の異なる視点と3つの照明条件からレンダリングされた数千のオブジェクトを選び出し、ランダムに選ばれた小さなサンプルセットを潜在表現に圧縮しました。その後、デコーダーを訓練して、異なる角度と光条件でのオブジェクトとその外観を再構築しました。
最終的に、1枚の画像からオブジェクトの潜在表現を予測し、デコーダーがその完全な3Dオブジェクトを再構築するモデルを訓練しました。これにより、視点が変わるにつれて外観がどのように変化するかを再現することができます。
この研究の詳細やLiToとTRELLISの比較は、プロジェクトページで確認できます。
