アップルは、2D写真から瞬時に3Dビューを生成するオープンソースモデル「SHARP」を発表しました。SHARPは、単一の画像からフォトリアリスティックな3Dシーンを1秒以内で再現できるということです。
アップルの研究「Sharp Monocular View Synthesis in Less Than a Second」によると、SHARPは単一の2D画像から3Dシーンを再構築し、実際の距離とスケールを維持するモデルを開発したとしています。このモデルは標準的なGPUで1秒以内に実行可能で、3Dガウス表現を用いてリアルタイムで高解像度の画像を生成します。
SHARPは、複数のデータセットで最先端の成果を上げており、前モデルと比較してLPIPSを25〜34%、DISTSを21〜43%削減し、合成時間を大幅に短縮したということです。
このモデルは、単一の写真から3Dガウス表現を予測し、近くの視点からレンダリングが可能です。従来のガウススプラッティング手法では、同じシーンの異なる視点から撮影された多数の画像が必要でしたが、SHARPは単一の画像でこれを実現しています。
SHARPの開発には、大量の合成データと実世界のデータが使用され、深度やジオメトリの共通パターンを学習することで、単一の画像から3Dシーンを推定し、深度を洗練し、3Dガウスの位置と外観を予測します。
ただし、SHARPは近くの視点を正確にレンダリングすることに特化しており、シーンの完全に見えない部分を合成することはできないという制約があります。これにより、結果を1秒以内に生成する速度と安定性を保っています。
アップルはGitHub上でSHARPを公開し、多くのユーザーが自らのテスト結果を共有しています。これにより、研究のさらなる発展が期待されています。