グーグルのAI研究部門ディープマインドのCEOであるデミス・ハサビス氏は、最新のビデオ生成モデル「Veo 3」がビデオゲームに利用される可能性があると示唆したと発表しました。
ハサビス氏は、SNS「X」で「Veo 3のビデオを使ったゲームをプレイさせてほしい」という投稿に対し、「それは素晴らしいことになるだろう」と応答しました。これに続いて、グーグルのAIスタジオおよびジェミニAPIのリードプロダクトであるローガン・キルパトリック氏も「🤐🤐🤐🤐」と反応しました。
両者の投稿は軽い示唆に過ぎないとされていますが、テクノロジー企業としてのグーグルがプレイ可能な世界モデルを構築する可能性は否定できません。
世界モデルはビデオ生成モデルとは異なり、現実世界の環境の動態をシミュレートするもので、エージェントが自らの行動に対して世界がどのように進化するかを予測することができます。
グーグルは、マルチモーダル基盤モデル「ジェミニ2.5 Pro」を人間の脳の側面をシミュレートする世界モデルに転換する方針です。昨年12月、ディープマインドは「Genie 2」という無限にプレイ可能な世界を生成できるモデルを発表しました。翌月には、現実世界をシミュレートするAIモデルの開発に取り組む新チームを結成していることが報じられました。
他の企業も世界モデルの構築に取り組んでおり、特にAIの先駆者であるフェイフェイ・リー氏が昨年、ステルス状態から「World Labs」というスタートアップを立ち上げ、単一の画像からビデオゲームのような3Dシーンを生成するAIシステムを構築しています。
「Veo 3」はまだパブリックプレビュー段階であり、ビデオやクリップに合わせた音声も生成することができます。現実の物理をシミュレートしてリアルな動きを作り出しますが、まだ世界モデルとは言えません。代わりに、ゲーム内のシネマティックストーリーテリング、カットシーン、トレーラー、ナラティブプロトタイピングなどに利用される可能性があります。
このモデルは依然として「受動的な出力」生成モデルであり、将来のVeo世代では、よりアクティブでインタラクティブかつ予測的なシミュレーターに移行する必要があります。
ビデオゲーム制作における真の課題は、印象的なビジュアルだけではなく、リアルタイムで一貫性があり、制御可能なシミュレーションです。そのため、グーグルが今後、VeoとGenieを活用したハイブリッドアプローチを取ることが理にかなっていると考えられます。
グーグルは、マイクロソフト、シナリオ、ランウェイ、ピカ、そして最終的にはOpenAIのビデオ生成モデル「Sora」と競争する可能性があります。
グーグルの世界モデル分野での計画と、競合他社を圧倒するための資金力と流通力を活用する評判を考えると、この分野の競合他社は注意深く見守る必要があるということです。