AI画像・動画生成企業のRunwayは、初のワールドモデル「GWM-1」を発表したと発表しました。このモデルはフレームごとの予測を通じて物理の理解をもとに世界の動きをシミュレーションするということです。
ワールドモデルとは、AIが内部で世界の動きをシミュレーションし、現実のすべてのシナリオを訓練することなく推論や計画、行動ができるシステムです。
今月初めにGoogleやOpenAIを超えるビデオモデル「Gen 4.5」を発表したRunwayは、GWM-1がGoogleのGenie-3や他の競合よりも「一般的」であるとしています。このモデルはロボティクスやライフサイエンスなど多様な分野でのエージェント訓練に役立つとしています。
RunwayのCTOアナスタシス・ジャーマニディス氏は、ワールドモデルを構築するためには優れたビデオモデルが必要であり、ピクセルを直接予測することが一般的なシミュレーションを達成する最良の方法だと述べました。
新しいワールドモデルには「GWM-Worlds」「GWM-Robotics」「GWM-Avatars」というバージョンがあるとしています。「GWM-Worlds」はインタラクティブなプロジェクトを作成するアプリで、ユーザーはプロンプトや画像参照を通じてシーンを設定し、空間を探索する中でモデルが幾何学、物理、照明を理解して世界を生成します。
「GWM-Robotics」では、気象条件や障害物の変化など新しいパラメータを加えた合成データを使用する方針です。この方法により、ロボットが異なるシナリオでポリシーや指示をどのように違反するかを明らかにすることが可能としています。
「GWM-Avatars」では、人間の行動をシミュレートするリアルなアバターを構築しています。他の企業も同様にリアルな人間アバターの開発に取り組んでいます。
これらのモデルは技術的には別々ですが、最終的には1つのモデルに統合する計画です。
また、Runwayは今月初めに発表したGen 4.5モデルを更新し、ネイティブ音声と長編のマルチショット生成機能を追加しました。このモデルでは、キャラクターの一貫性を保ちつつ1分間の動画を生成でき、既存の音声の編集や対話の追加も可能です。
Gen 4.5の更新は、Kling社のオールインワンビデオスイートに近づくものであり、動画生成モデルがプロトタイプから実用的なツールへと進化していることを示しています。Runwayの最新モデルは有料プランのユーザーに提供されています。
GWM-RoboticsはSDKを通じて提供される予定で、複数のロボティクス企業や企業と積極的に協議しているということです。
