OpenAIは、月曜日に行われたDev Dayで、最新の言語モデル「GPT-5 Pro」、新しいビデオ生成モデル「Sora 2」、および小型で低コストの音声モデルを発表しました。これらの更新は、OpenAIのエコシステムに開発者を引き付けることを目的とした一連の発表の一部で、エージェント構築ツールの導入やChatGPTでのアプリ構築機能を含んでいます。
GPT-5 Proの追加は、金融、法務、医療などの「高い精度と深い推論」を必要とする産業でアプリケーションを開発する開発者にとって魅力的であるということです。OpenAIのCEOサム・アルトマン氏によれば、音声機能は今後重要になるとし、APIで低遅延のストリーミング音声対話をサポートする小型で低コストの音声モデル「gpt-realtime mini」を発表しました。この新しいモデルは、OpenAIの以前の高度な音声モデルよりも70%低コストですが、「同じ音声品質と表現力」を約束しています。
さらに、OpenAIの開発者エコシステムに関与するクリエイターは、APIでプレビューとしてSora 2を利用できるようになりました。OpenAIは先週、SoraアプリとともにSora 2をリリースしました。このアプリは、短いAI生成動画で構成されたTikTok競合アプリで、ユーザーが自分自身や友人、または任意の対象をプロンプトに基づいて生成し、TikTokスタイルのアルゴリズムフィードで共有することが可能です。
「開発者は、Sora 2の素晴らしいビデオ出力を自分のアプリで利用できるようになりました」とアルトマン氏は述べています。Sora 2は、より現実的で物理的に一貫したシーンを提供し、同期されたサウンドとより大きな創造的コントロールを実現することができるということです。詳細なカメラ指示からスタイライズされたビジュアルまで、多岐にわたる創造的なコントロールが可能です。
「例えば、iPhoneのビューを取り、Soraにそれを広角の映画的なショットに拡張するように指示できます」とアルトマン氏は述べました。「しかし、私たちが取り組んでいる最もエキサイティングなことの一つは、この新しいモデルが視覚と音声をどれだけうまく組み合わせるかです。単なるスピーチだけでなく、豊かなサウンドスケープ、環境音、視覚に基づいた同期効果が実現できます。」
Sora 2は、広告のビジュアル出発点や、マテルのデザイナーがスケッチを玩具のコンセプトに変えるなどのコンセプト開発のツールとして提案されています。これは、OpenAIがバービーの製造元であるマテルとの契約を通じて、生成AIを玩具製造プロセスに導入することを示唆するものであるということです。