OpenAIは、新しい画像生成モデル「GPT Image 1.5」を発表しました。このモデルは、指示に対する応答性の向上、より正確な編集、そして最大4倍の画像生成速度を実現するとしています。
この新モデルは、火曜日からすべてのChatGPTユーザーおよびAPIを通じて利用可能となります。これは、Googleの最新モデル「Gemini 3」と「Nano Banana Pro」が市場シェアを拡大する中で、OpenAIがAIリーダーとしての地位を取り戻すための戦略の一環です。
OpenAIのCEO、サム・アルトマン氏は先月、社内メモで「コードレッド」を宣言し、競争の激化を示していました。Googleは、依然として市場でのリードを維持しており、OpenAIは先週、開発者や一般のプロフェッショナル向けに最先端モデル「GPT-5.2」を発表しました。
GPT Image 1.5は、画像や動画の生成がプロトタイプを超えて生産準備が整う中でのリリースです。このモデルには、顔の類似性、照明、構図、色調などの編集をより細かく制御する機能が含まれています。
多くの生成AI画像ツールは反復が苦手とされていますが、GPT Image 1.5はこの点で大きな進歩を遂げるとされています。具体的な変更を求められた場合、モデルはしばしば画像全体を再解釈して一貫性を欠くことがありますが、新モデルはこの課題を克服する方針です。
また、ChatGPTのサイドバーに専用のエントリーポイントを設け、画像をより創造的に編集できるようにするということです。OpenAIのアプリケーションCEO、フィジ・シモ氏はブログで、「新しい画像閲覧と編集画面により、ビジョンに合った画像を作成したり、トレンドのプロンプトやプリセットフィルタからインスピレーションを得たりすることが容易になります」と述べています。
さらに、ChatGPTの体験を視覚要素で向上させる新しい方法を導入する方針です。検索クエリにより多くの視覚情報を表示し、明確な情報源を提供することで、単位の変換やスポーツのスコア確認などのタスクに役立つとしています。
「創造する際には、作りたいものを見て形にすることができるべきです。視覚が言葉よりも物語を伝えるとき、ChatGPTはそれを含めるべきです」とシモ氏は述べています。「迅速な回答が必要なときや、次のステップが別のツールにあるとき、それがすぐに利用できるべきです。このようにして、心に描いたものとそれを現実にする能力との距離を縮め続けます」としています。
