アメリカのIT大手オープンAIは、文字を正確に描画する能力を大幅に向上させた新たな画像生成AIモデル「Images 2.0」の提供を開始したと発表しました。
これまでAIによる画像生成では、画像内に文字を組み込む際、不自然なつづりや意味不明な単語が生成されることが課題となっていました。しかし、今回発表された新モデルでは、飲食店のメニュー表などを指示通りに作成し、実用に耐えうる正確な文字を含む画像を生成できるようになったということです。生成されたメニューの画像には13.50ドル(約2,100円)といった具体的な価格も自然に描画されており、価格設定の妥当性といった内容面を除けば、そのまま店舗で利用できる水準に達しているとしています。
専門家によりますと、従来の「拡散モデル」と呼ばれる技術では、画像全体の中で文字が占める割合が小さいため、正確な学習が困難でした。これに対し、近年では大規模言語モデルのように画像を予測して生成する新たな手法の研究が進められてきました。オープンAIは今回の新モデルに採用した具体的な技術の詳細は明らかにしていません。
一方で、新モデルには「思考能力」が備わっているとしています。これにより、ウェブ検索の実行や、1つの指示から複数の画像を生成すること、さらに生成した画像の内容を自ら確認することが可能になりました。オープンAIは、この機能により、様々なサイズのマーケティング素材や複数コマの漫画などの作成が容易になるとしています。
また、日本語や韓国語、ヒンディー語など、アルファベット以外の文字を正確に描画する能力も強化されています。なお、AIが学習しているデータは2025年12月までのものとなっており、最新のニュースに関連する画像生成には影響が出る可能性があるということです。
オープンAIは声明で、「新モデルは指示に正確に従い、小さな文字やアイコンなどの細かな要素を最大2Kの解像度で描画できる」と強調しています。複雑な画像の生成には数分かかる場合があるとしています。
この「Images 2.0」は、すべてのChatGPTおよびCodexの利用者を対象に順次提供が開始されます。有料の利用者はより高度な機能を利用できるほか、企業向けにシステムを連携させるAPIの提供も行われる方針です。オープンAIは、より高度で実用的な画像生成の実現を目指すとともに、多言語対応を通じてグローバルな利用の拡大を図るねらいがあるとみられます。
