アップルは、AI画像編集モデルの研究を支援するため、40万枚の画像を含むデータセット「Pico-Banana-400K」を公開したと発表しました。このデータセットは、GoogleのGemini-2.5モデルを使用して構築されたということです。
アップルの研究チームは、「Pico-Banana-400K: テキスト誘導型画像編集のための大規模データセット」という研究を発表しました。これに加え、非商用の研究ライセンスで提供される40万枚の画像データセットも公開されました。このライセンスにより、学術的な研究やAI研究目的であれば誰でも利用可能ですが、商業目的での使用はできないということです。
このデータセットは、Googleが数カ月前に発表した画像編集モデル「Gemini-2.5-Flash-Image」(別名Nanon-Banana)に関連しています。アップルの研究者によれば、既存のデータセットは大規模で高品質、かつ完全に共有可能な編集データセットの不足により、オープンな研究が制限されているとしています。そこで、アップルはこの課題に対処するため、Pico-Banana-400Kを構築しました。
まず、OpenImagesデータセットから人間、物体、テキストシーンをカバーするために選ばれた実際の写真を使用しました。次に、35種類の編集タイプを8つのカテゴリーに分類し、Nanon-Bananaに画像とプロンプトをアップロードしました。編集画像が生成された後、Gemini-2.5-Proが結果を分析し、指示に従っているかや視覚的な品質に基づいて承認または拒否を行いました。
この結果、Pico-Banana-400Kには、単一のプロンプトによる編集、複数のプロンプトによる編集シーケンス、成功と失敗の結果を比較するためのペアが含まれています。研究者は、Pico-Banana-400Kが次世代のテキスト誘導型画像編集モデルのトレーニングとベンチマークのための堅実な基盤となることを期待しているとしています。
研究はarXivで公開されており、データセットはGitHubで自由に利用可能です。
