アップルとコロンビア大学は、新しい研究プロトタイプ「SceneScout」を発表しました。このプロジェクトは、視覚障害者(BLV)向けに街路ナビゲーションの改善を目指しています。
視覚障害者は、見知らぬ場所を独立して移動する際に物理的な環境への不安から躊躇することがあります。多くのツールは現地でのナビゲーションに焦点を当てていますが、事前の旅行支援を探索するものは通常、ランドマークやターンバイターンの指示のみを提供し、詳細な視覚的コンテキストを欠いています。ストリートビュー画像は豊富な視覚情報を含み、多くの環境詳細を明らかにする可能性がありますが、視覚障害者にはアクセスできません。
このギャップを埋めるために、研究者たちはApple MapsのAPIとマルチモーダル大規模言語モデルを組み合わせ、インタラクティブなAI生成のストリートビュー画像の説明を提供するプロジェクトを提案しました。
ユーザーはターンバイターンの指示やランドマークに頼るだけでなく、特定のニーズや好みに応じた街路レベルの説明で、ルート全体を探索したり、近所をブロックごとに仮想的に探索したりすることができます。
SceneScoutは、Apple Mapsの実際の地図データとパノラマ画像を基に、GPT-4oベースのエージェントを活用しています。歩行者の視点をシミュレートし、見えるものを解釈し、短、中、長の説明に分けた構造化テキストを出力します。スクリーンリーダーを念頭に置いて設計されたウェブインターフェースは、これを完全にアクセス可能な形式で提示します。
最初のテストでは有望な結果が得られましたが、重要な(そして危険な)欠点もありました。研究チームは、技術に精通した視覚障害者10人を対象に調査を行いました。参加者はRoute PreviewとVirtual Explorationの両方を使用し、その有用性と関連性について高い評価を与えました。特にVirtual Explorationモードは、多くの参加者が他人に尋ねる必要のある情報にアクセスできると評価しました。
しかし、重要な欠点もありました。生成された説明の約72%は正確でしたが、交差点に音声信号があると誤って主張するなど、微妙な誤りが含まれていました。また、ほとんどの情報は時間とともに安定していましたが、建設現場や駐車車両など、古いまたは一時的な詳細を参照する説明もありました。
参加者はまた、システムがユーザーの身体能力や環境について仮定を立てることがあると指摘しました。特にラストメーターナビゲーションにおいて、より客観的な言語と空間的精度が求められると強調されました。その他の参加者は、静的なキーワードに頼るのではなく、時間とともにユーザーの好みに動的に適応するシステムを望んでいました。
SceneScoutはまだ製品化されておらず、マルチモーダル大規模言語モデルとApple Maps APIのコラボレーションを探るものであり、リアルタイムのコンピュータビジョンに基づく現地でのナビゲーションではありません。しかし、参加者は歩行中にストリートビューの説明をリアルタイムで利用したいという強い願望を示しました。
参加者は、歩行中に短い「ミニ」説明を使用し、ランドマークや歩道の状態などの重要な詳細のみを強調することを提案しました。より包括的な説明は、ユーザーが歩行を停止したり交差点に到達したときにオンデマンドでトリガーされることが望ましいとされています。
また、ある参加者は、ユーザーが特定の方向にデバイスを向けることでオンデマンドの説明を受け取る新しいインタラクション形式を提案しました。これにより、ユーザーはリアルタイムで環境を積極的に調査し、より動的で応答性の高いナビゲーションを実現できるということです。
SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Usersは、arXivに掲載された他の研究と同様に、まだ査読されていません。それでも、AI、ウェアラブル、コンピュータビジョンが向かう方向を知りたい方には、非常に価値のある研究です。