グーグルのDeepMindは、AI音声スタートアップHume AIのCEOや主要エンジニアを迎え入れる新たなライセンス契約を結んだと発表しました。Hume AIの残りの部分は引き続き他のAI企業に技術を提供するということです。契約の財務的な詳細は公開されていません。
Hume AIのCEOであるアラン・カウエン氏と約7人のエンジニアは、DeepMindと協力してGeminiの音声機能を改善する予定です。
このようなスタートアップのチームを迎え入れる手法は、主要なAI企業が市場のトップ人材を獲得しつつ、規制の目を逃れる一例とされています。昨年、グーグルはAIコーディングスタートアップWindsurfのCEOと他の主要研究者を迎え入れ、OpenAIも最近、ConvogoやRoiといったスタートアップのチームを迎え入れました。連邦取引委員会はこのような取引をより詳細に調査する方針です。
この取引は、音声がAIの次のフロンティアとなっていることを示しています。Hume AIの技術は、ユーザーの声から感情や気分を理解するモデルにあります。2024年には、感情的知能を持つ会話型AI「Empathetic Voice Interface」を発表しました。Hume AIはこれまでに約124億円(約80百万ドル)を調達し、今年は約155億円(約100百万ドル)の収益を見込んでいます。
音声に注力しているのはHume AIだけではありません。グーグルはGemini Live機能を着実に改善しており、先月にはLive APIの新しいネイティブオーディオモデルをリリースしました。このモデルは「複雑なワークフローを処理する能力」を向上させています。
業界の他社も音声機能に大きく投資しています。OpenAIは、Jonny Ive氏のioと共同で今年発売予定のオーディオファーストの個人デバイスに向けて、オーディオモデルの大幅な改良を準備しているということです。最近のリークでは、このデバイスがイヤホンの形になる可能性が示唆されています。
昨年、MetaもAIオーディオの推進を加速させ、スタートアップPlay AIを買収しました。Facebookを運営する同社のRay-Banスマートグラスは、騒がしい場所での会話を聞き取りやすくしたり、通話や音楽、写真のハンズフリー操作を可能にする音声機能にますます依存しています。
「音声はウェアラブルデバイスにとって唯一受け入れられる入力モードです」と投資家のヴァネッサ・ラルコ氏は述べています。「この買収によって音声アプリの需要はさらに加速するでしょう。」
音声機能への需要は増加し続けています。今月初め、AI音声生成スタートアップのElevenLabsは、年間約511億円(約330百万ドル)の収益を達成したと発表しました。
