AI音声企業ElevenLabsの共同創業者兼最高経営責任者(CEO)であるマティ・スタニシェフスキ氏は、AIモデルが将来的に一般化される可能性があると発表しました。この発言は、現在モデル構築に注力している同社にとって重要なものです。
スタニシェフスキ氏は、2025年のTechCrunch Disruptカンファレンスで、AI音声分野における短期的および長期的な見解について語りました。
同氏によると、ElevenLabsの研究者たちはモデルアーキテクチャの課題を一部解決することができたとし、今後1〜2年間は音声分野でのこの取り組みを継続する方針です。
「長期的には、2〜3年以内に一般化されるでしょう」とスタニシェフスキ氏は述べました。「いくつかの声や言語には差異があると思いますが、それ自体の差異は小さくなるでしょう」ということです。
なぜElevenLabsが一般化されると考えているモデル構築に注力するのかという質問に対して、スタニシェフスキ氏は、短期的には依然として「最大の利点であり、今日最も大きな変化をもたらすもの」だと説明しました。
例えば、AIの声やインタラクションが良く聞こえない場合、それは依然として解決すべき問題であるということです。
「それを解決する唯一の方法は、自分でモデルを構築することであり、長期的には他のプレーヤーもそれを解決するでしょう」とスタニシェフスキ氏は述べました。
また、信頼性がありスケーラブルなユースケースを求める人々は、異なるユースケースに対して異なるモデルを使用する可能性が高いと指摘しました。
しかし、今後1〜2年で、より多くのモデルがマルチモーダルまたは融合アプローチに移行するということです。
「したがって、会話の設定で音声と映像を同時に作成したり、音声とLLMを同時に作成したりするでしょう」と述べ、GoogleのVeo 3がモデルを組み合わせることで達成できる例として挙げました。
スタニシェフスキ氏は、ElevenLabsが他の企業とのパートナーシップを開始し、オープンソース技術と協力して、同社の音声専門知識を他のモデルの専門知識と組み合わせられるかどうかを確認する計画を持っていると述べました。
ElevenLabsにとっての目標は、モデル構築とアプリケーションの両方に注力し、長期的な価値を創出することです。
「Appleにとってのソフトウェアとハードウェアが魔法であったように、私たちはプロダクトとAIが最高のユースケースを生み出す魔法になると考えています」と付け加えました。
