フランスのAIスタートアップ、ミストラルは、オープンソース音声モデル「Voxtral」を発表したと発表しました。音声を通じた機械とのコミュニケーションが進化する中、ミストラルは企業向けの音声モデルを提供し、閉鎖的な企業システムに対抗するオープンな代替案を提案しています。
ミストラルは、Voxtralを「生産で実際に使える音声インテリジェンスを提供できる初のオープンモデル」として位置づけています。開発者は、安価でオープンだが誤認識が多いシステムと、高性能だが閉鎖的でコストが高いシステムの選択を迫られることなく、Voxtralを利用できるということです。
企業にとっては、Voxtralは「同等のソリューションの半額以下」とされる手頃な選択肢を提供する方針です。
Voxtralは最大30分の音声を文字起こしでき、ミストラルのLLMバックボーン「Mistral Small 3.1」により最大40分間の内容を理解することが可能です。ユーザーは音声内容に関する質問をしたり、要約を生成したり、音声コマンドをAPI呼び出しや機能実行などのリアルタイムアクションに変換することができます。また、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など多言語に対応しています。
ミストラルは「音声理解モデル」の2つのバリアントを提供しています。1つ目の「Voxtral Small」は240億パラメータを持ち、生産規模の展開に対応しており、ElevenLabs ScribeやGPT-4o-mini、Gemini 2.5 Flashと競合します。2つ目の「Voxtral Mini」は30億パラメータを持ち、ローカルおよびエッジ展開に適しています。さらに、超低価格で簡素化された高速APIバージョン「Voxtral Mini Transcribe」は、文字起こし専用で、OpenAI Whisperを半額以下で上回ることを約束しています。
ユーザーはHugging FaceでAPIをダウンロードするか、ミストラルのチャットボット「Le Chat」でモデルを試すことで、Voxtralを無料で試すことができます。アプリケーションへのAPI統合は、1分あたり0.001ドル(約0.15円)から開始するとしています。
この発表は、ミストラルが問題解決を段階的に進める推論モデル「Magistral」を発表してから1か月後のことです。
ミストラルは、ヨーロッパの主要なAI企業の一つで、オープンソースAIモデルの推進を強く支持しています。今月初めには、同社がアブダビのMGXファンドなどの投資家から最大10億ドル(約1550億円)の資金調達を目指しているとTechCrunchが報じました。