techcrunch
2025年7月16日
6分で読めます

ミストラル、オープンソースAI音声モデル「Voxtral」を発表

フランスのAIスタートアップ、ミストラルは、オープンソース音声モデル「Voxtral」を発表しました。企業向けに設計され、音声認識の新たな選択肢を提供することを目指しています。

NihonTechHub

NihonTechHub

技術系ジャーナリスト
ミストラル-オープンソース-AI-音声モデル-発表

フランスのAIスタートアップ、ミストラルは、オープンソース音声モデル「Voxtral」を発表したと発表しました。音声を通じた機械とのコミュニケーションが進化する中、ミストラルは企業向けの音声モデルを提供し、閉鎖的な企業システムに対抗するオープンな代替案を提案しています。

ミストラルは、Voxtralを「生産で実際に使える音声インテリジェンスを提供できる初のオープンモデル」として位置づけています。開発者は、安価でオープンだが誤認識が多いシステムと、高性能だが閉鎖的でコストが高いシステムの選択を迫られることなく、Voxtralを利用できるということです。

企業にとっては、Voxtralは「同等のソリューションの半額以下」とされる手頃な選択肢を提供する方針です。

Voxtralは最大30分の音声を文字起こしでき、ミストラルのLLMバックボーン「Mistral Small 3.1」により最大40分間の内容を理解することが可能です。ユーザーは音声内容に関する質問をしたり、要約を生成したり、音声コマンドをAPI呼び出しや機能実行などのリアルタイムアクションに変換することができます。また、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など多言語に対応しています。

ミストラルは「音声理解モデル」の2つのバリアントを提供しています。1つ目の「Voxtral Small」は240億パラメータを持ち、生産規模の展開に対応しており、ElevenLabs ScribeやGPT-4o-mini、Gemini 2.5 Flashと競合します。2つ目の「Voxtral Mini」は30億パラメータを持ち、ローカルおよびエッジ展開に適しています。さらに、超低価格で簡素化された高速APIバージョン「Voxtral Mini Transcribe」は、文字起こし専用で、OpenAI Whisperを半額以下で上回ることを約束しています。

ユーザーはHugging FaceでAPIをダウンロードするか、ミストラルのチャットボット「Le Chat」でモデルを試すことで、Voxtralを無料で試すことができます。アプリケーションへのAPI統合は、1分あたり0.001ドル(約0.15円)から開始するとしています。

この発表は、ミストラルが問題解決を段階的に進める推論モデル「Magistral」を発表してから1か月後のことです。

ミストラルは、ヨーロッパの主要なAI企業の一つで、オープンソースAIモデルの推進を強く支持しています。今月初めには、同社がアブダビのMGXファンドなどの投資家から最大10億ドル(約1550億円)の資金調達を目指しているとTechCrunchが報じました。

NihonTechHub

NihonTechHub

日本の最新テクノロジーやスタートアップ情報を発信するプラットフォームです。国内外のイノベーションをつなぎ、未来を切り開くための知識とインスピレーションを提供します。

NihonTechHub ソフトウェア

私たちが開発した便利なツールとソフトウェア

Google Drive ダウンローダー

閲覧専用ファイルの簡単ダウンロード

Google DriveのView-only(閲覧専用)ファイルを簡単にダウンロードできるツールです。PDF、Docxファイルに対応しています。

PDF
対応済み
Docx
対応済み

この機能はNihonTechHubアプリでもご利用いただけます(Android・iOS対応)

無料で利用可能

アプリをダウンロード

外出先でも最新のテクノロジーニュースをチェック!リアルタイム通知とパーソナライズされたニュースフィードを受け取るにはアプリをダウンロードしてください。

リアルタイム更新
プッシュ通知
カスタマイズ可能
NihonTechHub
無料
ミストラル、オープンソースAI音声モデル「Voxtral」を発表