アップルの新しい文字起こしAPIが、既存のモデルよりも高速であると発表しました。しかし、その精度はどの程度なのでしょうか。これについて、詳細な検証を行いました。
この検証のアイデアは、開発者のプラカッシュ・パックス氏によるもので、彼自身のテストから始まりました。彼は、15秒から2分までのランダムな長さの15の音声サンプルを録音し、3つの音声認識ツールでテストを行いました。
彼の結果はここでは述べませんが、彼の方法論には「非ネイティブの英語話者であるため、結果が他の人と若干異なる可能性がある」という注意書きがありました。この結果に基づき、アップルとOpenAIのモデルがNVIDIAのParakeetとどのように比較されるかについて興味を持ちました。
私自身も非ネイティブの英語話者であるため、9to5Mac Dailyの最近のエピソード(7分31秒)を使用しました。OpenAIのWhisper Large V3 TurboとNVIDIAのParakeet v2、そしてアップルの音声APIを使用しました。これらをM2 Pro MacBook Pro(16GB RAM)で実行しました。
文字誤り率(CER)と単語誤り率(WER)の分析に関しては、Hugging Face SpacesのMetric: cerとMetric: werを使用しました。これにより、一貫した基準で評価が行われ、全体的な傾向が信頼性を持つことが保証されました。
結果は以下の通りです。
モデル | 文字起こし時間 | 文字誤り率 | 単語誤り率 ---|---|---|--- Parakeet v2 | 2秒 | 5.8% | 12.3% Whisper Large V3 Turbo | 40秒 | 0.2% | 1.5% Apple | 9秒 | 1.9% | 10.3%
さらに、ChatGPT、Claude、GeminiでもCERとWERを計算しました。結果は以下の通りです。
モデル | 文字起こし時間 | 文字誤り率 | 単語誤り率 ---|---|---|--- Parakeet v2 | 2秒 | 6.0% | 12.3% Whisper Large V3 Turbo | 40秒 | 0.4% | 1.4% Apple | 9秒 | 2.1% | 10.2%
モデル | 文字起こし時間 | 文字誤り率 | 単語誤り率 ---|---|---|--- Parakeet v2 | 2秒 | 8.4% | 11.0% Whisper Large V3 Turbo | 40秒 | 0.1% | 1.0% Apple | 9秒 | 3.5% | 8.2%
モデル | 文字起こし時間 | 文字誤り率 | 単語誤り率 ---|---|---|--- Parakeet v2 | 2秒 | 7.6% | 12.3% Whisper Large V3 Turbo | 40秒 | 0.3% | 0.4% Apple | 9秒 | 3.4% | 5.3%
どのモデルが優れているかという問いに対しては、状況によるという結論です。Whisperは最も精度が高いですが、処理時間が問題になる可能性があります。一方、Parakeetはスピードが重要な場合に最適です。アップルのモデルは速度と精度のバランスが取れており、初めての試みとしては良い結果を示しました。特に、サードパーティのAPIや外部インストールに頼らずに動作する点が重要です。開発者の採用が進み、アップルがさらに改善を重ねる中で、その価値が増すことでしょう。