Speechifyは、これまで主に記事やPDF、文書を音声で聴くためのツールを提供してきましたが、このたびChrome拡張機能に音声入力と音声アシスタント機能を追加したと発表しました。これにより、ユーザーは質問に答えてくれる音声アシスタントを利用できるということです。
過去12か月間で、音声認識モデルの品質向上により音声検出ツールが増加しています。Speechifyはこの流れに乗り、英語に対応した音声入力ツールを提供する方針です。音声入力機能は、他の音声入力ツールと同様に、誤りを修正し、不要な言葉を削除する機能を備えています。
短期間のテストでは、Speechifyのツールには改善の余地があると感じました。GmailやGoogleドキュメントでは正常に動作しますが、WordPressのようなサイトでは音声入力の起動が難しいことがありました。企業は人気サイト向けの最適化を段階的に進めているとしています。
精度に関しては、誤り率がWispr FlowやWillow、Monologueといった他のツールより高いということです。Speechifyは、使用するほどモデルが学習し、誤り率が徐々に減少すると述べています。
また、ブラウザのサイドバーに配置された会話型音声アシスタントも発表しました。ユーザーは「主要な3つのアイデアは何ですか?」や「これを簡単に説明してください」といった質問をすることができます。
ChatGPTやGeminiには会話モードがありますが、Speechifyは音声を中心に据えたツールであると主張しています。「ChatGPTやGeminiでは、チャットがデフォルトのユーザー体験で、音声は二次的なものとされています。Speechifyでは、音声を主要な機能として求めるユーザーが多いことが分かっています」と、同社のチーフビジネスオフィサーであるローハン・パブルリ氏がTechCrunchにメールで述べました。
ただし、OpenAIのAtlasやPerplexityのComet、Diaといったサイドバーアシスタントを持つブラウザでは、Speechifyのアシスタントが現在動作しないという問題があります。しかし、拡張機能は主にChromeとその大規模なユーザーベースを対象としているため、大きな懸念はないとしています。
Speechifyは、デスクトップとモバイルのすべてのアプリに音声入力と音声アシスタントを段階的に導入する計画です。また、ユーザーの代わりにタスクを完了するエージェントの開発も視野に入れています。具体的なロードマップは明かされていませんが、例として、予約のための電話をかけたり、カスタマーサポートの待ち時間を代行することなどが挙げられています。他社ではTruecallerやCloackedが同様の目標を追求しています。
