Wispr Flow、iPhoneキーボードから音声をテキスト化するAIを発表

Wispr Flowは、iPhoneのキーボードから音声をテキスト化するAI技術を発表しました。これは、ユーザーが簡単に音声を文字に変換できるようにするアプリです。

このアプリの動作は「フローセッション」という仕組みに基づいています。フローセッションは、アプリがマイクにアクセスする時間枠を設定するもので、5分、15分、1時間、または無制限に設定することができます。

アプリのサードパーティキーボードから「スタートフロー」をタップすると、Wispr Flowアプリが起動し、フローセッションが開始されます。その後、元の画面に戻り、マイクボタンをタップすると音声のキャプチャが始まります。終了時にはチェックマークボタンをタップしてセッションを終了します。

アプリ内には、全ての音声入力履歴、クイックノート機能、特定の単語を学習させるカスタム辞書の作成タブが用意されています。設定では、使用したい言語を選択することができ、デフォルトの言語以外でも利用可能です。

プライバシーに関して、Wispr FlowはMetaのLlamaとOpenAIのWhisperモデルを基にしており、データ保持をしない方針です。ユーザーの明示的な同意がない限り、個人データを第三者と共有しないとしています。

また、WWDC25で発表された新しいAPIを利用して、アプリの操作性を向上させる方法を検討しているということです。Appleの新しいローカルモデルについても注目しているものの、現状では既存のモデルを継続して使用する方針です。

Wispr Flowは、iOSの技術的制約にもかかわらず、信頼性の高いAIベースの音声テキスト化を提供しようとしています。音声認識の精度は非常に高く、音声メモやアクセシビリティが必要な場合に特に有用です。MacOSやWindowsでも利用可能で、Android、Linux、ウェブ版の待機リストもあります。無料プランでは週に2000語まで利用可能で、ProとTeamsプランでは年間契約で20%割引があります。カスタムの企業向けプランも提供しており、詳細は公式ウェブサイトで確認できます。

About NihonTechHub