この記事はAhrefs公式ブログの日本語訳です。
原文:The 9 Best Speech-to-Text Apps in 2023 (Tried & Tested)
(著者:George Dolgikh / 原文の最終更新日:May 25, 2023)
※フルスピード註:この記事は2023年5月25日時点の記載をもとに翻訳しています。Ahrefs公式ブログの記事は今後追記・再公開されることがありますことをご了承ください。
ほとんどの音声認識アプリは、静かな部屋でプロ仕様のマイクを使って録音されたネイティブ スピーカーの音声を問題なく書き写すことができます。これは挑戦ではありません。
そこで、より徹底的にテストするために、 2人の非ネイティブ・スピーカーと大音量の都市の雑音という “悪夢 “のような録音を作成しました。
彼らはどうなりましたか?
確認してみましょう。
Otter.ai
Twitter や Ahrefs コミュニティで提案を求めたとき、Otter は最も頻繁に言及されたソリューションの 1 つでした。それには正当な理由があります。セットアップが簡単で、直感的なインターフェイスを備え、明確な価格設定が提供されます。
ユニークな機能
他のアプリより際立っているのは、会議の URL を貼り付けるだけでオンライン会議を記録し、文字に起こす機能です。ただし、アプリ内でビデオ/オーディオ ファイルをインポートしたり、オーディオを録音したりすることもできます。
さらに、カレンダーを接続して、会議に欠席することはありません。
音声品質
それなりの結果が得られましたが、編集すべき点もたくさんありました。
いくつかの名前が正しく取得されませんでした。しかし、「Ahrefs」や「Tim Soulo」を 100% 検出しないツールを責めることはできません。
私が発見したことの 1 つは、文字起こしの準備ができたことを通知した後も、バックグラウンドで何か (タイムスタンプの調整、スピーカーのタグ付けなど) を実行している可能性があるということです。まるで、テスト用紙を先生に渡しながら、まだテスト用紙に落書きしている生徒のように。
価格設定
無料で開始し、後で有料プランにアップグレードすることができます。アップグレードが必要になる前に、最大 3 つのファイルをインポートして 290 分の会議を録画できます (2023 年 4 月現在)。
Rev.com
アカウントの設定は簡単でした。インターフェースもナビゲートしやすいと思いました。個人的な感想としては、「注文する」、「請求する」、「請求書」などの項目をあまりにも頻繁に目にするため、使用するには少し「冷たすぎる」と感じたことが挙げられます。
(このまとめで次に紹介する Descript とは対照的に) 会計チームによって設計されたという印象を受けるかもしれません。
ユニークな機能
Rev は、自動生成されたトランスクリプトに加えて、Zoom 会議のライブキャプションを提供します。人間による転写を注文するオプションもあります。
音声品質
いくつかの単語が欠落していたり、他の単語が誤って認識されていました。その結果、いくつかの段落はあまり意味をなさなかったが、その他の段落では問題は、ありませんでした。
価格設定
最初の音声ファイル (最大 45 分) は無料で文字起こしできます。 1.25 ドルの請求書を受け取りましたが、割引が適用され、合計は 0.00 ドルになりました。ありがとう、会計チーム。 😉
Rev には、有料プランの 14 日間のトライアルもあります。しかし、それを見つけるのは困難でした。これを見つけるには、ホームページのフッターに移動し、「サービス」の下で探す必要があります。
Descript
Descript は私を名前で歓迎してくれました (これは素晴らしい偶然でした)。知っておくべき主なことは、これは Web サービスではなくスタンドアロン ソフトウェアであるということです。これは音声からテキストへのコンバーターをはるかに超えています。基本的にはビデオ編集ツールです。そして間違いなく学習曲線が存在します。しかしありがたいことに、オンボーディングは非常に面白くて魅力的なものです。
ユニークな機能
先ほども述べたように、Descript は文字起こしに優れたビデオ編集ツールです。私はそれを「ビデオ/キャプション用のCanva」と呼んでいます。 B ロール、エフェクト、アニメーションなどを追加できます。
簡単にドラッグ アンド ドロップすることができ、基本的にはその助けを借りて完全なビデオを作成できます。ただし、ビデオまたはオーディオのトランスクリプトまたはキャプションが必要なだけの場合は、それも行うことができます。
音声品質
私のサンプルオーディオはかなり濁った結果になりました。場合によっては、略語 (SEO など) を認識するのが困難になることがありました。また、「えー」や「えーっと」などのつなぎ言葉を削除することにも問題がありました。
それらを削除するオプションを選択しないと、ほとんどの場合は必要ないにもかかわらず、それらはそこに留まることがわかりました。しかし、それらを削除することを選択した場合、他の単語の一部を食い込んでしまい、さらに問題が発生することがありました。
また、「何でも屋」が「何でも屋」になってしまったなど、人間が文脈だけで理解するのに問題がない部分も認識できませんでした。
明るい面としては、テキストの内容はまだ理解できると思います。
価格設定
基本機能を無料で使い始めて、必要に応じてアップグレードできます。
MacWhisper
MacWhisper は、Whisper を利用した文字起こしツールです。これは、ChatGPT を提供したのと同じ会社である OpenAI によって開発された自動音声認識 (ASR) システムです。
OpenAI はその Web サイトで次のように述べています。
Whisper は、Web から収集された 680,000 時間の多言語およびマルチタスク監視データに基づいてトレーニングされています。
Whisper はそのまま「実行」できるものではありません。さらに、自分で実行しようとすると、設定がかなり複雑になります。 Github、Python — 要点はわかります。
幸いなことに、MacWhisper のようなツールがあり、これを肩から下ろして、シンプルなユーザー インターフェイスで AI の力を利用できるようになります。
ユニークな機能
タイムスタンプを備えた単純な音声からテキストへの認識です。残念ながら、スピーカーには自動タグが付けられません。
音声品質
ツールを実行するときは、操作する「モデル」を選択する必要があります。基本的にモデルが軽いほど、速く走ることができます。ただし、モデルが大きいほど、より良い結果が得られます。また、MacWhisper では、これらの大きい (性能は良いが遅い) モデルは有料版でのみ利用可能です。
私は、「通常の速度で精度が高い」と記載されている無料の「小型」モデルから始めることにしました。
それは問題ありませんでしたが、競合他社よりも優れているわけではありませんでした。高品質のオーディオでは問題なく動作するだろうと思っていましたが、私が与えたひどいサンプルではうまく動作しませんでした。
「AIは過大評価されている」と私は思いました。しかし、Mac を閉じて愛用の Windows PC に戻る前に、「大型」モデルを試してみることにしました。
そしてご存知のように、AI は過大評価されていません。結果は他のものよりもはるかに優れていることがわかりました。
トランスクリプトは本当に本当に良かったです。 「Ahrefs」や「SaaS」なども正しく理解できました。まだ 100% ではありませんが。
価格設定
小規模なモデルは無料で実行できます。大規模モデルの場合は、ライセンスを購入する必要があります。
AI Transcriptions by Riverside
このツールは最も使いやすいです。ファイルをドラッグ アンド ドロップするだけで準備完了です。ただし、処理には時間がかかります。
ユニークな機能
文字起こしをダウンロードする以外に何もありません。
音声品質
私の第一印象は、視覚的に自信に満ちたテキストを提供したため、結果は完璧だということでした。
しかし、校正後、認識できなかった部分 (場合によっては複数の単語が連続している場合もあります) が含まれていないだけであることがわかりました。
価格設定
使用は無料です。
Adobe Premiere Pro
Premiere Pro は正確には「文字起こしツール」ではなく、ビデオ編集ソフトウェアです。これを含めているのは、(当社と同様に)一部の企業が既にそれを自社の武器庫に備えている可能性があると想定しているためです。
Premiere Pro の文字起こし機能を利用するには、「キャプションとグラフィックス」ワークスペースに移動し、「文字起こしを作成」をクリックします。
ユニークな機能
ここで音声認識のみを考慮すると、正確なタイムスタンプの作成、発言者の自動タグ付け、そして必要に応じて編集可能なキャプション トラックをビデオ プロジェクトに自動的に追加することがうまく機能します。
音声品質
率直に言って、ノイズの多い音声で失敗であることがわかりました。そもそも人が何を言っているのか理解できませんでした。
それでも、高品質のオーディオからキャプションを作成する場合、この機能は非常に役立つと思います。私自身も何度か使用しましたが、録音品質が良かったので何も不満はありませんでした。
価格設定
Premiere Pro を使用するには、Adobe Creative Cloudサブスクリプションが必要です。
Happy Scribe
サインアップしてファイルをアップロードするのはかなり簡単ですが、最終的にツール自体に到達する前に、あなたとあなたの会社に関する質問に答えるために時間を費やす必要があります。いいえ、会社名、役割、会社規模の入力を省略することはできません。
しかし、これを一度乗り越えてしまえば、インターフェースはすっきりしていて直感的になります。
ユニークな機能
ビデオまたはオーディオのトランスクリプトまたはキャプションを生成できます。トランスクリプトの手動レビューをリクエストするオプションもあります。あるいは、別の言語で字幕を生成して、ワンクリックで文字起こしと翻訳を行うこともできます。
音声品質
Happy Scribe は音声を書き起こすのにとても良い仕事をしてくれました。 「SEO」や「SaaS」などの単語も問題ありませんでした(明らかに多くのツールにとって最も弱点です)。スピーカーに自動タグを付けることもできるので、特定の状況では役立つ可能性があります。
価格設定
1つのファイルを無料でテストできました。その後、ビデオまたはオーディオの文字起こしごとに使用するクレジットを購入する必要があります。
Sonix.ai
Sonix は、自動文字起こし、翻訳、会議アプリとの統合のためのツールです。
ユニークな機能
ほとんどのツールではほぼ当然の会議の統合に加えて、AI 概要生成は興味深い機能です (2023 年 4 月の時点でベータ版です)。しかし、私はすでにそれから素晴らしい結果を得ています。
また、タイムライン ビューやキャプションを複数の行に分割するオプションなど、ビデオ キャプションを操作するための追加ツールもいくつか用意されています。既存のトランスクリプトをインポートすることもでき、Sonix はそれをオーディオと同期します。
音声品質
Sonix にはカスタム語彙機能があります。これは「Tim Soulo」や「Ahrefs」などの名前では多少は役に立ちますが、100% うまくいくわけではありません。それはほとんどうまくいきました。しかし、時には SEO を CEO と間違え、どこからともなく「Excel」という言葉を返してきたように見えます。
音声品質は全体的には理にかなっていましたが、完璧にする必要がある場合はかなりの編集が必要でした。
価格設定
Sonix には 25 分間の文字起こしの無料トライアルがあります。その後、従量課金制のクレジットを購入するか、サブスクリプションを取得する必要があります。
Notta.ai
Notta は、リアルタイム会議と既存の録音の両方で機能するもう 1 つの文字起こしサービスです。
ユニークな機能
Notta は文字起こしに加えて、特定のワークフローの合理化に重点を置いており、カレンダー同期やスケジューラーなどの機能を提供しています (2023 年 4 月時点でベータ版)。
音声品質
Notta にとって、周囲の騒音や音質の悪さは問題ではありませんでした。転写の結果はほぼ問題ありませんでしたが、まだいくつかの問題がありました。
文章の構造が時々少し奇妙だったり、特定の単語が抜け落ちていたり、私の大好きな「何でも屋」の部分が今回はそれほどきちんとしていませんでした。
もう 1 つの注目すべき点は、何らかの理由で 2 人の発言者を認識できず、インタビュー全体が「発言者 1」としてタグ付けされていることです。
価格設定
無料の基本サブスクリプションから始めて、有料プランの Notta Pro の 3 日間のトライアルを試すことができます。
まとめ
ご覧のとおり、選択できるツールはたくさんあります。それでも、OpenAI が無料の ASR (自動音声認識) システムをリリースして、事態を少しかき回したようです。私は、このシステムが他のシステムよりもかなり優れていることがわかりました。
ただし、純粋な音声認識の品質は 1 つの要素にすぎません。場合によっては、Zoom ミーティングを録画したり (Otter)、大規模なビデオ プロジェクトでキャプションを操作したり (Premiere Pro)、または Canva スタイルのビデオをすばやく作成したり (Descript) する必要があるかもしれません。
また、最悪のシナリオを記録することで、これらのツールを限界まで追い詰めようとしていたことも強調しておく必要があります。より自然な使用の場合、結果の違いはそれほど目立たない可能性があります。
非常に多くのオプションがあるのは素晴らしいことです。このレビューが自分に最適なものを見つけるのに少しでも役立つことを願っています。
著者プロフィール
質問がありますか? Twitter で私に連絡してください。
George Dolgikh
ジョージは Ahrefs のマーケティング担当者です。平日は SEO オタク、週末は写真家、そして 24 時間年中無休の父親である彼は、ヘッドフォンを付けて森をペダルを漕ぐときが最も幸せです。
コメント