先に結論
STT を選ぶときは、単に「文字起こしできるか」ではなく、どの運用文脈で使うか を先に切ると失敗しにくいです。
ざっくり結論はこうです。
- Deepgram: リアルタイム、voice agent、低遅延、運用機能まで含めて一番バランスがいい
- Whisper: 安価な batch、OSS 起点、まず試す用途に強い
- AssemblyAI: 会議録・音声分析・高機能 API を速く組みたいときに扱いやすい
- Cohere Transcribe: Cohere スタック寄せ、専用環境、企業導入を前提に検討する製品
つまり最初の選び方は次の通りです。
- リアルタイム音声認識や voice agent を作る → Deepgram
- まず安く batch 文字起こしを回したい / OSS も視野に入れる → Whisper
- 文字起こしの後に要約・分析・話者分離まで API でまとめたい → AssemblyAI
- Cohere をすでに使っていて、専用環境で STT をまとめたい → Cohere Transcribe
音声の出口側、つまり TTS 比較は Voxtral TTS vs ElevenLabs vs OpenAI Voice Agent TTS のほうが近いです。音声で AI に入力する手前のツールは Wispr Flow vs Superwhisper vs Aqua Voice を見るとつながります。この記事はその中間、STT/音声認識 API の選定 に絞ります。
なぜ今この比較が重要か
2026年の音声AIは、単体の文字起こし精度だけで差がつく段階をかなり過ぎています。いま重要なのは次の4つです。
- リアルタイムに返せるか
- 多話者・日本語・専門用語をどう扱うか
- STT の後段に LLM / TTS / 通話分析をどうつなぐか
- 企業導入で説明しやすい運用・プライバシー条件があるか
しかも Cohere が 2026-03-26 に Transcribe を出したことで、比較の見方が少し変わりました。Cohere は単なる安価な API ではなく、企業向け基盤の一部として STT を入れてきた からです。
その結果、いまの比較はこうなります。
- Whisper は「汎用・安価・OSS 起点」
- Deepgram / AssemblyAI は「専用 STT ベンダーとしての完成度」
- Cohere Transcribe は「enterprise 向け専用環境の文脈」
この違いを整理せずに「精度が高いらしい」で選ぶと、導入後にズレます。
比較表
| 比較軸 | Cohere Transcribe | Whisper | Deepgram | AssemblyAI |
|---|---|---|---|---|
| 立ち位置 | Cohere 基盤の STT。企業導入色が強い | 汎用 STT モデル / OSS 起点 / API 利用可 | 専用 speech API ベンダー | STT + audio intelligence の API ベンダー |
| リアルタイム性 | 現時点では batch 寄りに見える | 基本は batch 前提 | 強い。 streaming / voice agent が明確 | 強い。 streaming 用モデルあり |
| 日本語・多言語 | 日本語を含む複数言語対応 | 多言語で広く定番 | Nova-3 multilingual と language detection あり | Universal 系で広い言語対応 |
| 多話者・運用機能 | 専用情報はまだ限定的 | 素のままでは薄い | diarization、redaction、keyterm prompting が明確 | diarization、keyterms、prompting、medical mode が明確 |
| 価格の見えやすさ | 本番は Model Vault の個別見積もり寄り | $0.006/分で分かりやすい | Nova-3 は $0.0077/分、Multilingual は $0.0092/分 | Universal-2 は $0.15/時、Universal-3 Pro は $0.21/時 |
| セルフホスト / OSS | 専用環境寄り | OSS で最も強い | enterprise で private deployment あり | self-hosted / EU / VPC 文脈あり |
| 向いている人 | Cohere 採用済みの enterprise | 安価にまず動かしたい人 | 本番の realtime / voice agent を作る人 | 会議録・分析・高機能 API を速く組みたい人 |
4製品の立ち位置を先に整理する
Cohere Transcribe は「Cohere の企業基盤に STT を載せたい人」向け
Cohere Transcribe は、2026-03-26 公開の新しい STT モデルです。公開情報では Audio Transcriptions API から使え、日本語を含む複数言語をサポートしています。
ただし現時点で見えやすいのは、セルフサービスの明快な分課金よりも、Model Vault 前提の production 運用 です。つまり、すぐに比較表で「1分いくら、リアルタイムはこれ、add-on はこれ」と出しやすい Deepgram や AssemblyAI とは性格が違います。
刺さるケースは次のような場面です。
- すでに Cohere を企業基盤として採用している
- private / dedicated inference を重視している
- 単体 STT より、Cohere スタック全体に寄せたい
逆に、まず voice app を立ち上げたい開発チームの第一候補 としては、まだ少し enterprise 寄りです。
Whisper は「安価・定番・OSS 起点」の基準点
Whisper は比較対象として今も外せません。
理由は単純で、安く、広く知られていて、OSS と API の両方で語れる からです。OpenAI の公開価格では whisper-1 は $0.006/分 で、batch 文字起こしの比較基準として非常に分かりやすいです。
Whisper の強みは次の通りです。
- まず試すコストが低い
- 多言語での知名度と実績がある
- OSS ベースの派生や自己運用の文脈に乗せやすい
ただし、弱みも明確です。
- リアルタイム運用の主役ではない
- diarization、redaction、prompting などの運用機能は別途考える必要がある
- 企業導入時の説明責任は、専用 STT ベンダーより自前設計が増えやすい
つまり Whisper は、安価な基準点としては優秀だが、そのまま本番運用の完成形ではない という立ち位置です。
Deepgram は「リアルタイム本番」に一番素直
Deepgram は、今も STT 比較で最も選びやすい 1 社です。
理由は、リアルタイム、低遅延、voice agent、add-on、コンプライアンス、価格表 が全部つながっているからです。公開 pricing では、Nova-3 が $0.0077/分、Nova-3 Multilingual が $0.0092/分。さらに redaction、speaker diarization、keyterm prompting のような追加機能も整理されています。
加えて、Deepgram は次が明確です。
- streaming / WSS 運用が前提にある
- Voice Agent API まである
- SOC 2、HIPAA、EU endpoint を表で説明しやすい
- 本番運用の要件を pricing と同じ画面で話しやすい
だから、STT → LLM → TTS のパイプラインを実際にプロダクトへ乗せたいなら、まず Deepgram が一番ブレにくいです。Realtime 音声比較は Gemini 3.1 Flash Live vs OpenAI Realtime API vs LiveKit Agents も合わせて見ると、STT 単体と対話基盤の差分がつかみやすいです。
AssemblyAI は「会議録・分析込みで速い」
AssemblyAI は、文字起こしのあとに何をしたいかまで含めて選びやすいです。
公開 pricing では、pre-recorded の Universal-2 が $0.15/時、Universal-3 Pro が $0.21/時。streaming 側も Universal 系があり、keyterms prompting、speaker diarization、medical mode のような機能が API-first に整理されています。
AssemblyAI の良さは、会議録・音声分析・検索・要約・話者分離 の一連を、開発チームがかなり自然に載せやすいことです。
向いているのは次のタイプです。
- 会議録 SaaS や通話分析を早く作りたい
- diarization や prompting を API で素直に扱いたい
- HIPAA / EU data residency も最初から気にする
- Whisper より上の運用機能が欲しい
一方で、voice agent の超低遅延勝負なら Deepgram のほうが第一想起になりやすいです。
実務で見ると、何が一番違うのか
1. voice agent / リアルタイム対話で選ぶならどれか
この文脈では Deepgram が第一候補 です。
理由は、pricing と product messaging の両方が明確に real-time と Voice Agent API を前提にしているからです。単なる STT API ではなく、会話アプリの運用コンテキストがある。
AssemblyAI も streaming を持っていますが、第一印象としては「会議録・分析も強い高機能 STT」に見えます。Whisper はこの用途の第一候補ではありません。Cohere Transcribe も現時点では batch/enterprise 導入の印象が強いです。
2. batch 文字起こしを安価に始めるならどれか
この軸は Whisper がまだ強いです。
1分あたり $0.006 で、比較の出発点としてとにかく分かりやすい。PoC、字幕生成、バックオフィスの録音処理、LLM 前処理なら十分に有力です。
ただし、後から diarization や redaction や本番監視が欲しくなるなら、どこかで専用ベンダーへ寄せたほうが楽になります。
3. 多話者・コンプライアンス・運用説明まで含めるならどれか
Deepgram と AssemblyAI の2択になりやすいです。
- Deepgram: SOC 2、HIPAA、EU endpoint、redaction、diarization が整理されている
- AssemblyAI: BAA、EU Data Residency、self-hosted / VPC 文脈が見えやすい
Whisper はここを自前で補う発想になりやすく、Cohere Transcribe は enterprise 文脈こそ強いものの、比較しやすいセルフサービス情報はまだ少なめです。
4. 日本語・多言語で選ぶならどれか
Whisper は依然として広い言語対応の基準点です。AssemblyAI も Universal-2 で 99 言語を打ち出していて強い。Deepgram は multilingual モデルと自動言語検出を明確に持っています。Cohere Transcribe も日本語を含む複数言語対応です。
つまり「日本語があるか」だけでは差がつきません。差がつくのはむしろ、
- 専門用語補正
- 多話者
- 運用機能
- リアルタイム性
- 価格の読みやすさ
です。
5. 自前運用・OSS まで視野に入れるならどれか
ここは Whisper が最も強いです。
Cohere、Deepgram、AssemblyAI はどれも API / managed service としての良さがありますが、「まず自分で動かして、必要なら自己運用や派生スタックも考える」という入口は Whisper が圧倒的に分かりやすいです。
その代わり、手元で持つ自由度 と 本番の完成度 はトレードオフになりやすいです。
用途別のおすすめ
Deepgram がおすすめの人
- リアルタイム STT や voice agent を作る人
- 遅延、運用機能、価格表、コンプライアンスをまとめて見たい人
- STT → LLM → TTS の本番導線をそのまま作りたい人
Whisper がおすすめの人
- まず batch 文字起こしを安価に始めたい人
- OSS や自己運用の選択肢を持ちたい人
- 高機能運用より、まず動かすことを優先したい人
AssemblyAI がおすすめの人
- 会議録、通話分析、話者分離、要約前処理までまとめて使いたい人
- prompt / keyterms / medical mode のような高機能が欲しい人
- API-first で音声分析アプリを素早く作りたい人
Cohere Transcribe がおすすめの人
- Cohere を既に使っている enterprise チーム
- 専用環境や private deployment を強く意識している人
- STT だけでなく Cohere 基盤全体に寄せたい人
迷ったらこう決める
迷ったときはこの順で切ると早いです。
- リアルタイムか batch か
- 運用機能が必要か
- コンプライアンス説明が必要か
- OSS / 自己運用の余地が必要か
この4問に対する答えは、ほぼこう収束します。
- リアルタイム本番 → Deepgram
- 安価な batch / OSS 起点 → Whisper
- 会議録・分析込み → AssemblyAI
- Cohere enterprise 文脈 → Cohere Transcribe
どれを選ぶべきか
2026-03-30 時点で、汎用的に最もおすすめしやすいのは Deepgram です。理由は、STT 単体の価格だけでなく、リアルタイム、voice agent、コンプライアンス、運用機能まで一気通貫で説明しやすいからです。
ただし、最安の batch だけを求めるなら Whisper は今も十分強いです。会議録や音声分析までまとめたい なら AssemblyAI がかなり扱いやすい。Cohere を中核に置く enterprise なら Cohere Transcribe を検討する理由があります。
つまり勝ち筋は1つではありません。
- 本番の対話アプリ → Deepgram
- PoC / 字幕 / 安価な batch → Whisper
- 分析込みのプロダクト → AssemblyAI
- Cohere 基盤寄せ → Cohere Transcribe
この順で考えると、STT 選定はかなり迷いにくくなります。
参考にした主な公式ソース
- Cohere changelog / Transcribe product page
- OpenAI Whisper model docs / pricing
- Deepgram pricing
- AssemblyAI pricing