
Cohere 发布首款语音识别模型 Transcribe:2B 参数、开源、支持 14 种语言
企业级 AI 公司 Cohere 近日推出旗下首款语音模型 Transcribe,这是一款开源自动语音识别(ASR)模型,主打转写与语音分析场景。官方声称其在多项基准测试中优于主流竞品,并已免费开放 API 调用。
技术规格:轻量级、支持中文
Transcribe 仅有 20 亿参数,体积紧凑,可部署在消费级 GPU 上自行托管。模型目前支持 14 种语言,包括:
- 英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语
- 中文、日语、韩语、越南语、阿拉伯语
性能表现:WER 5.42%,多项基准领先
根据 Hugging Face 开源 ASR 排行榜,Transcribe 取得了 平均 WER(词错误率)5.42% 的成绩,为该榜单最低值,超越了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B 等竞品。
在人工评估中,Transcribe 的转写准确率、连贯性和可用性平均胜率为 61%。不过在葡萄牙语、德语和西班牙语转写任务中,其表现弱于部分竞争对手。
处理速度方面,Transcribe 可在 1 分钟内处理 525 分钟音频,在同类模型中属于较高水平。
商业布局:免费 API + 企业平台整合
Cohere 计划将 Transcribe 整合至其企业级 Agent 编排平台 North。目前模型已通过 API 免费提供,未来还将上线 Model Vault(Cohere 托管推理平台)。
据 CNBC 报道,Cohere 2025 年年度经常性收入已达 2.4 亿美元,公司 CEO Aidan Gomez 暗示上市计划已在考虑之中。
影响与建议
| 维度 | 分析 |
|---|---|
| 优势 | 开源 + 免费 API,降低了企业接入门槛;2B 参数便于本地部署 |
| 局限 | 非英语语种(尤其是德语、葡萄牙语、西班牙语)表现仍有提升空间 |
| 适用场景 | 需要私有化部署的客服质检、会议转写、语音分析等企业场景 |
| 选型建议 | 对葡萄牙语、德语、西班牙语有强需求的团队,建议先做专项 Benchmark 再做迁移决策 |
随着 Granola、Wispr Flow 等笔记与听写应用的流行,语音识别模型的需求正快速增长。Transcribe 的发布为有自托管需求的企业提供了一个值得关注的新选项。


评论