Cohere 推出开源语音模型,专为转录而生

内容管家 AI领域评论0字数 646阅读2分9秒阅读模式
Cohere 推出开源语音模型,专为转录而生

Cohere 发布首款语音识别模型 Transcribe:2B 参数、开源、支持 14 种语言

企业级 AI 公司 Cohere 近日推出旗下首款语音模型 Transcribe,这是一款开源自动语音识别(ASR)模型,主打转写与语音分析场景。官方声称其在多项基准测试中优于主流竞品,并已免费开放 API 调用。

技术规格:轻量级、支持中文

Transcribe 仅有 20 亿参数,体积紧凑,可部署在消费级 GPU 上自行托管。模型目前支持 14 种语言,包括:

  • 英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语
  • 中文、日语、韩语、越南语、阿拉伯语

性能表现:WER 5.42%,多项基准领先

根据 Hugging Face 开源 ASR 排行榜,Transcribe 取得了 平均 WER(词错误率)5.42% 的成绩,为该榜单最低值,超越了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B 等竞品。

在人工评估中,Transcribe 的转写准确率、连贯性和可用性平均胜率为 61%。不过在葡萄牙语、德语和西班牙语转写任务中,其表现弱于部分竞争对手。

处理速度方面,Transcribe 可在 1 分钟内处理 525 分钟音频,在同类模型中属于较高水平。

商业布局:免费 API + 企业平台整合

Cohere 计划将 Transcribe 整合至其企业级 Agent 编排平台 North。目前模型已通过 API 免费提供,未来还将上线 Model Vault(Cohere 托管推理平台)。

CNBC 报道,Cohere 2025 年年度经常性收入已达 2.4 亿美元,公司 CEO Aidan Gomez 暗示上市计划已在考虑之中。

影响与建议

维度 分析
优势 开源 + 免费 API,降低了企业接入门槛;2B 参数便于本地部署
局限 非英语语种(尤其是德语、葡萄牙语、西班牙语)表现仍有提升空间
适用场景 需要私有化部署的客服质检、会议转写、语音分析等企业场景
选型建议 对葡萄牙语、德语、西班牙语有强需求的团队,建议先做专项 Benchmark 再做迁移决策

随着 Granola、Wispr Flow 等笔记与听写应用的流行,语音识别模型的需求正快速增长。Transcribe 的发布为有自托管需求的企业提供了一个值得关注的新选项。

延伸阅读

 
内容管家

发表评论