
Mistral 推出开源语音合成模型,剑指 ElevenLabs 和 OpenAI 法国 AI 公司 Mistral 于上周四发布了新款开源文本转语音(TTS)模型,可用于语音 AI 助手及企业级客服场景。此举意味着 Mistral 正式与 ElevenLabs、Deepgram、OpenAI 等语音技术厂商正面竞争。
九语支持,主打低延迟与设备端部署
新模型名为 Voxtral TTS,支持九种语言:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
Mistral AI 运营科学副总裁 Pierre Stock 在接受 TechCrunch 电话采访时透露:
"我们的客户一直在呼吁语音模型。于是我们打造了一款小型语音模型,可部署在智能手表、智能手机、笔记本电脑或其他边缘设备上。成本仅为市场上其他方案的零头,但性能却达到了行业领先水平。"
[[SFIMG0]]
五秒样本即可克隆声音,计划构建端到端语音平台
Mistral 表示,该模型仅需不到 5 秒的音频样本即可适配自定义音色,并能捕捉细微的口音、语调起伏、重音节奏以及说话过程中的不规律特征。模型基于 Ministral 3B 构建,支持语言无缝切换而不丢失声音特征,适用于配音或实时翻译等场景。Stock 强调,团队的目标是让合成语音听起来自然,避免机械感。
在性能方面,Voxtral TTS 针对实时场景进行了优化:
- 首批音频响应时间(TTFA):500 字符、10 秒样本仅需 90ms
- 实时因子(RTF):6 倍速,即 10 秒音频片段可在约 1.6 秒内渲染完成
[[SFIMG1]]
开源+可定制,差异化竞争企业市场
今年早些时候,Mistral 已推出两款转录模型(Voxtral Transcribe 2),分别面向大批量处理和低延迟实时场景。此次新增语音合成模型,公司目标是为企业用户提供完整的语音产品矩阵。
Stock 表示:"我们计划打造一个端到端平台,支持音频、文本、图像等多模态输入输出。对于能处理音频输入输出的端到端代理系统,最大的优势在于信息密度大幅提升。" Mistral 的差异化策略押注在开源与高度可定制上——企业可以按自身需求微调模型,而非受限于闭源供应商的固定能力。
[[SFIMG2]]


评论