Mistral 发布开源语音生成新模型

2026年3月26日内容管家

AI领域评论24字数 648阅读2分9秒阅读模式

Mistral 推出开源语音合成模型，剑指 ElevenLabs 和 OpenAI 法国 AI 公司 Mistral 于上周四发布了新款开源文本转语音（TTS）模型，可用于语音 AI 助手及企业级客服场景。此举意味着 Mistral 正式与 ElevenLabs、Deepgram、OpenAI 等语音技术厂商正面竞争。

九语支持，主打低延迟与设备端部署

新模型名为 Voxtral TTS，支持九种语言：英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

Mistral AI 运营科学副总裁 Pierre Stock 在接受 TechCrunch 电话采访时透露：

"我们的客户一直在呼吁语音模型。于是我们打造了一款小型语音模型，可部署在智能手表、智能手机、笔记本电脑或其他边缘设备上。成本仅为市场上其他方案的零头，但性能却达到了行业领先水平。"

[[SFIMG0]]

五秒样本即可克隆声音，计划构建端到端语音平台

Mistral 表示，该模型仅需不到 5 秒的音频样本即可适配自定义音色，并能捕捉细微的口音、语调起伏、重音节奏以及说话过程中的不规律特征。模型基于 Ministral 3B 构建，支持语言无缝切换而不丢失声音特征，适用于配音或实时翻译等场景。Stock 强调，团队的目标是让合成语音听起来自然，避免机械感。

在性能方面，Voxtral TTS 针对实时场景进行了优化：

首批音频响应时间（TTFA）：500 字符、10 秒样本仅需 90ms
实时因子（RTF）：6 倍速，即 10 秒音频片段可在约 1.6 秒内渲染完成

[[SFIMG1]]

开源+可定制，差异化竞争企业市场

今年早些时候，Mistral 已推出两款转录模型（Voxtral Transcribe 2），分别面向大批量处理和低延迟实时场景。此次新增语音合成模型，公司目标是为企业用户提供完整的语音产品矩阵。

Stock 表示："我们计划打造一个端到端平台，支持音频、文本、图像等多模态输入输出。对于能处理音频输入输出的端到端代理系统，最大的优势在于信息密度大幅提升。" Mistral 的差异化策略押注在开源与高度可定制上——企业可以按自身需求微调模型，而非受限于闭源供应商的固定能力。

[[SFIMG2]]

Mistral 发布开源语音生成新模型

九语支持，主打低延迟与设备端部署

五秒样本即可克隆声音，计划构建端到端语音平台

开源+可定制，差异化竞争企业市场

延伸阅读

历史上的今天

发表评论