2026年3月 TTS 模型更新综述
2026年3月,文本到语音(TTS)领域迎来了多项重要更新,涵盖商业API和开源模型。以下是主要进展的总结。
OpenAI 音频模型
gpt-4o-mini-tts
OpenAI 推出了新的文本到语音模型 gpt-4o-mini-tts,具有更好的可控性。开发者不仅可以指定“说什么”(what to say),还可以指定“怎么说”(how to say),从而实现更定制化的语音体验。这对于语音代理、客服等场景尤为有用。
Google Gemini 2.5 TTS
gemini-2.5-flash-tts 和 gemini-2.5-pro-tts
Google 将 gemini-2.5-flash-tts 和 gemini-2.5-pro-tts 设为一般可用(GA)版本。 - 支持 30+ 种说话人,覆盖 80+ 种语言环境 - 提供对风格、口音、语速和情感的细粒度控制 - Flash 版本针对低延迟优化,Pro 版本针对质量优化 - 通过 Gemini API 和 Google AI Studio 可用
Hume AI TADA(开源)
TADA (Text-Acoustic Dual Alignment)
Hume AI 在 2026年3月 开源了 TADA,这是一种创新的标记化方案,实现了文本和语音的一对一同步。 - 声称几乎零内容幻觉 - 生成速度快(0.09 RTF,实时因子),声音质量具有竞争力 - 轻量级,可在设备上部署 - 在移动设备上可生成多达 700 秒的连贯音频 - 在 Hugging Face(HumeAI/tada)和 GitHub 上可用
NVIDIA Riva TTS 更新
NVIDIA 在 2026年3月 对 Riva TTS 进行了以下更新: - 新增对越南语(vi-VN)和意大利语(it-IT)的支持 - 新增对 Blackwell GPU 架构的支持 - 新增对 DGX Spark 平台的支持 - 这些更新属于 NVIDIA NIM Riva TTS 微服务的一部分
社区及其他模型
Qwen3-TTS 系列
社区中讨论的开源 TTS 模型族。
MOSS-TTS
旗舰级生产模型,具有: - 高保真度 - 零声音克隆 - 长语音生成 - 对拼音/音素/持续时间的精细控制 - 多语言/代码切换合成
VibeVoice
在 2026 年开源 TTS 指南中被提及。
推荐的开源 TTS 模型
对于 2026 年,以下开源 TTS 模型值得关注: - Fish Speech - CosyVoice - IndexTTS
访问与使用
- OpenAI 模型:通过 OpenAI API 平台使用
- Google Gemini TTS:通过 Gemini API 和 Google AI Studio 访问
- Hume AI TADA:在 Hugging Face 和 GitHub 上可用
- NVIDIA Riva 更新:通过 NVIDIA NIM 文档获取
- 开源模型:通常在 Hugging Face 和 GitHub 仓库中提供
小结
2026年3月是 TTS 领域丰收的一个月,无论是商业解决方案还是开源项目都有显著进展。从可控性提升(OpenAI)、多语言支持(Google)、开源创新(Hume AI TADA)到平台扩展(NVIDIA Riva),这些更新为开发者和研究者提供了更多选择。特别是开源模型的快速迭代,使得高质量语音合成技术正变得越来越易于访问和定制。
如果您对特定模型或应用场景有兴趣,建议深入探索上述资源,因为许多模型都提供了演示和试用方式。