2026-03-20

2026年3月 TTS 模型更新综述

2026年3月，文本到语音（TTS）领域迎来了多项重要更新，涵盖商业API和开源模型。以下是主要进展的总结。

OpenAI 音频模型

gpt-4o-mini-tts

OpenAI 推出了新的文本到语音模型 gpt-4o-mini-tts，具有更好的可控性。开发者不仅可以指定“说什么”（what to say），还可以指定“怎么说”（how to say），从而实现更定制化的语音体验。这对于语音代理、客服等场景尤为有用。

Google Gemini 2.5 TTS

gemini-2.5-flash-tts 和 gemini-2.5-pro-tts

Google 将 gemini-2.5-flash-tts 和 gemini-2.5-pro-tts 设为一般可用（GA）版本。 - 支持 30+ 种说话人，覆盖 80+ 种语言环境 - 提供对风格、口音、语速和情感的细粒度控制 - Flash 版本针对低延迟优化，Pro 版本针对质量优化 - 通过 Gemini API 和 Google AI Studio 可用

Hume AI TADA（开源）

TADA (Text-Acoustic Dual Alignment)

Hume AI 在 2026年3月开源了 TADA，这是一种创新的标记化方案，实现了文本和语音的一对一同步。 - 声称几乎零内容幻觉 - 生成速度快（0.09 RTF，实时因子），声音质量具有竞争力 - 轻量级，可在设备上部署 - 在移动设备上可生成多达 700 秒的连贯音频 - 在 Hugging Face（HumeAI/tada）和 GitHub 上可用

NVIDIA Riva TTS 更新

NVIDIA 在 2026年3月对 Riva TTS 进行了以下更新： - 新增对越南语（vi-VN）和意大利语（it-IT）的支持 - 新增对 Blackwell GPU 架构的支持 - 新增对 DGX Spark 平台的支持 - 这些更新属于 NVIDIA NIM Riva TTS 微服务的一部分

社区及其他模型

Qwen3-TTS 系列

社区中讨论的开源 TTS 模型族。

MOSS-TTS

旗舰级生产模型，具有： - 高保真度 - 零声音克隆 - 长语音生成 - 对拼音/音素/持续时间的精细控制 - 多语言/代码切换合成

VibeVoice

在 2026 年开源 TTS 指南中被提及。

访问与使用

OpenAI 模型：通过 OpenAI API 平台使用
Google Gemini TTS：通过 Gemini API 和 Google AI Studio 访问
Hume AI TADA：在 Hugging Face 和 GitHub 上可用
NVIDIA Riva 更新：通过 NVIDIA NIM 文档获取
开源模型：通常在 Hugging Face 和 GitHub 仓库中提供

小结

2026年3月是 TTS 领域丰收的一个月，无论是商业解决方案还是开源项目都有显著进展。从可控性提升（OpenAI）、多语言支持（Google）、开源创新（Hume AI TADA）到平台扩展（NVIDIA Riva），这些更新为开发者和研究者提供了更多选择。特别是开源模型的快速迭代，使得高质量语音合成技术正变得越来越易于访问和定制。

如果您对特定模型或应用场景有兴趣，建议深入探索上述资源，因为许多模型都提供了演示和试用方式。

回到首页

我的博客