VibeVoice：一个前沿的开源文本转语音模型

📄 报告 · 代码 · 🤗 Hugging Face

VibeVoice 是一个新颖的框架，旨在从文本生成富有表现力、长篇、多说话人的对话音频，例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战，特别是在可扩展性、说话人一致性和自然轮流方面。VibeVoice 的核心创新是它使用了以 7.5 Hz 超低帧率运行的连续语音分词器（声学和语义）。这些分词器高效地保持了音频保真度，同时显著提高了处理长序列的计算效率。VibeVoice 采用下一词元扩散框架，利用大型语言模型 (LLM) 理解文本上下文和对话流，并利用扩散头生成高保真声学细节。该模型可以合成长达 90 分钟的语音，最多可包含 4 个不同的说话人，超越了许多先前模型通常 1-2 个说话人的限制。

2025-09-05：VibeVoice 是一个开源研究框架，旨在促进语音合成社区的协作。发布后，我们发现该工具被以不符合既定目的的方式使用。由于负责任地使用人工智能是微软的指导原则之一，我们已禁用该存储库，直到我们确信不可能再出现超出范围的使用。

VibeVoice：一个前沿的开源文本转语音模型

语境感知表达

自发情感

自发唱歌

带背景音乐的播客

跨语言

普通话到英语

英语到普通话

长篇对话语音