VibeVoice:一个前沿的开源文本转语音模型

VibeVoice 是一个新颖的框架,旨在从文本生成富有表现力、长篇、多说话人的对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的重大挑战,特别是在可扩展性、说话人一致性和自然轮流方面。VibeVoice 的核心创新是它使用了以 7.5 Hz 超低帧率运行的连续语音分词器(声学和语义)。这些分词器高效地保持了音频保真度,同时显著提高了处理长序列的计算效率。VibeVoice 采用下一词元扩散框架,利用大型语言模型 (LLM) 理解文本上下文和对话流,并利用扩散头生成高保真声学细节。该模型可以合成长达 90 分钟的语音,最多可包含 4 个不同的说话人,超越了许多先前模型通常 1-2 个说话人的限制。

VibeVoice Framework
MOS Preference Results

2025-09-05:VibeVoice 是一个开源研究框架,旨在促进语音合成社区的协作。发布后,我们发现该工具被以不符合既定目的的方式使用。由于负责任地使用人工智能是微软的指导原则之一,我们已禁用该存储库,直到我们确信不可能再出现超出范围的使用。

语境感知表达

自发情感

自发唱歌

带背景音乐的播客

跨语言

普通话到英语

英语到普通话

长篇对话语音

* 时间戳源自生成的音频,可能包含错误。