微软NaturalSpeech 2来了，基于扩散模型的语音合成

1,872 0

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。多年来，微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音，NaturalSpeech 研究项目（https://aka.ms/speechresearch）应运而生。

NaturalSpeech 的研究分为以下几个阶段：

1）第一阶段，在单个说话人上取得媲美人类的语音质量。为此，研究团队在2022年推出了 NaturalSpeech 1，在 LJSpeech 语音合成数据集上达到了人类录音水平的音质。

2）第二阶段，高效地实现多样化的语音合成，包含不同的说话人、韵律、风格等。为此，该联合研究团队在2023年推出了 NaturalSpeech 2，利用扩散模型（diffusion model）实现了 zero-shot 的语音合成，只需要几秒钟的示例语音（speech prompt）模型就能合成任何说话人、韵律、风格的语音，实现了零样本语音合成的重要突破，为语音合成技术的未来发展带来了无限可能。

3）当前，研究团队正在开展第三阶段的研究，为达到高自然度（高质量且多样化）的语音合成这一目标，乘势而上，开创新局面。

三大创新设计，让NaturalSpeech 2脱颖而出

于近期发布的新一代语音合成大模型 NaturalSpeech 2，经历了上万小时、多说话人的语音数据集训练，并采用了 zero-shot（预测时只提供几秒钟的目标示例语音）的方式合成新的说话人、韵律、风格的语音，以实现多样化的语音合成。

论文链接：

https://arxiv.org/abs/2304.09116

项目演示：

https://speechresearch.github.io/naturalspeech2/

要想达到良好的 zero-shot 训练效果，面临极大挑战。先前的方法是将语音量化成离散 token，并用自回归语言模型进行建模（例如 AudioLM）。但这种方法存在很大的局限性：自回归模型面临严重的错误传播（error-propagation）问题，导致生成语音质量低下、鲁棒性差，韵律失调以及重复、漏词等问题。同时还容易陷入离散 token 量化和自回归建模的两难困境（如表1所示），即要么离散 token 难以以较高质量还原语音，要么离散 token 难以预测。

表1：先前语音合成系统的两难处境

NaturalSpeech 2 提出了一系列创新设计，如图1所示，完美地有效规避了先前的局限，实现了零样本语音合成的重要突破。考虑到语音波形的复杂性和高维度，微软亚洲研究院机器学习组与 Yoshua Bengio 共同提出的 Regeneration Learning 范式，为这个问题提供了创新的参考答案。

图1：NaturalSpeech 2 系统概览

NaturalSpeech 2 首先利用神经语音编解码器（Neural Audio Codec，如图2所示）的编码器（encoder），将语音波形转换为连续向量并用解码器（decoder）重建语音波形，再运用潜在扩散模型（Latent Diffusion Model）以非自回归的方式从文本预测连续向量。在推理时，利用潜在扩散模型和神经语音解码器从文本生成语音的波形。

图2：NaturalSpeech 2 中的 Neural Audio Codec 概览

相比先前的语音合成系统，NaturalSpeech 2 有以下几大优势，如表2所示：

表2：NaturalSpeech 2 相比先前语音合成系统的优势

1. 使用连续向量替代离散 token。

离散 token 会导致序列长度过长（例如，使用8个残差向量量化器，序列长度会增加8倍），增加了预测的难度。而连续向量可以缩短序列长度，同时增加细粒度重建语音所需要的细节信息。

2. 采用扩散模型替代自回归语言模型。

通过非自回归的生成方式，能避免自回归模型中的错误累积所导致的韵律不稳定、重复吐次漏词等问题。

3. 引入语音提示机制，激发上下文学习能力。

研究员们创新设计的语音提示机制（如图3所示），让扩散模型和时长/音高预测模块能够更高效地学习语音上下文，从而提升了零样本的预测能力。

图3：NaturalSpeech 2 中的语音提示机制

得益于以上设计，NaturalSpeech 2 生成的语音非常稳定、鲁棒，无需要复杂的两阶段模型来预测中间表征序列。同时，非自回归的方式和音高时长预测机制也赋予了 NaturalSpeech 2 扩展到语音之外的风格（例如歌声）的能力。

微软亚洲研究院高级研究员谭旭表示，语音合成是人工智能内容生成的一个非常重要的领域，该研究团队一直致力于构建高自然度的语音合成系统。NaturalSpeech 2 是继去年推出的 NaturalSpeech 后跨越的又一里程碑，利用大数据、大模型和零样本合成技术，极大地丰富了语音合成的音色、韵律、风格的多样性，使语音合成更自然更像人类。

NaturalSpeech 2的语音合成性能大检测

研究团队将 NaturalSpeech 2 的模型大小扩展到了400M，并基于4.4万小时的语音数据进行了训练。值得一提的是，即使 NaturalSpeech 2 与被模仿人“素昧平生”，只需几秒的语音提示， NaturalSpeech 2 输出的结果也可以在韵律/音色相似度、鲁棒性和音质方面都更优于先前的 TTS 系统。这一成果使得 NaturalSpeech 2 的性能达到了新高度，并有望为未来的 TTS 研究提供基础性参考。

首先，在音质方面，NaturalSpeech 2 在 zero-shot 条件合成的语音显著优于先前的 TTS 系统，如表3和表4所示。

表3：NaturalSpeech 2 和先前 TTS 系统的主观质量得分（CMOS）对比

表4：NaturalSpeech 2 和 VALL-E 的主观质量得分（CMOS）对比

同时，在相似度方面，NaturalSpeech 2 也能更好地生成和语音提示相似的语音，如表5和表6所示（评估指标详细介绍参见论文）。

表5：NaturalSpeech 2 与语音提示的韵律相似度比较

表6：NaturalSpeech 2 的主观相似度评分 SMOS 结果

在稳定度方面，相较于既有的 TTS 模型，NaturalSpeech 2 的表现也更为优异，如表7和表8所示。

表7：NaturalSpeech 2 合成语音的词错误率

表8：NaturalSpeech 2 合成语音的可懂度测试

研究员们还从互联网上收集了歌声数据，并将其与语音数据混合起来，共同训练模型。令人惊喜的是，无论是语音还是歌声提示，NaturalSpeech 2 都可以进行零样本歌声合成。欢迎点击链接：https://speechresearch.github.io/naturalspeech2/，一起听一听更多 AI 合成的语音和歌声吧！

为了更好的帮助大家了解这项研究，机器之心最新一期线上分享邀请到微软亚洲研究院 Principal Research Manager 谭旭，为大家解读语音合成模型NaturalSpeech 2。

微软NaturalSpeech 2来了，基于扩散模型的语音合成

分享主题：

NaturalSpeech 2：基于Latent Diffusion Model的高质量Zero-Shot语音合成

嘉宾简介

：谭旭，微软亚洲研究院Principal Research Manager，研究领域为深度学习及AI内容生成。发表论文100余篇，研发的机器翻译和语音合成系统获得比赛冠军并达到人类水平，研究工作如预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界关注，多项成果应用于微软产品。研究主页：https://ai-creation.github.io/。

分享摘要

：首先介绍当前零样本语音合成系统面临的问题，然后详细介绍NaturalSpeech 2的系统设计理念，如何通过新颖的设计规避先前语音合成系统的问题，最后展示NaturalSpeech 2取得的语音合成效果，以及探讨下一步的研究方向。

直播间：

关注机动组视频号，立即预约直播。

交流群：

本次直播有 QA 环节，欢迎加入本次直播交流群探讨交流。

微软NaturalSpeech 2来了，基于扩散模型的语音合成

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。