来自微软亚洲研究院、中国科学技术大学、香港中文大学(深圳)、浙江大学、东京大学、北京大学的研究人员推出文本到语音(TTS)合成系统NaturalSpeech 3。这个系统的目标是生成自然、高质量且具有零样本(zero-shot)能力的语音。所谓零样本能力,意味着即使在没有特定说话人的训练数据的情况下,系统也能够模仿他们的语音风格。
项目主页:https://speechresearch.github.io/naturalspeech3
论文地址:https://arxiv.org/abs/2403.03100
主要功能:
NaturalSpeech 3能够将文本转换为听起来非常自然的语音。它通过分析文本内容,并结合说话人的语音特征(如音调、节奏和音色),来生成语音。这个系统特别擅长在没有特定说话人数据的情况下,模仿他们的语音风格。
主要特点:
- 因子化扩散模型: 该系统采用了一种新颖的因子化扩散模型,能够将语音分解成不同的子空间,分别代表内容、韵律、音色和声学细节等属性,并分别生成这些属性。
- 高质量重建: 使用FACodec(一种神经语音编解码器)来解耦语音波形,然后从这些解耦的表示中重建高质量的语音波形。
- 零样本能力: 即使在没有特定说话人的训练数据的情况下,也能够模仿他们的语音风格。
工作原理: NaturalSpeech 3的工作流程包括以下几个步骤:
- 语音编码: 使用FACodec将输入的语音波形编码为一组离散的表示,这些表示分别对应于不同的语音属性。
- 属性生成: 通过因子化扩散模型,根据相应的提示(prompt)生成每个子空间中的语音属性。
- 语音重建: 使用编解码器将生成的属性解码回语音波形。
具体应用场景:
- 个性化语音助手: 在智能助手或语音交互系统中,NaturalSpeech 3可以用来生成特定用户的个性化语音响应。
- 语音内容创作: 在电影、动画或视频游戏中,该系统可以用来创建角色的语音,即使没有角色的原始录音。
- 语音转换: 在语音转换任务中,NaturalSpeech 3可以用来将一种语音风格转换为另一种风格,例如将男性说话人的语音转换为女性说话人的声音。
总的来说,NaturalSpeech 3通过其创新的因子化扩散模型和FACodec,为TTS领域带来了一种新的、高质量的语音合成方法,特别是在零样本学习和个性化语音合成方面表现出色。
0条评论