文本到语音(TTS)合成系统NaturalSpeech 3:生成自然、高质量且具有零样本(zero-shot)能力的语音

分类:AI音频 | 热度:239 ℃

来自微软亚洲研究院、中国科学技术大学、香港中文大学(深圳)、浙江大学、东京大学、北京大学的研究人员推出文本到语音(TTS)合成系统NaturalSpeech 3。这个系统的目标是生成自然、高质量且具有零样本(zero-shot)能力的语音。所谓零样本能力,意味着即使在没有特定说话人的训练数据的情况下,系统也能够模仿他们的语音风格。

项目主页:https://speechresearch.github.io/naturalspeech3

论文地址:https://arxiv.org/abs/2403.03100

主要功能:

NaturalSpeech 3能够将文本转换为听起来非常自然的语音。它通过分析文本内容,并结合说话人的语音特征(如音调、节奏和音色),来生成语音。这个系统特别擅长在没有特定说话人数据的情况下,模仿他们的语音风格。

主要特点:

  1. 因子化扩散模型: 该系统采用了一种新颖的因子化扩散模型,能够将语音分解成不同的子空间,分别代表内容、韵律、音色和声学细节等属性,并分别生成这些属性。
  2. 高质量重建: 使用FACodec(一种神经语音编解码器)来解耦语音波形,然后从这些解耦的表示中重建高质量的语音波形。
  3. 零样本能力: 即使在没有特定说话人的训练数据的情况下,也能够模仿他们的语音风格。

工作原理: NaturalSpeech 3的工作流程包括以下几个步骤:

  1. 语音编码: 使用FACodec将输入的语音波形编码为一组离散的表示,这些表示分别对应于不同的语音属性。
  2. 属性生成: 通过因子化扩散模型,根据相应的提示(prompt)生成每个子空间中的语音属性。
  3. 语音重建: 使用编解码器将生成的属性解码回语音波形。

具体应用场景:

  1. 个性化语音助手: 在智能助手或语音交互系统中,NaturalSpeech 3可以用来生成特定用户的个性化语音响应。
  2. 语音内容创作: 在电影、动画或视频游戏中,该系统可以用来创建角色的语音,即使没有角色的原始录音。
  3. 语音转换: 在语音转换任务中,NaturalSpeech 3可以用来将一种语音风格转换为另一种风格,例如将男性说话人的语音转换为女性说话人的声音。

总的来说,NaturalSpeech 3通过其创新的因子化扩散模型和FACodec,为TTS领域带来了一种新的、高质量的语音合成方法,特别是在零样本学习和个性化语音合成方面表现出色。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论