亚马逊推出10亿参数文本转语音模型BASE TTS

分类:AI音频 | 热度:84 ℃

亚马逊团队于2月12日推出一个名为BASE TTS(Big Adaptive Streamable TTS with Emergent abilities)的文本转语音(TTS)模型,BASE TTS是目前已知最大的TTS模型,它在100,000小时的公共领域语音数据上进行了训练,实现了前所未有的语音自然度。这个模型采用了一种自回归的Transformer架构,将原始文本转换为离散的编码(称为“speechcodes”),然后通过基于卷积的解码器以增量、可流式的方式将这些编码转换为语音波形。

音频生成样本地址:https://amazon-ltts-paper.com

值得一提的是,模型的语音编码采用了新颖的语音标记化技术,该技术具有说话人ID解纠缠和字节对编码压缩的特点。团队发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在处理复杂文本句子时展现出自然韵律。

亚马逊推出10亿参数文本转语音模型BASE TTS

主要功能:

  1. 自然语音合成: BASE TTS能够将文本转换为听起来非常自然的语音。
  2. 多语言和多说话者支持: 模型支持多种语言和不同说话者的声音。
  3. 增量式语音生成: 模型能够逐步生成语音,而不是一次性生成整个句子,这使得它在实时应用中非常有用。

主要特点:

  1. 大规模数据训练: 使用了100,000小时的语音数据进行训练,这在TTS领域是非常罕见的。
  2. 自适应能力: 随着模型规模和训练数据量的增加,BASE TTS展现出了“涌现能力”,即在处理复杂文本时能够自然地表达情感和语调。
  3. 高效的语音表示: 使用了一种新颖的语音标记化技术,通过字节对编码(Byte-Pair Encoding)进行压缩,以提高模型的效率。

工作原理: BASE TTS的核心是一个自回归的Transformer模型,它首先接收文本输入,然后预测一系列离散的语音编码(speechcodes)。这些编码随后被送入一个卷积解码器,该解码器逐步生成语音波形。为了提高效率,模型使用了WavLM(WaveLM)自监督学习(SSL)模型提取的特征来构建speechcodes,并通过字节对编码来减少序列长度。这样,模型可以在保持高质量语音的同时,处理更长的音频序列。

具体应用场景:

  1. 实时语音合成: 在需要实时语音反馈的应用中,如虚拟助手、语音导航系统等。
  2. 多语言内容创作: 对于需要生成多种语言语音内容的媒体制作和教育平台。
  3. 个性化语音服务: 为用户提供定制化的语音合成服务,如个性化的语音助手或虚拟角色配音。
  4. 无障碍技术: 为有语言障碍的人提供合成语音,帮助他们更好地沟通。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论