来自香港科技大学、MSRA、萨里大学、内蒙古大学、北京邮电大学和新加坡国立大学的研究人员推出新型零样本(Zero-Shot)语音合成系统FlashSpeech,零样本语音合成是指在没有特定说话人数据训练的情况下,能够模仿该说话人的声音来生成语音的技术。这项技术可以应用于多种场景,比如为电影角色配音、创建个性化的虚拟助手声音等。例如,我们要为一款视频游戏设计一个角色,可以使用FlashSpeech来生成该角色的独特声音,而不需要录音艺术家的实际录音。或者,如果我们想在智能助手中实现个性化的声音,FlashSpeech可以快速生成并定制不同用户的声音。
主要功能和特点:
- 高效率:FlashSpeech的推理时间(即系统生成语音所需的时间)比之前的工作快大约20倍,这意味着它可以在更短的时间内完成语音合成。
- 高质量:尽管合成速度快,FlashSpeech仍然保持了与先前研究相当的语音质量和说话人相似性。
- 无需预训练模型:它采用了一种新的对抗性一致性训练方法,可以从头开始训练,不需要依赖预训练的扩散模型作为教师模型。
- 多样性:通过一个新的韵律生成器模块,FlashSpeech能够增强语音的韵律多样性,使语音听起来更自然。
工作原理:
FlashSpeech基于潜在一致性模型(Latent Consistency Model, LCM),并结合了编码器、韵律生成器和解码器。它的工作流程大致如下:
- 编码器:将语音波形转换为潜在向量。
- 韵律生成器:预测音调和时长,增加语音的自然韵律。
- 潜在一致性模型:利用对抗性一致性训练方法,从潜在向量生成语音波形,这一过程只需要一步或两步采样。
- 解码器:将生成的潜在向量转换回语音波形。
具体应用场景:
- 文本到语音(TTS):给定一段文本和参考音频,FlashSpeech可以快速生成类似于参考音频说话人的语音。
- 声音转换(VC):可以将一个说话人的声音转换成另一个说话人的声音,同时保留原始语音的语言内容。
- 语音编辑:允许用户对现有语音进行编辑,比如更改某些词或短语,同时保持声音的自然流畅。
- 多样化语音采样:利用其内在的随机性,FlashSpeech可以生成多种不同的语音输出,这在需要多种语音表达或风格的应用中非常有用。
0条评论