微软推出先进神经编解码语言模型VALL-E 2,它在零样本文本到语音合成(TTS)领域取得了突破性进展,首次实现了与人类同等水平的表现。VALL-E 2是一个纯粹的研究项目,目前还没有计划将其纳入产品或向公众开放。尽管VALL-E 2能够合成类似专业配音的语音,但其相似度和自然度取决于语音提示的长度和质量、背景噪音以及其他因素。它可能存在被滥用的风险,例如欺骗声音识别或冒充特定说话人。如果怀疑VALL-E 2被滥用或侵犯权利,可以报告。
主要功能:
- 零样本文本到语音合成:VALL-E 2能够在没有听过目标说话人声音的情况下,仅使用几秒钟的样本语音,就能合成该说话人的语音。
- 高质量语音合成:生成的语音在清晰度、自然度和说话人相似度上与人类水平相当。
主要特点:
- 重复意识采样(Repetition Aware Sampling):改进了原有的核采样过程,通过考虑解码历史中的标记重复来提高解码稳定性,并避免了无限循环问题。
- 分组编码建模(Grouped Code Modeling):将编解码码分组,有效缩短序列长度,提高了推理速度,并解决了长序列建模的挑战。
工作原理:
- 编码:使用预训练的神经音频编解码模型将音频样本转换为离散的编解码码序列。
- 训练:训练一个自回归语言模型来生成粗糙的编解码码,另一个非自回归模型来生成剩余的精细编解码码。
- 推理:在推理阶段,VALL-E 2使用提示(prompting)的方式,通过给定文本和未见过的说话人的简短语音样本,生成目标编解码码序列。
- 解码:使用神经编解码器将目标编解码码序列转换回语音波形。
具体应用场景:
- 为失语症患者或肌萎缩侧索硬化症患者生成语音:帮助那些因疾病而失去语言能力的人恢复语音交流。
- 教育学习:合成教师的讲解语音,用于在线教育或自学材料。
- 娱乐:为视频游戏或动画角色生成逼真的配音。
- 新闻媒体:快速生成新闻播报的语音版本。
- 辅助功能:为视障人士提供有声读物或将文本信息转换为语音。
- 交互式语音响应系统:在客户服务中提供自然的语音交互体验。
0条评论