随着生成式 AI 技术的不断进步,模拟真人发声的工具也越来越逼真。最近,微软 公布了其全新的 AI 语音生成工具 VALL-E 2,据称已达到与真人发声相媲美的水平。
VALL-E 2:逼真的语音生成技术
VALL-E 2 是 微软去年1月首次发布的 VALL-E 的新版本,它能够将文字转换为语音,效果与人类发声无异。开发团队表示,VALL-E 2 仅需几秒钟的音频输入,就能学会模仿特定的声音。
技术亮点
VALL-E 2 采用了两项关键技术:
- 重复感知抽样(Repetition Aware Sampling):有效解决了词元重复问题,提升了语音的自然度。
- 分组程式码建模(Grouped Code Modeling):改善了语音的流畅度和生成速度。
应用前景
这项技术的应用范围极为广泛,无论是个性化语音助手,还是视频游戏的配音,VALL-E 2 都展现出巨大的潜力。尽管潜力巨大,微软对 VALL-E 2 的强大功能持谨慎态度。由于担心技术可能被滥用,目前 微软 并未计划对外公开 VALL-E 2,仅用于内部研究。与其它生成式 AI 工具相似,VALL-E 2 也可能被用于制作深度伪造(Deepfake)语音,这可能引发身份欺诈和虚假信息传播等风险。(来源)
0条评论