当前位置：首页 > 优惠 >AI音频>文章详情

微软推出先进神经编解码语言模型VALL-E 2

推荐人：暴走AI| 商城: AI | 10个月前 (06-11)| 分类：AI音频 | 热度：228 ℃

已关闭评论

微软推出先进神经编解码语言模型VALL-E 2，它在零样本文本到语音合成（TTS）领域取得了突破性进展，首次实现了与人类同等水平的表现。VALL-E 2是一个纯粹的研究项目，目前还没有计划将其纳入产品或向公众开放。尽管VALL-E 2能够合成类似专业配音的语音，但其相似度和自然度取决于语音提示的长度和质量、背景噪音以及其他因素。它可能存在被滥用的风险，例如欺骗声音识别或冒充特定说话人。如果怀疑VALL-E 2被滥用或侵犯权利，可以报告。

主要功能：

零样本文本到语音合成：VALL-E 2能够在没有听过目标说话人声音的情况下，仅使用几秒钟的样本语音，就能合成该说话人的语音。
高质量语音合成：生成的语音在清晰度、自然度和说话人相似度上与人类水平相当。

主要特点：

重复意识采样（Repetition Aware Sampling）：改进了原有的核采样过程，通过考虑解码历史中的标记重复来提高解码稳定性，并避免了无限循环问题。
分组编码建模（Grouped Code Modeling）：将编解码码分组，有效缩短序列长度，提高了推理速度，并解决了长序列建模的挑战。