当前位置：首页 > 优惠 >AI音频>文章详情

SSR-Speech：专为零样本（zero-shot）文本基础的语音编辑和文本到语音（TTS）合成设计

推荐人：暴走AI| 商城: AI | 10个月前 (09-19)| 分类：AI音频 | 热度：494 ℃

已关闭评论

SSR-Speech：专为零样本（zero-shot）文本基础的语音编辑和文本到语音（TTS）合成设计

约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech，它专为零样本（zero-shot）文本基础的语音编辑和文本到语音（TTS）合成设计，以实现稳定、安全和强大的性能。简单来说，SSR-Speech 能够根据文本指令修改或合成语音，而不需要在训练期间听到特定的说话者样本。

GitHub：https://github.com/WangHelin1997/SSR-Speech
模型地址：https://huggingface.co/westbrook/SSR-Speech-Mandarin（中文）、https://huggingface.co/westbrook/SSR-Speech-English（英文）

例如，你正在制作一个有声读物，需要将文本转换为语音。使用 SSR-Speech，你只需提供文本，模型就能生成听起来自然且与文本匹配的语音。如果你需要修改某个特定单词的发音，SSR-Speech 也能做到这一点，而无需重新录制整个句子。此外，如果你需要在有背景噪音的录音中编辑语音，SSR-Speech 也能保持语音的清晰度和自然度。

主要功能和特点

稳定性：SSR-Speech 通过使用无分类器的引导（classifier-free guidance）来增强生成过程的稳定性，避免了在生成过程中出现长时间静音或抓痕声，从而产生不自然的声音。
安全性：引入了一种水印编码（watermark Encodec）模型，可以在编辑的语音区域嵌入帧级水印，使得可以检测出哪些部分被编辑过。
鲁棒性：SSR-Speech 对多跨度编辑和背景噪音表现出了显著的鲁棒性，能够在保持原始未编辑语音段的同时，提供比传统模型更好的恢复效果。
零样本能力：在未见过的说话者样本上也能进行有效的语音编辑和合成，这意味着它可以在没有大量训练数据的情况下工作。