约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech,它专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计,以实现稳定、安全和强大的性能。简单来说,SSR-Speech 能够根据文本指令修改或合成语音,而不需要在训练期间听到特定的说话者样本。
- GitHub:https://github.com/WangHelin1997/SSR-Speech
- 模型地址:https://huggingface.co/westbrook/SSR-Speech-Mandarin(中文)、https://huggingface.co/westbrook/SSR-Speech-English(英文)
例如,你正在制作一个有声读物,需要将文本转换为语音。使用 SSR-Speech,你只需提供文本,模型就能生成听起来自然且与文本匹配的语音。如果你需要修改某个特定单词的发音,SSR-Speech 也能做到这一点,而无需重新录制整个句子。此外,如果你需要在有背景噪音的录音中编辑语音,SSR-Speech 也能保持语音的清晰度和自然度。
主要功能和特点
- 稳定性:SSR-Speech 通过使用无分类器的引导(classifier-free guidance)来增强生成过程的稳定性,避免了在生成过程中出现长时间静音或抓痕声,从而产生不自然的声音。
- 安全性:引入了一种水印编码(watermark Encodec)模型,可以在编辑的语音区域嵌入帧级水印,使得可以检测出哪些部分被编辑过。
- 鲁棒性:SSR-Speech 对多跨度编辑和背景噪音表现出了显著的鲁棒性,能够在保持原始未编辑语音段的同时,提供比传统模型更好的恢复效果。
- 零样本能力:在未见过的说话者样本上也能进行有效的语音编辑和合成,这意味着它可以在没有大量训练数据的情况下工作。
工作原理
SSR-Speech 模型使用一个因果 Transformer 解码器,它接受文本标记和音频神经编解码标记作为输入,并预测被掩盖的音频标记。在训练过程中,模型会随机掩盖音频中的一些部分,并使用特殊的标记来表示这些掩盖区域。模型的目标是根据文本和未掩盖的音频标记来预测这些掩盖的音频标记。
在推理过程中,SSR-Speech 会比较原始和目标文本,以确定需要修改的单词或短语。然后,模型会使用目标文本的音素标记和未掩盖的音频标记来自回归地预测新的音频标记。
具体应用场景
- 语音编辑:在电影或播客制作中,SSR-Speech 可以用来修改特定单词或短语的发音,而不需要重新录制整个对话。
- 文本到语音合成:SSR-Speech 可以根据给定的文本脚本生成完整的语音,适用于有声读物、导航系统和虚拟助手。
- 多语言支持:由于其零样本能力,SSR-Speech 可以用于多种语言的语音生成,有助于跨语言内容的创建和本地化。
0条评论