AI音频
优惠 新型音频编解码器SemantiCodec:能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息
8个月前 (05-02)AI
来自萨里大学和上海交通大学的研究人员推出新型音频编解码器SemantiCodec,它能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息。这种编解码器特别适合于需要在保持音频质量的同时减少数据大小的场景,例如在带宽有限的网络环境中传输音频或者在存储空间受限的设备上存储音频。 实验结果显示,SemantiCo... 阅读全文
优惠 新型零样本(Zero-Shot)语音合成系统FlashSpeech
标签:FlashSpeech
AI
8个月前 (04-24)AI
来自香港科技大学、MSRA、萨里大学、内蒙古大学、北京邮电大学和新加坡国立大学的研究人员推出新型零样本(Zero-Shot)语音合成系统FlashSpeech,零样本语音合成是指在没有特定说话人数据训练的情况下,能够模仿该说话人的声音来生成语音的技术。这项技术可以应用于多种场景,比如为电影角色配音、创建个性化的虚拟助手... 阅读全文
优惠 轻量级的文本到语音(TTS)模型Parler-TTS,能够生成具有特定说话者风格(性别、音高、说话方式等)的高质量、自然听起来的语音
标签:Parler-TTS
AI
8个月前 (04-21)AI
Parler-TTS 是一个轻量级的文本到语音(TTS)模型,能够生成具有特定说话者风格(性别、音高、说话方式等)的高质量、自然听起来的语音。这个模型是 Stability AI 和爱丁堡大学 Dan Lyth 和 Simon King 两位作者在论文 "Natural language guidance of hig... 阅读全文
优惠 Stability AI发布Stable Audio 2.0技术论文
8个月前 (04-18)AI
Stability AI之前推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。官方在昨天发布该模型的技术论文,由Stability A通过训练一个基于扩散变换器(diffusion... 阅读全文
优惠 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成
标签:VOICECRAFT
AI
9个月前 (04-03)AI
来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT,它能够在不需要任何额外文本的情况下,对语音进行编辑和合成,这被称为零样本文本到语音(TTS)任务。想象一下,你有一段录音,想要改变里面的某些词语或者语调,而不需要重新录制整个句子,VOICECRAFT就能够做到这一点。同样,... 阅读全文
优惠 Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐
9个月前 (04-03)AI
Stability AI在今天推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。目前免费用户可生成10首歌曲,不过从听感来说,生成的歌曲并不如Suno的好听,Stable Audi... 阅读全文