StabilityAI发布全新开源模型Stable Audio Open的技术报告

分类:AI音频 | 热度:37 ℃

StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后,终于在本月公开了技术报告,Stable Audio Open的特别之处在于,它是开放的,意味着任何人都可以使用和研究它,而且它是用Creative Commons(创意共享)许可的音频数据训练的,这保证了数据的合法性和透明性。

  • 项目主页:https://stability-ai.github.io/stable-audio-open-demo
  • 模型地址:https://huggingface.co/stabilityai/stable-audio-open-1.0

报告提到了模型的一些限制,比如在生成包含连接词或需要生成可理解的语音时可能会有困难。例如,如果文本提示是“一个人在说话,同时一群人在笑和鼓掌”,模型可能只能生成一个人说话的声音,而不会包括笑声或掌声。此外,论文还强调了模型的评估和数据透明度,展示了模型在不同硬件上的推理速度,证明了它可以在消费级GPU上运行,使其对学术和艺术用例都很有吸引力。(相关:StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效

主要功能:

  • 将文本描述转换成音频输出,可以是各种声音效果或者是音乐。

主要特点:

  1. 开放性:模型权重和代码是公开的,便于研究和艺术创作。
  2. 高质量音频生成:能够生成44.1kHz立体声的高质量音频。
  3. 使用Creative Commons许可的音频数据:确保了数据的合法使用和透明度。

工作原理:

Stable Audio Open模型由三部分组成:

  1. 自动编码器:将原始音频波形压缩成可管理的序列长度。
  2. 文本嵌入:基于T5模型,用于文本条件的处理。
  3. 基于扩散的变换器(DiT):在自动编码器的潜在空间中操作,用于生成音频。

模型通过训练学习如何根据文本提示生成相应的音频。例如,如果输入的文本是“森林中的鸟鸣声”,模型就会生成类似鸟鸣的音频。

具体应用场景:

  1. 声音效果生成:为视频、游戏或虚拟现实体验生成环境声音。
  2. 音乐创作:根据文本描述创作音乐,例如“浪漫钢琴曲”。
  3. 艺术项目:艺术家可以使用这个模型探索文本和声音之间的关系。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论