当前位置：首页 > 优惠 >AI音频>文章详情

StabilityAI发布全新开源模型Stable Audio Open的技术报告

推荐人：暴走AI| 商城: AI | 9个月前 (07-22)| 分类：AI音频 | 热度：207 ℃

已关闭评论

StabilityAI发布全新开源模型Stable Audio Open的技术报告

AI

StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后，终于在本月公开了技术报告，Stable Audio Open的特别之处在于，它是开放的，意味着任何人都可以使用和研究它，而且它是用Creative Commons（创意共享）许可的音频数据训练的，这保证了数据的合法性和透明性。

项目主页：https://stability-ai.github.io/stable-audio-open-demo
模型地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

报告提到了模型的一些限制，比如在生成包含连接词或需要生成可理解的语音时可能会有困难。例如，如果文本提示是“一个人在说话，同时一群人在笑和鼓掌”，模型可能只能生成一个人说话的声音，而不会包括笑声或掌声。此外，论文还强调了模型的评估和数据透明度，展示了模型在不同硬件上的推理速度，证明了它可以在消费级GPU上运行，使其对学术和艺术用例都很有吸引力。（相关：StabilityAI推出全新开源模型Stable Audio Open：能够生成长达 47 秒的音频样本和音效）

主要功能：

将文本描述转换成音频输出，可以是各种声音效果或者是音乐。

主要特点：

开放性：模型权重和代码是公开的，便于研究和艺术创作。
高质量音频生成：能够生成44.1kHz立体声的高质量音频。
使用Creative Commons许可的音频数据：确保了数据的合法使用和透明度。

工作原理：

Stable Audio Open模型由三部分组成：

自动编码器：将原始音频波形压缩成可管理的序列长度。
文本嵌入：基于T5模型，用于文本条件的处理。
基于扩散的变换器（DiT）：在自动编码器的潜在空间中操作，用于生成音频。

模型通过训练学习如何根据文本提示生成相应的音频。例如，如果输入的文本是“森林中的鸟鸣声”，模型就会生成类似鸟鸣的音频。

具体应用场景：

声音效果生成：为视频、游戏或虚拟现实体验生成环境声音。
音乐创作：根据文本描述创作音乐，例如“浪漫钢琴曲”。
艺术项目：艺术家可以使用这个模型探索文本和声音之间的关系。

StabilityAI Stable Audio Open

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：快手推出新型高效视觉-语言模型EVLM

下一篇：新型视觉文档理解方法VisFocus：无需OCR技术，能够直接从图像中理解文档内容

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录