Stability AI之前推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。官方在昨天发布该模型的技术论文,由Stability A通过训练一个基于扩散变换器(diffusion-transformer)的生成模型,能够在长达4分45秒的时间范围内生成连贯的音乐。(相关:Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐)
主要功能:
- 长篇音乐生成:模型能够生成长达4分45秒的音乐作品,这在以往的音乐生成模型中是难以实现的。
- 文本条件控制:用户可以通过输入文本提示来引导音乐的风格、情感和结构,模型会根据这些提示生成相应的音乐。
主要特点:
- 高压缩率的自动编码器:模型使用了一个高度压缩的自动编码器,它能够在时间维度上大幅度降低数据量,同时保持音乐的感知质量。
- 扩散变换器:采用了一种基于变换器的架构,这种架构在处理长序列数据时非常有效,能够生成具有长期结构连贯性的音乐。
- 无需语义标记:与以往需要依赖语义标记来指导生成过程的模型不同,这个模型即使没有语义标记也能生成结构化的音乐。
工作原理:
- 自动编码器:首先将音乐波形压缩成较短的序列,这是通过一系列卷积块和残差网络层实现的。
- 文本-音频嵌入模型:使用基于CLAP的模型,将文本提示转换为可以用于音乐生成的条件信号。
- 扩散模型:在自动编码器的潜在空间中操作,通过扩散过程生成音乐,这个过程涉及到逐步添加噪声,然后训练模型去除噪声以重建原始音乐信号。
具体应用场景:
- 音乐制作:音乐制作人可以使用这个模型来生成新的音乐作品,或者作为创作灵感的来源。
- 电影和游戏配乐:在电影或游戏制作中,可以根据场景的文本描述自动生成匹配的音乐。
- 音乐教育:学生可以通过与模型的交互来学习音乐理论和作曲技巧。
- 艺术创作:艺术家可以利用这个模型来探索新的音乐风格和表达方式。
0条评论