加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!,Presto!通过减少采样步骤和每个步骤的成本,来加速基于分数的扩散变换器(一种生成音乐的模型)的推理过程。例如,你是一名视频编辑,需要为一个描述冬日山景的视频添加背景音乐,使用Presto!可以快速生成一段既符合视频氛围又具有高质量音频特性的音乐。
主要功能
Presto!的主要功能是加快高质量音乐的生成速度。它能够将音乐生成的时间从可能的5-20秒大幅缩短,使得音乐生成更加迅速和高效。
主要特点
- 双管齐下:同时减少生成音乐所需的步骤数和每个步骤的计算成本。
- 新方法:提出了一种新的基于分布匹配的蒸馏方法,这是第一个用于文本到音乐生成(TTM)的基于生成对抗网络(GAN)的蒸馏方法。
- 改进的层蒸馏方法:提出了一种改进的层蒸馏方法,该方法在蒸馏过程中更好地保留了隐藏状态的方差。
- 无需额外训练:Presto!可以在不重新训练模型的情况下,直接应用于现有的预训练模型。
工作原理
Presto!的工作原理包括以下几个关键步骤:
- 分布匹配蒸馏(DMD):通过训练一个辅助的“假”分数模型来估计生成器分布的分数,然后将这个分布与真实音乐分布进行匹配,以此来训练生成器。
- 层蒸馏:在模型的层级上进行操作,通过选择性地“丢弃”一些内部层,减少每个采样步骤的计算成本。
- 结合层和步骤蒸馏:先进行层蒸馏,再进行步骤蒸馏,以此来提高整体的生成速度和质量。
具体应用场景
Presto!可以应用于多种需要快速高质量音乐生成的场景,例如:
- 音乐制作:音乐家和制作人可以利用Presto!快速生成音乐草稿或伴奏。
- 视频配乐:为视频自动生成符合情感和节奏的音乐。
- 游戏开发:在游戏中为不同的场景和事件实时生成背景音乐。
- 虚拟现实:为虚拟环境生成沉浸式的音乐和声音效果。
0条评论