用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程

分类:AI音频 | 热度:57 ℃

加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!,Presto!通过减少采样步骤和每个步骤的成本,来加速基于分数的扩散变换器(一种生成音乐的模型)的推理过程。例如,你是一名视频编辑,需要为一个描述冬日山景的视频添加背景音乐,使用Presto!可以快速生成一段既符合视频氛围又具有高质量音频特性的音乐。

主要功能

Presto!的主要功能是加快高质量音乐的生成速度。它能够将音乐生成的时间从可能的5-20秒大幅缩短,使得音乐生成更加迅速和高效。

主要特点

  1. 双管齐下:同时减少生成音乐所需的步骤数和每个步骤的计算成本。
  2. 新方法:提出了一种新的基于分布匹配的蒸馏方法,这是第一个用于文本到音乐生成(TTM)的基于生成对抗网络(GAN)的蒸馏方法。
  3. 改进的层蒸馏方法:提出了一种改进的层蒸馏方法,该方法在蒸馏过程中更好地保留了隐藏状态的方差。
  4. 无需额外训练:Presto!可以在不重新训练模型的情况下,直接应用于现有的预训练模型。

工作原理

Presto!的工作原理包括以下几个关键步骤:

  1. 分布匹配蒸馏(DMD):通过训练一个辅助的“假”分数模型来估计生成器分布的分数,然后将这个分布与真实音乐分布进行匹配,以此来训练生成器。
  2. 层蒸馏:在模型的层级上进行操作,通过选择性地“丢弃”一些内部层,减少每个采样步骤的计算成本。
  3. 结合层和步骤蒸馏:先进行层蒸馏,再进行步骤蒸馏,以此来提高整体的生成速度和质量。

具体应用场景

Presto!可以应用于多种需要快速高质量音乐生成的场景,例如:

  • 音乐制作:音乐家和制作人可以利用Presto!快速生成音乐草稿或伴奏。
  • 视频配乐:为视频自动生成符合情感和节奏的音乐。
  • 游戏开发:在游戏中为不同的场景和事件实时生成背景音乐。
  • 虚拟现实:为虚拟环境生成沉浸式的音乐和声音效果。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论