新型文本到音频生成框架PicoAudio:专注于提供精确的时间戳和频率可控性

分类:AI音频 | 热度:61 ℃

上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学(深圳)的研究人员推出新型文本到音频生成框架PicoAudio,它专注于提供精确的时间戳和频率可控性。简单来说,PicoAudio能够根据文本描述生成音频,并且能够精确控制音频中特定事件的发生时间和频率。

  • 项目主页:https://picoaudio.github.io
  • 论文:https://arxiv.org/abs/2407.02869

例如,你想制作一个关于农场的视频,需要在视频中准确地插入鸡鸣声、牛叫声和狗吠声,并且每种声音都有特定的出现时间和次数。使用PicoAudio,你只需要提供文本描述,比如“公鸡在早上6点打鸣一次,牛在7点到8点之间叫两次,狗在8点到9点之间叫三次”,PicoAudio就能够生成符合这些要求的音频。

主要功能和特点:

  1. 时间可控性:PicoAudio能够根据文本指令,精确控制音频中声音事件的时间位置,比如“狗叫声在2到3秒之间响起”。
  2. 频率可控性:它还能够控制声音事件的发生次数,例如“狗叫声在2.7到4.7秒之间响起两次”。
  3. 数据模拟:PicoAudio通过从互联网上爬取数据,然后进行分割、过滤和模拟合成,来创建具有时间对齐注释的高质量音频-文本数据集。
  4. 模型设计:它利用大型语言模型(LLM)来增强音频生成模型对时间信息的感知,并转换文本中的时间戳信息为模型可以理解的格式。

工作原理: PicoAudio的工作流程包括以下几个步骤:

  • 数据爬取与处理:从互联网上爬取音频片段,然后通过文本到音频定位模型进行分割,确保每个片段包含单一声音事件。
  • 数据模拟:从数据库中随机选择事件并合成音频,同时记录发生的时间和持续时间,生成具有时间戳和频率注释的音频-文本对。
  • 文本处理:使用LLM将文本描述转换为时间戳矩阵,这个矩阵能够指导扩散模型生成音频。
  • 音频表示:使用变分自编码器(VAE)将音频频谱图压缩成潜在表示,然后通过扩散模型基于时间戳矩阵和事件嵌入预测潜在表示。
  • 音频生成:扩散模型根据预测的潜在表示生成音频,并通过声码器将频谱图转换回波形。

具体应用场景:

  1. 内容创作:在视频制作或游戏开发中,根据脚本生成背景音乐或特定音效。
  2. 音频编辑:根据文本指令对音频进行编辑,比如调整某个声音事件发生的时间或频率。
  3. 语言学习:生成特定语言的音频,帮助学习者练习听力和发音。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论