上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学(深圳)的研究人员推出新型文本到音频生成框架PicoAudio,它专注于提供精确的时间戳和频率可控性。简单来说,PicoAudio能够根据文本描述生成音频,并且能够精确控制音频中特定事件的发生时间和频率。
- 项目主页:https://picoaudio.github.io
- 论文:https://arxiv.org/abs/2407.02869
例如,你想制作一个关于农场的视频,需要在视频中准确地插入鸡鸣声、牛叫声和狗吠声,并且每种声音都有特定的出现时间和次数。使用PicoAudio,你只需要提供文本描述,比如“公鸡在早上6点打鸣一次,牛在7点到8点之间叫两次,狗在8点到9点之间叫三次”,PicoAudio就能够生成符合这些要求的音频。
主要功能和特点:
- 时间可控性:PicoAudio能够根据文本指令,精确控制音频中声音事件的时间位置,比如“狗叫声在2到3秒之间响起”。
- 频率可控性:它还能够控制声音事件的发生次数,例如“狗叫声在2.7到4.7秒之间响起两次”。
- 数据模拟:PicoAudio通过从互联网上爬取数据,然后进行分割、过滤和模拟合成,来创建具有时间对齐注释的高质量音频-文本数据集。
- 模型设计:它利用大型语言模型(LLM)来增强音频生成模型对时间信息的感知,并转换文本中的时间戳信息为模型可以理解的格式。
工作原理: PicoAudio的工作流程包括以下几个步骤:
- 数据爬取与处理:从互联网上爬取音频片段,然后通过文本到音频定位模型进行分割,确保每个片段包含单一声音事件。
- 数据模拟:从数据库中随机选择事件并合成音频,同时记录发生的时间和持续时间,生成具有时间戳和频率注释的音频-文本对。
- 文本处理:使用LLM将文本描述转换为时间戳矩阵,这个矩阵能够指导扩散模型生成音频。
- 音频表示:使用变分自编码器(VAE)将音频频谱图压缩成潜在表示,然后通过扩散模型基于时间戳矩阵和事件嵌入预测潜在表示。
- 音频生成:扩散模型根据预测的潜在表示生成音频,并通过声码器将频谱图转换回波形。
具体应用场景:
- 内容创作:在视频制作或游戏开发中,根据脚本生成背景音乐或特定音效。
- 音频编辑:根据文本指令对音频进行编辑,比如调整某个声音事件发生的时间或频率。
- 语言学习:生成特定语言的音频,帮助学习者练习听力和发音。
0条评论