中国科学院自动化研究所和美团点评的研究人员推出视频生成音频系统Draw an Audio,这个系统能够根据视频内容自动生成与之匹配的声音效果,这在电影制作中被称为“Foley”艺术。例如,你给这个系统一段没有声音的视频,比如一个人在雪地上走路,系统就能自动为这段视频生成脚步声。
- 项目主页:https://yannqi.github.io/Draw-an-Audio
主要功能:
- 内容一致性:确保生成的声音与视频内容相匹配,比如视频中出现狗,那么生成的声音就应该是狗叫声。
- 时间一致性:生成的声音要与视频中的动作同步,比如视频中的球落地时,生成的声音也应该在那一刻响起。
- 响度一致性:生成的声音大小要与视频内容相匹配,比如视频中大象走近时,脚步声应该逐渐变大。
主要特点:
- 多指令输入:系统可以接受多种输入指令,包括视频、文本、绘制的视频遮罩和绘制的响度信号。
- 遮罩注意力模块(MAM):通过使用遮罩视频指令,模型可以集中关注视频的重点区域。
- 时间-响度模块(TLM):使用辅助的响度信号来确保生成的声音在响度和时间维度上与视频对齐。
工作原理:
- 视频编码:系统首先分析输入的视频,理解其内容和场景。
- 遮罩和响度处理:如果有提供,系统会使用遮罩来关注视频的特定区域,并根据响度信号调整声音的大小。
- 声音生成:系统使用潜在扩散模型(LDM)来生成与视频内容、时间和响度一致的声音。
- 多阶段合成:系统可以在多个阶段合成声音,提供更实用的应用。
具体应用场景:
- 电影和视频制作:自动为视频添加声音效果,提高后期制作的效率。
- 游戏开发:为游戏中的动画生成匹配的声音,增强玩家的沉浸感。
- 虚拟现实:为虚拟环境中的事件生成逼真的声音,提升用户体验。
- 教育和培训:为教学视频生成解释性的声音,帮助学生更好地理解内容。
总的来说,“Draw an Audio”系统像一个虚拟的声音设计师,能够根据视频内容自动创作出合适的声音效果,大大节省了人工制作Foley声音的时间和精力。
0条评论