当前位置：首页 > 优惠 >AI音频>文章详情

V-AURA：根据视频生成与之匹配的音频

推荐人：暴走AI| 商城: AI | 6个月前 (09-23)| 分类：AI音频 | 热度：239 ℃

已关闭评论

V-AURA：根据视频生成与之匹配的音频

AI

坦佩雷大学和牛津大学的研究人员推出V-AURA模型，它用于根据视频生成与之匹配的音频。简单来说，V-AURA能够观察一段视频，并生成与之对应的、听起来很自然的音频。比如，如果视频显示一个人在弹吉他，V-AURA可以生成吉他声音的音频。

项目主页：https://v-aura.notion.site
GitHub：https://github.com/ilpoviertola/V-AURA

主要功能：

视频到音频的生成：根据输入的视频序列合成音频。
时间对齐：确保生成的音频在时间上与视频事件紧密对齐。
语义相关性：生成的音频不仅要与视频时间上对齐，还要在语义上相关。

主要特点：

自回归模型：V-AURA采用了自回归方法，这意味着它能够一步接一步地预测接下来的音频内容。
高帧率视觉特征提取：它使用高帧率的视觉特征提取器，能够捕捉到视频中的细微视觉动态。
跨模态音频-视觉特征融合：将音频和视觉信息结合起来，以提高时间对齐的准确性。

工作原理：

视觉编码器：首先，模型使用视觉编码器从输入视频中提取视觉和动态特征。
时间上采样：然后，将提取的视觉特征在时间上上采样，以匹配音频的时间维度。
特征融合：将时间对齐的音频和视觉特征融合，以强调音频和视频在自然情况下的共生关系。
自回归生成：给定跨模态特征嵌入，自回归模型预测下一个音频标记。
解码成波形：一旦生成的音频序列达到所需长度，就将其解码成波形表示。

具体应用场景：

电影和视频制作：在后期制作中，为视频添加匹配的音频，比如为动作场景生成音效。
增强现实(AR)：在AR体验中，根据用户的视觉环境生成相应的音频，提高沉浸感。
自动字幕和配音：为视频自动生成描述性音频，帮助视障人士更好地理解视频内容。
游戏开发：在游戏中，根据玩家的视觉输入实时生成音频，比如模拟环境中的声音。

V-AURA通过在一个新的数据集VisualSound上训练，这个数据集筛选出了与音频高度相关的视频样本，从而提高了生成音频的相关性和时间对齐性。此外，该模型还引入了一个新的同步度量标准，用于评估生成音频与视频之间的时间对齐度。

V-AURA

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： NASA推出新型人工智能模型Prithvi WxC：为了天气预报和气候研究而设计

下一篇：赜深科技推出新技术V3：能够将体积视频（即三维视频）流式传输到移动设备上进行高质量渲染

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录