开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过

分类:AI音频 | 热度:127 ℃

新型视听语义分割任务,称为开放词汇的视听语义分割(Open-Vocabulary Audio-Visual Semantic Segmentation,简称OV-AVSS)。这项技术的目标是在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过。例如,你在观看一个包含多种乐器演奏的音乐会视频,即使训练数据中没有包含某些乐器的声音,OV-AVSS也能够识别出这些乐器,并将它们在视频中的每个像素进行标记和分类。这样,用户不仅可以知道乐器的存在,还能了解它们在视频中的确切位置。

  • GitHub:https://github.com/ruohaoguo/ovavss

主要功能: OV-AVSS的主要功能是能够在视频帧中分割出所有可能的发声物体,并且对它们进行分类,不论是在训练数据中见过的类别还是未见过的类别。

主要特点:

  1. 开放词汇学习:与以往只能在有限的、预定义的类别中工作的系统不同,OV-AVSS能够识别和分类新的、训练时未见过的声音和物体。
  2. 视听融合:系统结合了视觉和听觉信息,以更好地理解和感知物体。
  3. 零样本泛化能力:OV-AVSS利用大规模预训练的视觉-语言模型(如CLIP),即使在面对未见过的类别时也能表现出色。

工作原理:

  1. 声音源定位模块:首先使用一个通用的声音源定位模块来执行视听融合,定位所有可能的发声物体。
  2. 开放词汇分类模块:然后使用这个模块来预测类别,它借助于大规模预训练模型的先验知识来对发声物体进行分类。
  3. 多模态特征提取:系统分别从视觉和听觉轨道中提取特征,并通过早期融合模块在空间维度上对齐,然后通过音频条件的Transformer解码器在时间维度上建立帧与帧之间的关系。

具体应用场景:

  1. 视频内容理解:在自动视频内容分析中,OV-AVSS可以帮助识别和分类视频中的物体,无论它们是否在训练数据中出现过。
  2. 智能监控:在安全监控领域,该技术可以用来实时检测和识别环境中的异常声音源,比如警报声或破碎声。
  3. 辅助听力应用:对于有听力障碍的人来说,OV-AVSS可以在观看视频时提供物体声音的文本描述,增强他们的观看体验。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论