当前位置：首页 > 优惠 >AI音频>文章详情

开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

推荐人：暴走AI| 商城: AI | 9个月前 (08-04)| 分类：AI音频 | 热度：211 ℃

已关闭评论

开放词汇的视听语义分割OV-AVSS：在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过

新型视听语义分割任务，称为开放词汇的视听语义分割（Open-Vocabulary Audio-Visual Semantic Segmentation，简称OV-AVSS）。这项技术的目标是在视频中识别和分类发出声音的物体，即使这些物体的类别在训练数据中从未出现过。例如，你在观看一个包含多种乐器演奏的音乐会视频，即使训练数据中没有包含某些乐器的声音，OV-AVSS也能够识别出这些乐器，并将它们在视频中的每个像素进行标记和分类。这样，用户不仅可以知道乐器的存在，还能了解它们在视频中的确切位置。

GitHub：https://github.com/ruohaoguo/ovavss

主要功能： OV-AVSS的主要功能是能够在视频帧中分割出所有可能的发声物体，并且对它们进行分类，不论是在训练数据中见过的类别还是未见过的类别。

主要特点：

开放词汇学习：与以往只能在有限的、预定义的类别中工作的系统不同，OV-AVSS能够识别和分类新的、训练时未见过的声音和物体。
视听融合：系统结合了视觉和听觉信息，以更好地理解和感知物体。
零样本泛化能力：OV-AVSS利用大规模预训练的视觉-语言模型（如CLIP），即使在面对未见过的类别时也能表现出色。

工作原理：

声音源定位模块：首先使用一个通用的声音源定位模块来执行视听融合，定位所有可能的发声物体。
开放词汇分类模块：然后使用这个模块来预测类别，它借助于大规模预训练模型的先验知识来对发声物体进行分类。
多模态特征提取：系统分别从视觉和听觉轨道中提取特征，并通过早期融合模块在空间维度上对齐，然后通过音频条件的Transformer解码器在时间维度上建立帧与帧之间的关系。

具体应用场景：