阿姆斯特丹大学、 荷兰应用科学研究组织和奥地利科学技术研究所的研究人员推出新技术NeCo(Patch Neighbor Consistency),用于改善预训练模型的空间表示能力,特别是在自监督学习环境中。NeCo通过对学生和教师模型之间的补丁级最近邻一致性进行排序,增强了模型对图像中各个部分特征的理解和表达。
- 论文:https://arxiv.org/abs/2408.11054
例如,我们有一个图像,里面有一只猫和一只狗。使用NeCo训练的模型能够更准确地识别图像中猫和狗的不同部位,比如猫的耳朵和狗的尾巴,并将这些部位的特征清晰地区分开来。这样,当我们在进行图像分割或者对象识别的任务时,模型就能够提供更精确的结果。
主要功能:
- NeCo通过一种新颖的自监督学习信号,即补丁间的邻近性,来提升模型对图像中每个像素或补丁的表示能力。
- 它通过排序补丁表示来实现学生模型和教师模型之间的一致性,从而提高模型的表征质量。
主要特点:
- 自监督学习:NeCo不需要外部标注数据,而是利用模型内部的信息来进行学习。
- 快速高效:只需19小时的单GPU训练时间,就能显著提升模型性能。
- 通用性:NeCo可以应用于多种不同的模型和数据集,提升它们的表现。
工作原理:
- 数据增强:对输入图像应用不同的变换,创建不同视图。
- 特征提取和对齐:使用Vision Transformer作为骨干网络,提取图像的密集特征,并通过ROI Align对特征进行空间对齐。
- 成对距离计算:计算对齐特征与参考批次特征之间的成对距离。
- 可微排序:使用可微排序算法对距离进行排序,确保学生和教师模型在不同视图下保持最近邻的一致性。
- 训练损失:通过交叉熵损失强制最近邻的顺序一致性。
具体应用场景:
- 语义分割:在ADE20k和Pascal VOC等数据集上,NeCo能够显著提高非参数化的语义分割性能。
- 对象中心表示学习:通过学习与对象相关的特征,NeCo可以用于对象跟踪和检测等任务。
- 图像理解:NeCo能够提升模型对图像内容的理解,适用于需要图像分析的各种应用,如图像检索、场景理解等。
0条评论