牛津大学视觉几何组的研究人员推出新技术SHIC,用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系。简单来说,这项技术可以自动识别图片中物体的每个像素点,并将其与3D模型中的相应点对应起来,而不需要人工去标记这些对应点。这项技术为自动理解图像内容、3D建模和动画制作等领域提供了强大的工具,使得从图像中自动提取结构化信息变得更加容易和准确。
例如,你是一名动物学家,想要研究不同动物的运动模式。使用SHIC,你可以上传一些动物的图片,这个系统会自动将图片中的动物身体部位与3D模型中的部位对应起来,从而帮助你分析动物的运动。这整个过程不需要你手动去标记图片中的每个部位,大大提高了研究的效率。
主要功能和特点:
- 无需人工标注:SHIC能够在没有人工标注的情况下学习图像与3D模板之间的密集关键点。
- 高数据效率:使用少量图像(例如,大象、T-Rex和Appa模型分别仅使用了2800、480和180张图像)就能训练出效果良好的模型。
- 优于监督学习方法:在多数类别上,SHIC的效果甚至超过了需要人工监督的学习方法。
工作原理:
- 利用基础计算机视觉模型:SHIC借助了如DINO和Stable Diffusion这样的基础模型,这些模型通过大量图像和视频训练,具有很好的自然类别先验。
- 图像到图像的对应预测:通过将物体的图像与3D模板的非真实感渲染图匹配,SHIC将图像到模板的对应问题转化为图像到图像的对应问题。
- 特征匹配:使用自监督学习的特征,通过比较图像像素和模板顶点的视觉相似性来建立对应关系。
具体应用场景:
- 动物姿态估计:在动物行为研究中,可以用于估计动物的姿态和行为。
- 3D重建:在3D建模和虚拟现实中,可以用于从2D图像重建3D对象。
- 图像和视频编辑:在娱乐和媒体制作中,可以用于图像和视频的编辑,例如将2D图像转换为3D模型。
0条评论