阳明交通大学的研究人员推出Depth Anywhere,提高360度全景图像的深度估计的准确性。深度估计是一种计算机视觉技术,它可以帮助计算机理解图像中物体的远近关系,这对于虚拟现实、自动驾驶导航和沉浸式媒体应用等领域非常重要。此方法在一些基准数据集上进行了测试,显示出在零样本(zero-shot)情况下,也就是模型在一个数据集上训练后直接在另一个数据集上测试,深度估计的准确性有显著提升。这表明了他们的方法不仅在训练数据上表现良好,而且具有很好的泛化能力。
- 项目主页:https://albert100121.github.io/Depth-Anywhere/
- Demo:https://huggingface.co/spaces/Albert-NHWang/Depth-Anywhere-App
例如,你有一个球形的相机,它可以拍摄到周围360度的全景照片。但是,当你想用电脑来分析这张照片,了解照片中各个物体离相机有多远时,就会遇到一些问题。因为这种全景照片和我们平时看到的普通照片不一样,它们有特殊的投影方式,这使得用普通的方法来估计深度变得非常困难。
主要功能:
这篇论文提出了一个新的框架,可以有效地利用未标记的360度全景数据来提高深度估计的准确性。
主要特点:
- 视角蒸馏技术:使用现有的透视图深度估计模型作为“老师”,通过一种特殊的六面体投影技术,为未标记的360度图像生成伪标签。
- 数据增强:通过随机旋转等方法,增强数据的多样性,提高模型对不同视角的适应能力。
- 半监督联合训练:结合标记数据和伪标签数据进行训练,提高了模型的鲁棒性。
工作原理:
- 离线阶段:使用检测和分割模型生成遮罩,来识别和忽略图像中无效的区域,比如天空和水印。
- 在线阶段:在训练过程中,将一批数据的一半用标记数据,另一半用伪标签数据,通过联合训练来提升模型性能。
具体应用场景:
- 虚拟现实:在虚拟现实环境中,准确的深度估计可以提供更加真实的体验。
- 自动驾驶:自动驾驶汽车需要准确判断周围物体的距离,以做出安全驾驶决策。
- 沉浸式媒体:在制作沉浸式视频或游戏时,准确的深度信息可以增强观众的沉浸感。
0条评论