伦敦大学学院的研究人员推出三维重建方法Spann3R,它能够从有序或无序的图像集合中重建出密集的三维几何结构。这个方法的核心在于使用一个基于变换器(transformer)的架构,直接从图像中回归点图(pointmap),而不需要事先知道场景或相机参数。
- 项目主页:https://hengyiwang.github.io/projects/spanner
主要功能和特点:
- 无需优化对齐:Spann3R不需要基于优化的全局对齐过程,可以在推理时通过简单的前向传播实现三维重建。
- 实时在线重建:由于省去了耗时的优化步骤,Spann3R能够实现实时的在线重建,每秒可以处理超过50帧图像。
- 空间记忆管理:Spann3R引入了一个外部空间记忆(spatial memory),用于跟踪所有先前的相关三维信息,并预测下一帧的三维结构。
- 通用性:Spann3R在多种未见过的测试数据集上展示了良好的性能和泛化能力,包括室内场景、室外场景、物体级别和场景级别的重建。
工作原理:
- 特征编码:使用视觉变换器(ViT)编码输入图像,生成视觉特征。
- 记忆编码:利用轻量级变换器基的记忆编码器,将先前预测的点图和几何特征编码成记忆键(key)和记忆值(value)。
- 记忆查询:通过两个多层感知器(MLP)头,将几何特征从两个解码器投影到查询特征和记忆键,从而从记忆库中检索信息。
- 特征解码:将融合的特征输入到两个交织的解码器中,通过交叉注意力机制联合处理,生成目标点图和置信度。
具体应用场景:
- 自动驾驶:在自动驾驶领域,Spann3R可以用来实时重建周围环境的三维模型,帮助车辆进行导航和避障。
- 虚拟现实(VR):在VR应用中,Spann3R可以用于从用户拍摄的照片中重建三维场景,提供沉浸式体验。
- 机器人导航:机器人可以使用Spann3R来理解和重建其工作环境,以便更好地进行路径规划和交互。
- 医疗成像:在医疗成像领域,Spann3R可以帮助从CT或MRI扫描中重建出精确的三维人体结构。
总的来说,Spann3R通过其创新的空间记忆和变换器架构,提供了一种高效且准确的三维重建方法,能够在多种应用场景中发挥作用。
0条评论