特拉维夫大学和芝加哥大学的研究人员推出HaLo-NeRF系统,它是一个用于理解和探索大规模地标性建筑照片集合的先进方法。这个系统能够将文本描述与场景中的语义区域联系起来,从而允许用户在三维空间中定位和探索特定的建筑特征。例如,你是一名对巴黎圣母院感兴趣的历史学生。你可以使用HaLo-NeRF系统,上传圣母院的照片集合,并给出文本提示,比如“玫瑰窗”。系统将分析这些照片,并在三维空间中定位出玫瑰窗的位置。这样,你不仅能够在屏幕上看到玫瑰窗的照片,还能从不同的角度和光照条件下虚拟地探索它,就像有一个私人导游一样。
主要功能:
- 语义定位:HaLo-NeRF可以识别和定位照片中的特定建筑元素,如教堂的玫瑰窗或清真寺的尖塔。
- 三维探索:该系统不仅能够在二维图像中识别语义区域,还能将这些区域提升到三维空间中,为用户提供了一个全新的探索大型建筑和地标的方式。
主要特点:
- 利用互联网图像和文本数据:HaLo-NeRF通过分析大量互联网上的图片和相关的文本元数据来学习语义概念。
- 适应性:系统能够适应并理解特定领域的术语,如建筑学中的专业词汇。
- 交互性:用户可以通过文本提示与系统交互,探索特定的建筑特征。
工作原理:
- 语义伪标签生成:使用大型语言模型(LLM)从图像的文本元数据中提取语义伪标签。
- 视觉-语言模型的语义适应:通过微调现有的视觉-语言(V&L)模型,使其能够理解与建筑场景相关的语义概念。
- 三维定位:将微调后的二维分割模型的输出用作神经辐射场(NeRF)的监督信号,以此来学习场景的三维语义表示。
具体应用场景:
- 虚拟旅游:用户可以在家中通过虚拟方式探索世界各地的著名建筑和地标。
- 教育和研究:学生和研究人员可以利用这个系统来更好地理解建筑历史和文化背景。
- 建筑分析:建筑师和设计师可以利用这个系统来分析和理解现有建筑的详细结构。
0条评论