当前位置：首页 > 优惠 >3D>文章详情

三维多模态问题回答技术City-3DQA：用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们所处的三维环境

推荐人：暴走AI| 商城: AI | 2年前 (2024-07-30)| 分类：3D | 热度：583 ℃

已关闭评论

三维多模态问题回答技术City-3DQA：用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们所处的三维环境

香港科技大学（广州）、浙江大学、广州大学、哈尔滨工业大学的研究人员推出一种新型的三维多模态问题回答（3D MQA）技术，用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们所处的三维环境，特别是城市级别的场景。论文还提到了他们的方法在不同设置下达到了63.94%和63.76%的准确率，并与现有的室内三维MQA方法和使用大语言模型（LLMs）的零样本方法进行了比较，显示出在鲁棒性和泛化性方面的最新性能。

项目主页：https://sites.google.com/view/city3dqa
GitHub：https://github.com/Chunmian-art/City-3DQA

例如，一个视障人士在城市中使用智能助手。他们可以通过提问来了解当前位置附近的建筑物用途、如何到达某个地方或者周围环境中的特定设施。例如，他们可以问：“我在哪里可以找到最近的地铁站？”智能助手通过分析城市场景的三维数据和语言问题，提供准确的答案和导航信息。

主要功能：

使智能代理能够理解城市环境中的各种对象和它们之间的空间关系。
通过问题回答的方式，提供关于城市场景的详细信息，例如建筑的用途、地点、相互之间的距离等。

主要特点：

三维场景理解：专注于城市级别的场景，包括室外环境和室内环境。
多模态数据：结合了点云数据、图像数据和语言数据，以提供丰富的场景描述。
场景图：使用场景图来表示场景中的实体及其空间关系，增强了对场景的语义理解。

工作原理：

数据集构建：创建了一个名为City-3DQA的新数据集，包含城市级别的实例分割、场景语义提取和问题-答案对构建。
方法论：提出了一种名为Sg-CityU（Scene graph enhanced City-level Understanding）的方法，利用场景图引入空间语义信息。
多模态编码器：使用点云和问题的语言表示来提取特征。
融合层：设计了融合层来整合不同输入的多模态特征。
答案生成：通过多层感知器（MLP）和图神经网络（GCN）来生成答案。