三维多模态问题回答技术City-3DQA:用于城市场景理解。这项技术能够帮助智能代理(如自动驾驶汽车、智能助手等)更好地理解它们所处的三维环境

分类:3D | 热度:79 ℃

香港科技大学(广州)、浙江大学、广州大学、哈尔滨工业大学的研究人员推出一种新型的三维多模态问题回答(3D MQA)技术,用于城市场景理解。这项技术能够帮助智能代理(如自动驾驶汽车、智能助手等)更好地理解它们所处的三维环境,特别是城市级别的场景。论文还提到了他们的方法在不同设置下达到了63.94%和63.76%的准确率,并与现有的室内三维MQA方法和使用大语言模型(LLMs)的零样本方法进行了比较,显示出在鲁棒性和泛化性方面的最新性能。

  • 项目主页:https://sites.google.com/view/city3dqa
  • GitHub:https://github.com/Chunmian-art/City-3DQA

例如,一个视障人士在城市中使用智能助手。他们可以通过提问来了解当前位置附近的建筑物用途、如何到达某个地方或者周围环境中的特定设施。例如,他们可以问:“我在哪里可以找到最近的地铁站?”智能助手通过分析城市场景的三维数据和语言问题,提供准确的答案和导航信息。

主要功能:

  • 使智能代理能够理解城市环境中的各种对象和它们之间的空间关系。
  • 通过问题回答的方式,提供关于城市场景的详细信息,例如建筑的用途、地点、相互之间的距离等。

主要特点:

  • 三维场景理解:专注于城市级别的场景,包括室外环境和室内环境。
  • 多模态数据:结合了点云数据、图像数据和语言数据,以提供丰富的场景描述。
  • 场景图:使用场景图来表示场景中的实体及其空间关系,增强了对场景的语义理解。

工作原理:

  1. 数据集构建:创建了一个名为City-3DQA的新数据集,包含城市级别的实例分割、场景语义提取和问题-答案对构建。
  2. 方法论:提出了一种名为Sg-CityU(Scene graph enhanced City-level Understanding)的方法,利用场景图引入空间语义信息。
  3. 多模态编码器:使用点云和问题的语言表示来提取特征。
  4. 融合层:设计了融合层来整合不同输入的多模态特征。
  5. 答案生成:通过多层感知器(MLP)和图神经网络(GCN)来生成答案。

具体应用场景:

  • 智能导航:帮助自动驾驶汽车理解城市环境中的路标、建筑和交通信号。
  • 城市环境交互:使穿戴智能眼镜的用户能够通过提问来获取周围环境的辅助信息。
  • 城市规划和管理:通过理解城市场景中的对象和关系,辅助规划者进行决策。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论