大规模数据集“SG3D”:为了推动三维场景中任务导向的顺序定位任务的研究而创建

分类:3D | 热度:37 ℃

北京通用人工智能研究院 (BIGAI) 、清华大学和北京理工大学的研究人员推出大规模数据集“SG3D”(Sequential Grounding in 3D Scenes),它是为了推动三维场景中任务导向的顺序定位(task-oriented sequential grounding)任务的研究而创建的。这项任务涉及到一个智能体(比如机器人或者虚拟助手)需要根据一系列详细的步骤指令,在室内场景中完成日常活动,过程中要识别一系列目标对象。

  • 项目主页:https://sg-3d.github.io
  • GitHub:https://github.com/sg-3d/sg3d
  • Demo:https://huggingface.co/spaces/li-qing/SG3D-Demo

例如,你有一个智能机器人助手,你给它一个任务:“在睡前阅读一本书”。这个任务听起来很简单,但实际上包含了很多步骤:走到梳妆台旁的一堆书中,拿起一本书;走到地板上的床垫上坐下;打开台灯提供照明;打开书开始阅读。每一个步骤都需要机器人理解并识别场景中的特定对象,比如“书”、“床垫”、“台灯”,并执行相应的动作。

主要功能:

  • 任务导向的顺序定位:智能体根据一系列步骤指令,在三维场景中识别和操作目标对象。
  • 数据集构建:提供了大量的室内场景和相应的任务,用于训练和评估智能体。

主要特点:

  • 大规模数据集:SG3D包含了22,346个任务,覆盖了112,236个步骤,分布在4,895个真实世界的三维场景中。
  • 真实世界场景:使用RGB-D扫描和自动化任务生成管道,结合人工验证,确保数据集的质量。
  • 任务多样性:数据集中的任务覆盖了多种日常活动,如制作咖啡、看电视等。

工作原理:

  1. 场景表示:使用3D场景图(scene graphs)来表示室内场景,这些图描述了场景中对象的类别、属性和空间关系。
  2. 任务生成:利用GPT-4这样的大型语言模型,根据3D场景图生成多样化的任务。
  3. 人工验证:通过人工验证过程确保生成的任务适合场景,计划足够完成任务,并且每个步骤的目标对象都被正确识别。
  4. 模型评估:将现有的3D视觉定位模型适应到顺序定位任务中,并在SG3D数据集上评估它们的性能。

具体应用场景:

  • 家庭自动化:在智能家居环境中,机器人可以根据用户的指令完成复杂的任务,如准备晚餐或整理房间。
  • 辅助技术:对于行动不便的人士,智能助手可以协助完成日常生活中的许多任务。
  • 游戏开发:在虚拟现实或增强现实游戏中,玩家可以与环境互动,执行任务和解决谜题。

论文还讨论了SG3D数据集的局限性,比如当前的数据集不能直接转移到模拟平台上用于机器人操控,以及评估模型的性能还不足以支持可靠的现实世界部署。未来的研究可能会探索集成更先进的技术,如思维链推理、反思机制和2D视觉基础模型,以提高性能。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论