北京通用人工智能研究院 (BIGAI) 、清华大学和北京理工大学的研究人员推出大规模数据集“SG3D”(Sequential Grounding in 3D Scenes),它是为了推动三维场景中任务导向的顺序定位(task-oriented sequential grounding)任务的研究而创建的。这项任务涉及到一个智能体(比如机器人或者虚拟助手)需要根据一系列详细的步骤指令,在室内场景中完成日常活动,过程中要识别一系列目标对象。
- 项目主页:https://sg-3d.github.io
- GitHub:https://github.com/sg-3d/sg3d
- Demo:https://huggingface.co/spaces/li-qing/SG3D-Demo
例如,你有一个智能机器人助手,你给它一个任务:“在睡前阅读一本书”。这个任务听起来很简单,但实际上包含了很多步骤:走到梳妆台旁的一堆书中,拿起一本书;走到地板上的床垫上坐下;打开台灯提供照明;打开书开始阅读。每一个步骤都需要机器人理解并识别场景中的特定对象,比如“书”、“床垫”、“台灯”,并执行相应的动作。
主要功能:
- 任务导向的顺序定位:智能体根据一系列步骤指令,在三维场景中识别和操作目标对象。
- 数据集构建:提供了大量的室内场景和相应的任务,用于训练和评估智能体。
主要特点:
- 大规模数据集:SG3D包含了22,346个任务,覆盖了112,236个步骤,分布在4,895个真实世界的三维场景中。
- 真实世界场景:使用RGB-D扫描和自动化任务生成管道,结合人工验证,确保数据集的质量。
- 任务多样性:数据集中的任务覆盖了多种日常活动,如制作咖啡、看电视等。
工作原理:
- 场景表示:使用3D场景图(scene graphs)来表示室内场景,这些图描述了场景中对象的类别、属性和空间关系。
- 任务生成:利用GPT-4这样的大型语言模型,根据3D场景图生成多样化的任务。
- 人工验证:通过人工验证过程确保生成的任务适合场景,计划足够完成任务,并且每个步骤的目标对象都被正确识别。
- 模型评估:将现有的3D视觉定位模型适应到顺序定位任务中,并在SG3D数据集上评估它们的性能。
具体应用场景:
- 家庭自动化:在智能家居环境中,机器人可以根据用户的指令完成复杂的任务,如准备晚餐或整理房间。
- 辅助技术:对于行动不便的人士,智能助手可以协助完成日常生活中的许多任务。
- 游戏开发:在虚拟现实或增强现实游戏中,玩家可以与环境互动,执行任务和解决谜题。
论文还讨论了SG3D数据集的局限性,比如当前的数据集不能直接转移到模拟平台上用于机器人操控,以及评估模型的性能还不足以支持可靠的现实世界部署。未来的研究可能会探索集成更先进的技术,如思维链推理、反思机制和2D视觉基础模型,以提高性能。
0条评论