密歇根大学和 纽约大学的研究人员推出大规模数据集3D-GRAND,它是为了提升三维语言模型(3D-LLMs)的理解和减少幻觉(hallucination,即模型错误地生成不存在的对象或信息)而设计的。例如,你有一个智能助手,它能够理解你关于房间中物品的描述,并据此回答问题或执行任务,但如果没有足够的信息,它可能会“想象”出一些实际上并不存在的东西。3D-GRAND数据集和相应的3D-POPE评估基准就是用来帮助解决这个问题的。
- 项目主页:https://3d-grand.github.io
- GitHub:https://github.com/sled-group/3D-GRAND
- Demo:https://huggingface.co/spaces/jedyang97/3D-GRAND
主要功能:
- 提高3D语言模型的地面关联能力:通过在3D环境中密集地关联语言和场景,提高模型对实际物体的识别和理解能力。
- 减少幻觉:训练模型以减少在没有足够信息时错误生成对象或信息的情况。
主要特点:
- 大规模:3D-GRAND包含超过4万家庭场景和620万密集地面关联的场景-语言指令。
- 密集地面关联:数据集中的每个文本注释都与3D场景中的具体对象或区域密集关联。
- 多样的语言任务:支持包括对象引用、空间推理和场景理解在内的多种地面语言任务。
- 高质量的注释:通过严格的筛选和评估,确保数据集的语言注释高质量、多样化且自然。
工作原理:
- 3D-GRAND数据集通过将3D场景与语言指令密集关联,训练3D-LLMs以提高其对3D环境的理解能力。
- 利用大型语言模型(如GPT-4)生成详细的语言注释,并将这些注释与3D场景中的对象关联起来。
- 通过合成数据生成管道创建多样化的3D室内场景,并从这些场景中生成点云,用于训练和评估模型。
具体应用场景:
- 机器人和智能代理:在家庭或工业环境中,3D-LLMs可以帮助机器人更好地理解周围环境并执行任务。
- 增强现实和虚拟现实:在AR/VR应用中,3D-LLMs可以提供更加丰富和准确的环境交互体验。
- 自动驾驶:在自动驾驶车辆中,3D-LLMs可以用于理解和预测周围环境,提高驾驶安全性。
总的来说,3D-GRAND和3D-POPE为3D语言模型的研究提供了重要的资源和见解,为开发更可靠、更紧密关联的3D-LLMs奠定了基础。
0条评论