大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计

分类:3D | 热度:104 ℃

密歇根大学和 纽约大学的研究人员推出大规模数据集3D-GRAND,它是为了提升三维语言模型(3D-LLMs)的理解和减少幻觉(hallucination,即模型错误地生成不存在的对象或信息)而设计的。例如,你有一个智能助手,它能够理解你关于房间中物品的描述,并据此回答问题或执行任务,但如果没有足够的信息,它可能会“想象”出一些实际上并不存在的东西。3D-GRAND数据集和相应的3D-POPE评估基准就是用来帮助解决这个问题的。

  • 项目主页:https://3d-grand.github.io
  • GitHub:https://github.com/sled-group/3D-GRAND
  • Demo:https://huggingface.co/spaces/jedyang97/3D-GRAND

大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计

主要功能:

  • 提高3D语言模型的地面关联能力:通过在3D环境中密集地关联语言和场景,提高模型对实际物体的识别和理解能力。
  • 减少幻觉:训练模型以减少在没有足够信息时错误生成对象或信息的情况。

主要特点:

  1. 大规模:3D-GRAND包含超过4万家庭场景和620万密集地面关联的场景-语言指令。
  2. 密集地面关联:数据集中的每个文本注释都与3D场景中的具体对象或区域密集关联。
  3. 多样的语言任务:支持包括对象引用、空间推理和场景理解在内的多种地面语言任务。
  4. 高质量的注释:通过严格的筛选和评估,确保数据集的语言注释高质量、多样化且自然。

工作原理:

  • 3D-GRAND数据集通过将3D场景与语言指令密集关联,训练3D-LLMs以提高其对3D环境的理解能力。
  • 利用大型语言模型(如GPT-4)生成详细的语言注释,并将这些注释与3D场景中的对象关联起来。
  • 通过合成数据生成管道创建多样化的3D室内场景,并从这些场景中生成点云,用于训练和评估模型。

具体应用场景:

  • 机器人和智能代理:在家庭或工业环境中,3D-LLMs可以帮助机器人更好地理解周围环境并执行任务。
  • 增强现实和虚拟现实:在AR/VR应用中,3D-LLMs可以提供更加丰富和准确的环境交互体验。
  • 自动驾驶:在自动驾驶车辆中,3D-LLMs可以用于理解和预测周围环境,提高驾驶安全性。

总的来说,3D-GRAND和3D-POPE为3D语言模型的研究提供了重要的资源和见解,为开发更可靠、更紧密关联的3D-LLMs奠定了基础。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论