当前位置：首页 > 优惠 >3D>文章详情

大规模数据集3D-GRAND：为了提升三维语言模型的理解和减少幻觉而设计

推荐人：暴走AI| 商城: AI | 10个月前 (06-18)| 分类：3D | 热度：169 ℃

已关闭评论

大规模数据集3D-GRAND：为了提升三维语言模型的理解和减少幻觉而设计

AI

密歇根大学和纽约大学的研究人员推出大规模数据集3D-GRAND，它是为了提升三维语言模型（3D-LLMs）的理解和减少幻觉（hallucination，即模型错误地生成不存在的对象或信息）而设计的。例如，你有一个智能助手，它能够理解你关于房间中物品的描述，并据此回答问题或执行任务，但如果没有足够的信息，它可能会“想象”出一些实际上并不存在的东西。3D-GRAND数据集和相应的3D-POPE评估基准就是用来帮助解决这个问题的。

项目主页：https://3d-grand.github.io
GitHub：https://github.com/sled-group/3D-GRAND
Demo：https://huggingface.co/spaces/jedyang97/3D-GRAND

大规模数据集3D-GRAND：为了提升三维语言模型的理解和减少幻觉而设计

主要功能：

提高3D语言模型的地面关联能力：通过在3D环境中密集地关联语言和场景，提高模型对实际物体的识别和理解能力。
减少幻觉：训练模型以减少在没有足够信息时错误生成对象或信息的情况。

主要特点：

大规模：3D-GRAND包含超过4万家庭场景和620万密集地面关联的场景-语言指令。
密集地面关联：数据集中的每个文本注释都与3D场景中的具体对象或区域密集关联。
多样的语言任务：支持包括对象引用、空间推理和场景理解在内的多种地面语言任务。
高质量的注释：通过严格的筛选和评估，确保数据集的语言注释高质量、多样化且自然。

工作原理：

3D-GRAND数据集通过将3D场景与语言指令密集关联，训练3D-LLMs以提高其对3D环境的理解能力。
利用大型语言模型（如GPT-4）生成详细的语言注释，并将这些注释与3D场景中的对象关联起来。
通过合成数据生成管道创建多样化的3D室内场景，并从这些场景中生成点云，用于训练和评估模型。

具体应用场景：

机器人和智能代理：在家庭或工业环境中，3D-LLMs可以帮助机器人更好地理解周围环境并执行任务。
增强现实和虚拟现实：在AR/VR应用中，3D-LLMs可以提供更加丰富和准确的环境交互体验。
自动驾驶：在自动驾驶车辆中，3D-LLMs可以用于理解和预测周围环境，提高驾驶安全性。

总的来说，3D-GRAND和3D-POPE为3D语言模型的研究提供了重要的资源和见解，为开发更可靠、更紧密关联的3D-LLMs奠定了基础。

3D-GRAND

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：视频编辑框架NaRCan：能够生成高质量的自然规范图像，以代表输入视频

下一篇：视频大语言模型VideoLLaMA 2：为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录