当前位置：首页 > 优惠 >大语言模型>文章详情

新型人工智能模型3D-VLA：能够理解三维视觉信息、语言指令，并在此基础上进行行动规划的生成式世界模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-15)| 分类：大语言模型 | 热度：526 ℃

已关闭评论

新型人工智能模型3D-VLA：能够理解三维视觉信息、语言指令，并在此基础上进行行动规划的生成式世界模型

来自马萨诸塞大学阿默斯特分校、上海交通大学、华南理工大学、武汉大学、麻省理工学院和IBM Watson AI 实验室的研究团队推出新型人工智能模型3D-VLA（3D Vision-Language-Action），它是一个能够理解三维视觉信息、语言指令，并在此基础上进行行动规划的生成式世界模型。想象一下，你有一个机器人，它不仅能看懂周围的三维环境，还能理解你给它的文字指令，并根据这些指令在真实世界中执行复杂的任务，比如拿起一个苹果或者把一个杯子放进抽屉里。3D-VLA就是这样一个让机器人具备这种能力的模型。

项目主页：https://vis-www.cs.umass.edu/3dvla

GitHub：https://github.com/UMass-Foundation-Model/3D-VLA

主要功能和特点：

三维理解与生成： 3D-VLA能够处理和生成三维数据，如点云和深度图像，而不仅仅是二维图像。
交互式行动规划： 它可以根据给定的语言指令在三维环境中规划行动，比如预测机器人执行任务的最终状态。
丰富的交互令牌： 模型引入了特殊的交互令牌，帮助它更好地理解和与三维环境互动。
大规模数据集： 为了训练这个模型，研究者们创建了一个包含200万个三维语言行动数据对的大型数据集。

工作原理： 3D-VLA建立在一个三维大型语言模型（3D LLM）的基础上，并通过一系列交互令牌与具体环境进行交互。为了使模型具有生成目标图像和点云的能力，研究者们预先训练了一系列具身扩散模型，并通过一个投影器将它们与LLM对齐。此外，模型使用了一种特殊的数据生成流程，结合了机器人操作数据集和人类与物体交互的数据集，以及深度估计和光流估计技术，来创建用于训练的三维语言行动数据对。

具体应用场景：