当前位置：首页 > 优惠 >3D>文章详情

OmniNOCS：用于从二维图像中提取三维物体的姿态和形状

推荐人：暴走AI| 商城: AI | 12个月前 (07-13)| 分类：3D | 热度：270 ℃

已关闭评论

佐治亚理工学院和谷歌的研究人员推出OmniNOCS，，它包含一个大规模的数据集和一个创新的模型，用于从二维图像中提取三维物体的姿态和形状。简单来说，OmniNOCS可以帮助计算机更准确地理解图像中的物体，知道它们是什么、它们的位置以及它们的方向。例如，你在开发一个自动驾驶系统，系统需要识别并理解周围车辆、行人和自行车的位置和方向。使用OmniNOCS和NOCSformer模型，系统可以从车辆的单个摄像头图像中预测出其他物体的三维姿态和形状，从而更准确地做出驾驶决策。

项目主页：https://omninocs.github.io/
GitHub：https://github.com/google-deepmind/omninocs

主要功能：

3D物体定位：确定物体在三维空间中的位置和方向。
3D物体形状预测：从图像中预测物体的三维形状。
多类别支持：适用于多种不同类别的物体。

主要特点：

大规模数据集：OmniNOCS包含多个类别、多个场景下的物体，数据量远超现有数据集。
统一模型：提出了NOCSformer模型，它是一个基于transformer的单目3D物体定位模型，能够处理多种类别。
高精度预测：NOCSformer能够预测准确的NOCS（归一化物体坐标），并从2D检测中生成3D定位和形状。

工作原理：

数据集构建：OmniNOCS通过整合多个数据源，包括室内和室外场景，创建了一个包含丰富注释的数据集。
模型训练：使用OmniNOCS数据集来训练NOCSformer模型，该模型利用了大规模自监督预训练的ViT（Vision Transformer）作为特征提取的骨干网络。
3D定位和形状预测：NOCSformer模型通过分析输入的2D图像和物体的2D边界框，预测出物体的3D姿态和形状。