Meta发布室内场景重建方法SceneScript:能够直接从视频流中预测出室内场景的三维模型

分类:3D | 热度:166 ℃

Meta发布了一种使用自回归结构化语言模型重建场景的方法SceneScript。该方法使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出一组结构化的语言命令。为了训练SceneScript,作者生成并发布了一个大规模的合成数据集,名为Aria Synthetic Environments,包含10万个高质量的室内场景,其中包括以自我中心场景漫游的真实感和地面真实标注的渲染图像。

主要功能和特点:

  • 结构化语言命令: SceneScript使用一种专门设计的语言来描述场景,这种语言简洁、完整,并且易于理解和编辑。
  • 自回归建模: 该方法使用自回归模型(类似于大型语言模型)来预测场景的命令序列。
  • 可扩展性: 通过简单地添加新的命令到语言中,SceneScript可以轻松适应新的任务或场景实体。
  • 紧凑性: 作为纯文本,场景表示非常紧凑,减少了内存需求。

工作原理: SceneScript首先使用编码器(如点云编码器或图像编码器)从视频中提取场景的潜在表示。然后,使用一个自回归的变换器解码器(类似于大型语言模型)将这些潜在表示转换成一系列结构化语言命令。这些命令随后可以通过一个简单的解释器转换成三维场景模型。

具体应用场景:

  • 建筑布局估计: SceneScript可以用于估计建筑的布局,例如自动从视频中提取房间的平面图。
  • 三维物体检测: 通过扩展语言命令,SceneScript可以用于检测场景中的物体,并预测它们的三维边界框。
  • 实时交互式场景重建: SceneScript可以实时地在虚拟现实头盔中重建用户正在探索的环境。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论