牛津大学视觉几何小组推出新技术GST(Gaussian Splatting Transformers),它能够从单张图片中精确重建出三维人体模型。总的来说,GST 通过结合先进的视觉 Transformer 技术和高斯表示方法,提供了一种高效且精确的方式来从二维图像中重建三维人体模型,这项技术对于虚拟现实、增强现实、创意产业以及人机交互等领域具有重要的应用价值。
- 项目主页:https://abdullahamdi.com/gst
- GitHub:https://github.com/prosperolo/GST
例如,你是一名服装设计师,想要快速预览你的设计在不同体型的人身上的效果。你可以使用 GST 技术上传一张模特的照片,GST 会预测出模特的三维人体模型,并将你的设计“穿”在模型上,从多个角度展示服装效果。
主要功能:
- 三维人体重建:从单张图像中预测出详细的三维人体姿态和形状。
- 新视角渲染:使用预测的三维模型生成从新视角看到的图像,包括衣物的细节。
主要特点:
- 快速推理:GST 能够实现近乎实时的预测,这对于需要快速响应的应用场景非常重要。
- 多视角监督:GST 利用多视角的图像进行训练,而不是依赖于精确的三维点云数据。
- 无需扩散模型:与一些需要昂贵的扩散模型来生成图像的方法不同,GST 不依赖于这类模型,从而简化了整个框架。
工作原理:
- 图像编码:使用视觉 Transformer(如 ViT)将输入图像转换为一系列视觉 token。
- 人体姿态表示:利用 SMPL 模型来表示三维人体的姿态和形状。
- 高斯参数预测:通过 Transformer 架构预测与 SMPL 模型顶点相关的高斯参数,包括位置偏移、颜色、不透明度等。
- 损失函数:使用图像重建损失、高斯紧密度正则化等损失函数来训练模型,确保预测的三维人体模型既准确又具有视觉真实感。
具体应用场景:
- 虚拟试衣:在电子商务中,用户可以通过上传一张照片来虚拟试穿衣物,看到自己穿上不同衣服的样子。
- 游戏和娱乐:在游戏或电影制作中,可以快速生成或修改角色的三维模型,提高制作效率。
- 健身和健康应用:通过分析用户的照片来评估其姿势和运动,提供个性化的健身指导。
0条评论