VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制

分类:3D | 热度:109 ℃

多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D(Video Diffusion 3D),它可以让大型视频扩散变换器(Video Diffusion Transformers)更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制。例如,你有一个神奇的相机,可以通过文字描述来生成视频。比如,你描述“一只狗戴着VR眼镜在船上”,这个相机就能生成这样的视频。但是,如果你想要更细致地控制这个视频,比如让相机围绕狗旋转或者拉近镜头,传统的技术就做不到了。VD3D技术就是为了解决这个问题,它可以让相机在生成视频时按照你的指示移动。

  • 项目主页:https://snap-research.github.io/vd3d

VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制

主要功能

  1. 3D摄像机控制:通过文本描述来控制视频生成过程中的摄像机位置和视角。
  2. 文本到视频生成:将文本描述转化为视频内容,同时能够控制相机的运动。

主要特点

  1. 多模态大型语言模型(MLLMs):利用这些模型来理解和生成视频内容。
  2. Plucker坐标:使用这种坐标系统来表示相机的运动,使得相机控制更加精确。
  3. ControlNet-like机制:借鉴ControlNet的思想,通过额外训练的交叉注意力层来实现相机控制。

工作原理

  1. 相机参数表示:首先,将相机的外部参数(如旋转和平移)和内部参数(如焦距和主点)转换为Plucker坐标。
  2. Patch化处理:将视频帧中的像素转换为Patch Tokens,这些Tokens携带了空间和时间的信息。
  3. 交叉注意力层:通过训练一个额外的交叉注意力层,将相机的运动信息融入到视频生成模型中。
  4. 迭代去噪过程:使用FIT(Far-reaching Interleaved Transformers)块来迭代地去除噪声,生成最终的视频。

具体应用场景

  1. 内容创作:艺术家和视频制作者可以使用VD3D来生成具有特定相机运动的视频,提高创作灵活性。
  2. 视觉特效:在电影和游戏制作中,VD3D可以用来生成复杂的视觉特效,如动态背景或特定的摄像机运动。
  3. 3D视觉:在3D重建和虚拟现实应用中,VD3D可以用来生成从不同视角观察的一致性视图。

通过这些功能和特点,VD3D技术展示了在文本到视频生成领域中,如何通过控制相机运动来提高生成视频的质量和多样性。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论