多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D(Video Diffusion 3D),它可以让大型视频扩散变换器(Video Diffusion Transformers)更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制。例如,你有一个神奇的相机,可以通过文字描述来生成视频。比如,你描述“一只狗戴着VR眼镜在船上”,这个相机就能生成这样的视频。但是,如果你想要更细致地控制这个视频,比如让相机围绕狗旋转或者拉近镜头,传统的技术就做不到了。VD3D技术就是为了解决这个问题,它可以让相机在生成视频时按照你的指示移动。
- 项目主页:https://snap-research.github.io/vd3d
主要功能
- 3D摄像机控制:通过文本描述来控制视频生成过程中的摄像机位置和视角。
- 文本到视频生成:将文本描述转化为视频内容,同时能够控制相机的运动。
主要特点
- 多模态大型语言模型(MLLMs):利用这些模型来理解和生成视频内容。
- Plucker坐标:使用这种坐标系统来表示相机的运动,使得相机控制更加精确。
- ControlNet-like机制:借鉴ControlNet的思想,通过额外训练的交叉注意力层来实现相机控制。
工作原理
- 相机参数表示:首先,将相机的外部参数(如旋转和平移)和内部参数(如焦距和主点)转换为Plucker坐标。
- Patch化处理:将视频帧中的像素转换为Patch Tokens,这些Tokens携带了空间和时间的信息。
- 交叉注意力层:通过训练一个额外的交叉注意力层,将相机的运动信息融入到视频生成模型中。
- 迭代去噪过程:使用FIT(Far-reaching Interleaved Transformers)块来迭代地去除噪声,生成最终的视频。
具体应用场景
- 内容创作:艺术家和视频制作者可以使用VD3D来生成具有特定相机运动的视频,提高创作灵活性。
- 视觉特效:在电影和游戏制作中,VD3D可以用来生成复杂的视觉特效,如动态背景或特定的摄像机运动。
- 3D视觉:在3D重建和虚拟现实应用中,VD3D可以用来生成从不同视角观察的一致性视图。
通过这些功能和特点,VD3D技术展示了在文本到视频生成领域中,如何通过控制相机运动来提高生成视频的质量和多样性。
0条评论