当前位置：首页 > 优惠 >3D>文章详情

VD3D：让大型视频扩散变换器更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制

推荐人：暴走AI| 商城: AI | 12个月前 (07-18)| 分类：3D | 热度：254 ℃

已关闭评论

VD3D：让大型视频扩散变换器更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制

AI

多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D（Video Diffusion 3D），它可以让大型视频扩散变换器（Video Diffusion Transformers）更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制。例如，你有一个神奇的相机，可以通过文字描述来生成视频。比如，你描述“一只狗戴着VR眼镜在船上”，这个相机就能生成这样的视频。但是，如果你想要更细致地控制这个视频，比如让相机围绕狗旋转或者拉近镜头，传统的技术就做不到了。VD3D技术就是为了解决这个问题，它可以让相机在生成视频时按照你的指示移动。

项目主页：https://snap-research.github.io/vd3d

VD3D：让大型视频扩散变换器更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制

主要功能

3D摄像机控制：通过文本描述来控制视频生成过程中的摄像机位置和视角。
文本到视频生成：将文本描述转化为视频内容，同时能够控制相机的运动。

主要特点

多模态大型语言模型（MLLMs）：利用这些模型来理解和生成视频内容。
Plucker坐标：使用这种坐标系统来表示相机的运动，使得相机控制更加精确。
ControlNet-like机制：借鉴ControlNet的思想，通过额外训练的交叉注意力层来实现相机控制。

工作原理

相机参数表示：首先，将相机的外部参数（如旋转和平移）和内部参数（如焦距和主点）转换为Plucker坐标。
Patch化处理：将视频帧中的像素转换为Patch Tokens，这些Tokens携带了空间和时间的信息。
交叉注意力层：通过训练一个额外的交叉注意力层，将相机的运动信息融入到视频生成模型中。
迭代去噪过程：使用FIT（Far-reaching Interleaved Transformers）块来迭代地去除噪声，生成最终的视频。

具体应用场景

内容创作：艺术家和视频制作者可以使用VD3D来生成具有特定相机运动的视频，提高创作灵活性。
视觉特效：在电影和游戏制作中，VD3D可以用来生成复杂的视觉特效，如动态背景或特定的摄像机运动。
3D视觉：在3D重建和虚拟现实应用中，VD3D可以用来生成从不同视角观察的一致性视图。

通过这些功能和特点，VD3D技术展示了在文本到视频生成领域中，如何通过控制相机运动来提高生成视频的质量和多样性。

VD3D

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： LLMs新训练方法Patch-Level Training：用于提高大语言模型的训练效率

下一篇：如何让大语言模型学会在适当的时候说“不”

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录