新型视频生成方法Compositional 3D-aware Video Generation:通过将视频分解成不同的3D概念,并利用大语言模型来指导如何将这些概念组合成最终的视频

分类:3D | 热度:16 ℃

中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation,这个方法的核心是通过将视频分解成不同的3D概念,并利用大语言模型(LLM)来指导如何将这些概念组合成最终的视频。这个方法的创新之处在于它将视频生成过程分解为可控制的3D概念,并利用LLM的强大能力来指导这些概念的生成和组合,从而实现高度定制化和高质量的视频内容生成。

  • 项目主页:https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation

例如,你是一名电影制作人,想要快速预览一个场景:一个外星人在魔法师的小屋旁的宁静森林中行走。使用这个系统,你只需输入这个场景的描述,系统就会生成一个3D视频,其中包含森林、魔法师的小屋、外星人以及其行走的动作。你可以进一步调整外星人的外观、行走路径或者观察点的位置,以获得满意的视觉效果。

主要功能:

  • 生成与文本描述相匹配的高质量视频。
  • 精确控制视频中的个体元素,如特定角色的动作和外观,以及观察点的移动。

主要特点:

  1. 3D概念生成:将视频的每个概念(如场景、物体、动作)单独在3D空间中生成。
  2. LLM导演:使用大型语言模型来分解文本提示,并指导如何生成和组合各个概念。
  3. 2D扩散模型优化:利用2D扩散模型来优化生成的视频帧,使其更符合自然图像分布。

工作原理:

  1. 文本提示分解:输入一个文本提示,LLM将其分解为多个子提示,每个子提示描述视频中的一个概念。
  2. 3D表示生成:根据文本提示,使用预训练的专家模型生成每个概念的3D表示。
  3. 粗略指导生成:使用多模态LLM生成物体轨迹的粗略指导,包括规模和坐标。
  4. 2D扩散模型优化:通过得分蒸馏采样(Score Distillation Sampling),利用2D扩散模型的先验知识来优化物体的规模、位置和旋转,以实现精细的组合。

具体应用场景:

  • 电影制作:从剧本描述生成电影场景的初步视觉概念。
  • 游戏开发:根据游戏剧本自动生成游戏内动画和场景。
  • 虚拟现实:创建与用户输入匹配的动态虚拟环境。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论