当前位置：首页 > 优惠 >3D>文章详情

新型视频生成方法Compositional 3D-aware Video Generation：通过将视频分解成不同的3D概念，并利用大语言模型来指导如何将这些概念组合成最终的视频

推荐人：暴走AI| 商城: AI | 6个月前 (09-04)| 分类：3D | 热度：176 ℃

已关闭评论

新型视频生成方法Compositional 3D-aware Video Generation：通过将视频分解成不同的3D概念，并利用大语言模型来指导如何将这些概念组合成最终的视频

中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation，这个方法的核心是通过将视频分解成不同的3D概念，并利用大语言模型（LLM）来指导如何将这些概念组合成最终的视频。这个方法的创新之处在于它将视频生成过程分解为可控制的3D概念，并利用LLM的强大能力来指导这些概念的生成和组合，从而实现高度定制化和高质量的视频内容生成。

项目主页：https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation

例如，你是一名电影制作人，想要快速预览一个场景：一个外星人在魔法师的小屋旁的宁静森林中行走。使用这个系统，你只需输入这个场景的描述，系统就会生成一个3D视频，其中包含森林、魔法师的小屋、外星人以及其行走的动作。你可以进一步调整外星人的外观、行走路径或者观察点的位置，以获得满意的视觉效果。

主要功能：

生成与文本描述相匹配的高质量视频。
精确控制视频中的个体元素，如特定角色的动作和外观，以及观察点的移动。

主要特点：

3D概念生成：将视频的每个概念（如场景、物体、动作）单独在3D空间中生成。
LLM导演：使用大型语言模型来分解文本提示，并指导如何生成和组合各个概念。
2D扩散模型优化：利用2D扩散模型来优化生成的视频帧，使其更符合自然图像分布。

工作原理：

文本提示分解：输入一个文本提示，LLM将其分解为多个子提示，每个子提示描述视频中的一个概念。
3D表示生成：根据文本提示，使用预训练的专家模型生成每个概念的3D表示。
粗略指导生成：使用多模态LLM生成物体轨迹的粗略指导，包括规模和坐标。
2D扩散模型优化：通过得分蒸馏采样（Score Distillation Sampling），利用2D扩散模型的先验知识来优化物体的规模、位置和旋转，以实现精细的组合。