当前位置：首页 > 优惠 >3D>文章详情

新型多视角视频生成模型Vivid-ZOO：利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-18)| 分类：3D | 热度：331 ℃

已关闭评论

新型多视角视频生成模型Vivid-ZOO：利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

AI

阿卜杜拉国王科技大学的研究人员推出新型多视角视频生成模型Vivid-ZOO，它利用扩散模型（diffusion model）从文本描述中生成围绕动态3D对象的多视角视频。扩散模型在2D图像和视频生成方面已经取得了令人印象深刻的成果，但将这一技术应用于基于文本的多视角视频生成（Text-to-Multi-view-Video, T2MVid）还相对较少探索。

项目主页：https://hi-zhengcheng.github.io/vividzoo
GitHub：https://github.com/hi-zhengcheng/vividzoo

例如，用户想要生成一个“黄色和黑色条纹的蜜蜂”在飞行的多视角视频，Vivid-ZOO可以从这个文本提示出发，生成一系列从不同角度观察这个动态3D对象的视频帧，这些视频帧不仅在视觉上保持一致性，而且在时间上也是连贯的，就像真实世界中拍摄的视频一样。

新型多视角视频生成模型Vivid-ZOO：利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

主要功能：

文本到多视角视频的生成：Vivid-ZOO能够根据文本提示生成一个动态3D对象的多视角视频。
高质量视频生成：生成的视频具有生动的动作、时间连贯性和多视角一致性。

主要特点：

多视角和时间因素的分解：Vivid-ZOO将T2MVid问题分解为视角空间和时间组件，这样可以结合使用先进的预训练多视角图像和2D视频扩散模型的层。
减少训练成本：通过这种分解，Vivid-ZOO能够在训练时重用现有模型的层，显著降低了训练成本。
对齐模块：引入了对齐模块来调整预训练模型的潜在空间，解决了由于2D和多视角数据领域差异导致的重用层不兼容问题。

工作原理：

视角空间组件：确保生成的多视角视频在几何上是一致的，并且与输入文本对齐。
时间组件：确保生成的多视角视频在时间上是连贯的。
对齐层：通过3D-2D对齐层和2D-3D对齐层，将预训练的2D视频和多视角图像扩散模型的层结合起来，解决领域差异问题。

具体应用场景：

增强现实/虚拟现实(AR/VR)：为虚拟环境生成多视角视频，提供更加真实和沉浸式的体验。
3D/4D建模：在3D打印或动画制作中生成多视角视频，帮助设计师更好地预览和修改模型。
媒体制作：在电影或视频游戏制作中，根据剧本描述自动生成多视角场景视频。
交互式娱乐：在交互式应用中，根据用户输入的文本描述生成相应的多视角视频内容。

Vivid-ZOO

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：英伟达推出机器人学习系统RVT-2：专门设计用来让机器人通过少量的演示就能学会执行多种三维（3D）操作任务

下一篇：专门用于新视角声音合成的新型模型AV-GS：根据单一音源发出的单声道音频，生成任何目标视点的双声道音频（立体声）

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录