当前位置：首页 > 优惠 >3D>文章详情

4Real：从文本提示生成接近照片级逼真度的四维场景（4D场景）的生成框架

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-18)| 分类：3D | 热度：325 ℃

已关闭评论

4Real：从文本提示生成接近照片级逼真度的四维场景（4D场景）的生成框架

AI

Snap和卡内基梅隆大学的研究人员推出4Real系统，它是一个能够从文本提示生成接近照片级逼真度的四维场景（4D场景）的生成框架。四维在这里指的是包括时间维度的三维动态场景。4Real利用了视频扩散模型（video diffusion models）和可变形的三维高斯Splats（Deformable 3D Gaussian Splats，简称D-3DGS）来构建场景。

例如：一个电影制片人想要创造一个“宝宝吃冰淇淋”的场景，他们可以简单地描述这个场景，4Real就能生成一个视频，展示宝宝在不同时间、从不同视角吃冰淇淋的样子。这大大简化了传统上需要复杂设备和后期制作的流程。

主题介绍：

想象一下，你只需要用文字描述一个场景，比如“两只熊猫在打牌”，4Real就能生成一个动态的视频，展示这个场景随时间的变化。这就像是拥有一个能够读懂你想法的魔法相机，它可以创造出你想要的任何动态世界。

主要功能：

文本到视频的转换：用户输入文本描述，4Real生成相应的动态视频。
高逼真度：生成的视频具有接近真实照片的质量，包括物体、光照和环境的逼真渲染。
动态场景：不仅生成静态图像，还能展现物体随时间的运动和变化。

主要特点：

不依赖多视角生成模型：与以往依赖于多视角数据的方法不同，4Real利用了大规模真实世界视频数据训练的视频生成模型。
灵活性和多样性：能够生成更广泛和多样化的结果，提供更灵活的使用案例。
计算效率：相比其他方法，4Real在合理的计算预算内生成高质量样本，大幅减少了所需时间。

工作原理：

4Real的工作流程分为几个步骤：

生成参考视频：使用预训练的文本到视频扩散模型，根据文本提示生成一个动态场景的参考视频。
构建规范的3D表示：从参考视频中选取一帧，生成一个“冻结时间”的视频，通过应用数据集上下文嵌入和提示工程到视频扩散模型中。
处理帧间变形：识别并学习冻结时间视频中的不一致性，作为相对于规范3D表示的每帧变形。
学习时间变形：基于规范表示捕获参考视频中的动态交互，重建时间变形。

具体应用场景：

电影制作：生成逼真的动态背景或场景，用于电影的特效制作。
虚拟现实：创造沉浸式的虚拟环境，提供交互体验。
游戏开发：设计游戏内的场景和动态元素，增加游戏的真实感。
教育和培训：模拟真实世界的情境，用于教育或专业培训。

4Real

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：全新自动化优化方法TEXTGRAD：专门为复杂的人工智能（AI）系统设计

下一篇：开源macOS应用「noTunes」：阻止 Apple Music、iTunes 自动启动

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录