当前位置：首页 > 优惠 >AI视频>文章详情

新型世界模型Pandora：通过生成视频来模拟未来世界的状态，并且可以接受自然语言的动作指令进行实时控制

推荐人：暴走AI| 商城: AI | 10个月前 (06-18)| 分类：AI视频 | 热度：230 ℃

已关闭评论

新型世界模型Pandora：通过生成视频来模拟未来世界的状态，并且可以接受自然语言的动作指令进行实时控制

Maitrix.org、加州大学圣地亚哥分校、MBZUAI的研究人员推出新型世界模型Pandora，它能够通过生成视频来模拟未来世界的状态，并且可以接受自然语言的动作指令进行实时控制。简单来说，Pandora就像是一个高级的虚拟助手，它可以观看视频（理解世界当前的状态），听懂你的自然语言指令（比如“汽车左转”或“添加一辆前面的汽车”），然后预测并展示出下一个状态的视频（比如汽车已经左转后的场景）。例如，你正在设计一个虚拟现实游戏，需要一个能够实时响应玩家指令并展示相应场景的系统。Pandora可以根据玩家的自然语言指令（如“我向前走”或“我打开门”）生成并展示相应的视频内容，提供连贯且逼真的游戏体验。

项目主页：https://github.com/maitrix-org/Pandora
模型：https://huggingface.co/maitrix-org/Pandora

主要功能：

多领域视频生成：Pandora能够跨多个领域生成视频，包括室内/室外、自然/城市、人类/机器人、2D/3D等场景。
实时自然语言控制：用户可以用自然语言对视频内容进行实时控制，Pandora能够理解并反映在生成的视频上。

主要特点：

领域通用性：Pandora通过大规模预训练学习了对世界的理解，能够生成一致性高的视频。
视频连贯性：能够生成连贯的视频序列，保持场景和动作的逻辑性。
可控性：通过自然语言实现对视频内容的精确控制。

工作原理：

自回归模型：Pandora是一个自回归模型，它按时间步长顺序处理动作和之前的状态作为输入，并生成下一个状态的视频作为输出。
预训练与微调：
- 预训练阶段：使用大量视频和文本数据进行预训练，以学习对世界的通用理解并生成一致的视频模拟。
- 指令微调阶段：使用高质量的文本-视频序列数据进行微调，以增强模型根据自然语言指令实时控制视频生成的能力。
模型架构：Pandora结合了预训练的大型语言模型（LLM）作为自回归背骨，以及预训练的视频生成模型，通过必要的额外模块和轻量级调整将两者结合。