Maitrix.org、加州大学圣地亚哥分校、MBZUAI的研究人员推出新型世界模型Pandora,它能够通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制。简单来说,Pandora就像是一个高级的虚拟助手,它可以观看视频(理解世界当前的状态),听懂你的自然语言指令(比如“汽车左转”或“添加一辆前面的汽车”),然后预测并展示出下一个状态的视频(比如汽车已经左转后的场景)。例如,你正在设计一个虚拟现实游戏,需要一个能够实时响应玩家指令并展示相应场景的系统。Pandora可以根据玩家的自然语言指令(如“我向前走”或“我打开门”)生成并展示相应的视频内容,提供连贯且逼真的游戏体验。
- 项目主页:https://github.com/maitrix-org/Pandora
- 模型:https://huggingface.co/maitrix-org/Pandora
主要功能:
- 多领域视频生成:Pandora能够跨多个领域生成视频,包括室内/室外、自然/城市、人类/机器人、2D/3D等场景。
- 实时自然语言控制:用户可以用自然语言对视频内容进行实时控制,Pandora能够理解并反映在生成的视频上。
主要特点:
- 领域通用性:Pandora通过大规模预训练学习了对世界的理解,能够生成一致性高的视频。
- 视频连贯性:能够生成连贯的视频序列,保持场景和动作的逻辑性。
- 可控性:通过自然语言实现对视频内容的精确控制。
工作原理:
- 自回归模型:Pandora是一个自回归模型,它按时间步长顺序处理动作和之前的状态作为输入,并生成下一个状态的视频作为输出。
- 预训练与微调:
- 预训练阶段:使用大量视频和文本数据进行预训练,以学习对世界的通用理解并生成一致的视频模拟。
- 指令微调阶段:使用高质量的文本-视频序列数据进行微调,以增强模型根据自然语言指令实时控制视频生成的能力。
- 模型架构:Pandora结合了预训练的大型语言模型(LLM)作为自回归背骨,以及预训练的视频生成模型,通过必要的额外模块和轻量级调整将两者结合。
具体应用场景:
- 交互式内容创作:例如为视频游戏和电影生成逼真的虚拟场景。
- 虚拟现实和增强现实体验:在沉浸式体验中模拟动态环境。
- 教育和培训模拟:创建动态模拟用于教育和培训目的。
- AI系统的健壮性推理:使AI系统能够预测复杂环境并规划行动,如机器人安全导航。
- 长期决策制定:通过模拟不同场景和结果,提高物流和医疗等领域的决策效果。
0条评论