由北大-兔展AIGC联合实验室共同发起Open-Sora计划,目标是复现OpenAI的Sora模型。该计划通过结合视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等关键技术组件,以实现Sora模型的核心功能。目前已经推出Open-Sora-Plan v1.0.0模型,大幅度提高了视频生成质量和文本控制能力,可以生成 10 秒、24 FPS 的 1024×1024 视频,以及高分辨率图像,已经支持华为昇腾910b,之后还将支持更多国产AI芯片。
- GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan
- Hugging Face Demo:https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
- Replicate Demo:https://replicate.com/camenduru/open-sora-plan-512x512
- Colab Demo:https://colab.research.google.com/github/camenduru/Open-Sora-Plan-jupyter/blob/main/Open_Sora_Plan_jupyter.ipynb
- 技术报告:https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.0.0.md
与之前的视频生成模型相比,Open-Sora-Plan v1.0.0版本带来了以下改进:
- 采用CausalVideoVAE技术,实现了高效的训练和推理过程。开发团队对视频进行了4×8×8的时空压缩,以优化其处理效率。
- 通过图像与视频的联合训练,开发团队进一步提升了生成视频的质量。CausalVideoVAE将视频的第一帧视为图像,从而能够自然地将图像和视频同时编码。这使得扩散模型能够捕获更多的空间视觉细节,进而提升了生成视频的视觉质量。
0条评论