由北大-兔展AIGC联合实验室共同发起Open-Sora计划,目标是复现OpenAI的Sora模型。该计划通过结合视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等关键技术组件,以实现Sora模型的核心功能。
项目主页与GitHub链接:
- 项目主页:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
- GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan
Open-Sora计划的核心组件:
- Video VQ-VAE:此组件负责将视频压缩为潜在表示,降低其时间和空间维度。这种压缩使得后续的处理和生成更为高效。
- Denoising Diffusion Transformer:此组件从潜在表示中生成视频,通过逐步减少噪声来恢复视频的细节。
- Condition Encoder:支持多种条件输入,使模型能够根据文本描述或其他条件生成相应的视频内容。
实现细节:
- 可变长宽比:采用动态掩码策略,确保在保持灵活长宽比的同时进行批量训练。视频被下采样至最长边为256像素,并填充至256x256分辨率,以支持批量编码和注意力掩码去噪。
- 可变分辨率:尽管在固定的256x256分辨率上训练,但通过使用位置插值技术,可以实现可变分辨率采样。这使得模型能够处理更高分辨率的视频序列。
- 可变时长:利用VideoGPT中的Video VQ-VAE技术,支持变时长生成。同时,通过扩展空间位置插值至时空维度,实现对变时长视频的处理。
0条评论