北大-兔展AIGC联合实验室共同发起Open-Sora计划,目标是复现OpenAI的Sora模型

分类:AI视频 | 热度:246 ℃

由北大-兔展AIGC联合实验室共同发起Open-Sora计划,目标是复现OpenAI的Sora模型。该计划通过结合视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等关键技术组件,以实现Sora模型的核心功能。

项目主页与GitHub链接

Open-Sora计划的核心组件

  1. Video VQ-VAE:此组件负责将视频压缩为潜在表示,降低其时间和空间维度。这种压缩使得后续的处理和生成更为高效。
  2. Denoising Diffusion Transformer:此组件从潜在表示中生成视频,通过逐步减少噪声来恢复视频的细节。
  3. Condition Encoder:支持多种条件输入,使模型能够根据文本描述或其他条件生成相应的视频内容。

实现细节

  • 可变长宽比:采用动态掩码策略,确保在保持灵活长宽比的同时进行批量训练。视频被下采样至最长边为256像素,并填充至256x256分辨率,以支持批量编码和注意力掩码去噪。
  • 可变分辨率:尽管在固定的256x256分辨率上训练,但通过使用位置插值技术,可以实现可变分辨率采样。这使得模型能够处理更高分辨率的视频序列。
  • 可变时长:利用VideoGPT中的Video VQ-VAE技术,支持变时长生成。同时,通过扩展空间位置插值至时空维度,实现对变时长视频的处理。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论