MIT推出新型训练范式Diffusion Forcing(扩散驱动),它结合了两种强大的序列生成模型的优点:基于下一个词预测的模型和全序列扩散模型。想象一下,你有一个能够生成文本、视频或控制机器人的人工智能,但它在生成长序列或进行复杂决策时可能会遇到困难。Diffusion Forcing 就是用来解决这些问题的。
- 项目主页:https://boyuan.space/diffusion-forcing
- GitHub:https://github.com/buoyancy99/diffusion-forcing
例如,你想让AI生成一段视频,展示了一个机器人如何从一堆杂乱的积木中挑选并堆叠它们。使用传统的AI模型,可能在生成过程中出现错误,导致视频在某一点突然变得不合逻辑。但使用Diffusion Forcing,AI可以更稳定地生成整个视频序列,即使它的长度超过了训练时见过的任何视频。
主要功能:
- 长序列生成:能够生成超出训练数据长度的长序列,如视频或时间序列预测。
- 灵活的采样和引导:可以引导AI生成特定属性的序列,比如在视频中引导机器人避免碰撞。
主要特点:
- 变量长度生成:与固定长度的生成模型不同,Diffusion Forcing可以生成任意长度的序列。
- 引导采样:能够根据某些目标或奖励来引导序列的生成,这对于决策和规划任务特别有用。
- 稳定性:在生成连续数据时,如视频帧,Diffusion Forcing能够保持稳定性,避免累积错误。
工作原理:
Diffusion Forcing通过为每个token(可以是文字、图像帧或动作)添加独立、随机的噪声水平进行训练。在生成阶段,模型逐步去除噪声,从高噪声水平的状态恢复到清晰的数据。这个过程可以灵活地控制,以生成不同长度的序列,并且可以在生成过程中接受外部的引导来优化序列的特定方面。
具体应用场景:
- 视频生成:生成连续的视频帧,展示复杂的场景或动作。
- 决策和规划:在需要长期规划和决策的任务中,如自动驾驶或游戏策略中,使用Diffusion Forcing生成行动计划。
- 时间序列预测:在金融、气象等领域,对连续的数据点进行预测。
论文还展示了Diffusion Forcing在多个领域的实验结果,包括视频预测、模型基础规划、视觉模仿学习和时间序列预测等,证明了其在不同任务上的有效性和灵活性。
0条评论