MIT推出新型训练范式Diffusion Forcing:结合了两种强大的序列生成模型的优点:基于下一个词预测的模型和全序列扩散模型

分类:大语言模型 | 热度:85 ℃

MIT推出新型训练范式Diffusion Forcing(扩散驱动),它结合了两种强大的序列生成模型的优点:基于下一个词预测的模型和全序列扩散模型。想象一下,你有一个能够生成文本、视频或控制机器人的人工智能,但它在生成长序列或进行复杂决策时可能会遇到困难。Diffusion Forcing 就是用来解决这些问题的。

  • 项目主页:https://boyuan.space/diffusion-forcing
  • GitHub:https://github.com/buoyancy99/diffusion-forcing

例如,你想让AI生成一段视频,展示了一个机器人如何从一堆杂乱的积木中挑选并堆叠它们。使用传统的AI模型,可能在生成过程中出现错误,导致视频在某一点突然变得不合逻辑。但使用Diffusion Forcing,AI可以更稳定地生成整个视频序列,即使它的长度超过了训练时见过的任何视频。

主要功能:

  • 长序列生成:能够生成超出训练数据长度的长序列,如视频或时间序列预测。
  • 灵活的采样和引导:可以引导AI生成特定属性的序列,比如在视频中引导机器人避免碰撞。

主要特点:

  1. 变量长度生成:与固定长度的生成模型不同,Diffusion Forcing可以生成任意长度的序列。
  2. 引导采样:能够根据某些目标或奖励来引导序列的生成,这对于决策和规划任务特别有用。
  3. 稳定性:在生成连续数据时,如视频帧,Diffusion Forcing能够保持稳定性,避免累积错误。

工作原理:

Diffusion Forcing通过为每个token(可以是文字、图像帧或动作)添加独立、随机的噪声水平进行训练。在生成阶段,模型逐步去除噪声,从高噪声水平的状态恢复到清晰的数据。这个过程可以灵活地控制,以生成不同长度的序列,并且可以在生成过程中接受外部的引导来优化序列的特定方面。

具体应用场景:

  • 视频生成:生成连续的视频帧,展示复杂的场景或动作。
  • 决策和规划:在需要长期规划和决策的任务中,如自动驾驶或游戏策略中,使用Diffusion Forcing生成行动计划。
  • 时间序列预测:在金融、气象等领域,对连续的数据点进行预测。

论文还展示了Diffusion Forcing在多个领域的实验结果,包括视频预测、模型基础规划、视觉模仿学习和时间序列预测等,证明了其在不同任务上的有效性和灵活性。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论