新型智能体∆-IRIS:使用了一个高效的世界模型架构来模拟环境并学习新行为

分类:大语言模型 | 热度:63 ℃

新型智能体∆-IRIS,它使用了一个高效的世界模型架构来模拟环境并学习新行为。这个模型特别适合于深度强化学习(Deep Reinforcement Learning, RL),这是一种让机器通过与环境交互来自主学习的方法。∆-IRIS在训练速度上比之前的注意力机制方法快了一个数量级,这使得它在需要处理大量数据和复杂环境时具有显著优势。此外,论文的作者还开源了他们的代码和模型,以促进进一步的研究和应用开发。

  • GitHub:https://github.com/vmicheli/delta-iris

主要功能:

  • 模拟复杂环境:∆-IRIS能够处理视觉上复杂的环境,并且能够模拟更长的时间序列。
  • 学习新行为:通过内部模拟,智能体可以在没有实际环境反馈的情况下学习新的行为。

主要特点:

  1. 基于模型的强化学习(MBRL):与依赖试错的传统强化学习不同,MBRL使用内部模型来预测环境的反应,从而提高学习效率。
  2. 上下文感知的标记化:∆-IRIS通过编码时间步骤之间的随机变化(称为“delta”)来减少需要编码的标记数量。
  3. 自回归变换器:它使用连续的标记来预测未来的标记,从而加快了模型的预测速度。

工作原理:

  • ∆-IRIS的世界模型由一个离散的自编码器和一个自回归变换器组成。自编码器负责将观察到的帧编码为一系列的“delta”标记,这些标记描述了时间步骤之间的变化。变换器则利用这些“delta”标记和当前状态的连续标记来预测未来的状态变化。
  • 通过这种方式,∆-IRIS能够将世界建模的任务分解为更容易管理的序列建模问题,其中变换器随着时间的推移构建起图像标记的词汇表。

具体应用场景:

  • 视频游戏:论文中的实验展示了∆-IRIS在名为Crafter的基准测试中的表现,这是一个受Minecraft启发的环境,智能体需要完成如击败怪物、制作物品和健康管理等任务。
  • 自动驾驶:虽然论文没有直接提到,但类似的技术可以应用于自动驾驶车辆中,让车辆在模拟环境中学习如何导航和响应各种情况。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论