当前位置：首页 > 优惠 >大语言模型>文章详情

新型智能体∆-IRIS：使用了一个高效的世界模型架构来模拟环境并学习新行为

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-01)| 分类：大语言模型 | 热度：225 ℃

已关闭评论

新型智能体∆-IRIS，它使用了一个高效的世界模型架构来模拟环境并学习新行为。这个模型特别适合于深度强化学习（Deep Reinforcement Learning, RL），这是一种让机器通过与环境交互来自主学习的方法。∆-IRIS在训练速度上比之前的注意力机制方法快了一个数量级，这使得它在需要处理大量数据和复杂环境时具有显著优势。此外，论文的作者还开源了他们的代码和模型，以促进进一步的研究和应用开发。

GitHub：https://github.com/vmicheli/delta-iris

主要功能：

模拟复杂环境：∆-IRIS能够处理视觉上复杂的环境，并且能够模拟更长的时间序列。
学习新行为：通过内部模拟，智能体可以在没有实际环境反馈的情况下学习新的行为。

主要特点：

基于模型的强化学习（MBRL）：与依赖试错的传统强化学习不同，MBRL使用内部模型来预测环境的反应，从而提高学习效率。
上下文感知的标记化：∆-IRIS通过编码时间步骤之间的随机变化（称为“delta”）来减少需要编码的标记数量。
自回归变换器：它使用连续的标记来预测未来的标记，从而加快了模型的预测速度。

工作原理：

∆-IRIS的世界模型由一个离散的自编码器和一个自回归变换器组成。自编码器负责将观察到的帧编码为一系列的“delta”标记，这些标记描述了时间步骤之间的变化。变换器则利用这些“delta”标记和当前状态的连续标记来预测未来的状态变化。
通过这种方式，∆-IRIS能够将世界建模的任务分解为更容易管理的序列建模问题，其中变换器随着时间的推移构建起图像标记的词汇表。

具体应用场景：

视频游戏：论文中的实验展示了∆-IRIS在名为Crafter的基准测试中的表现，这是一个受Minecraft启发的环境，智能体需要完成如击败怪物、制作物品和健康管理等任务。
自动驾驶：虽然论文没有直接提到，但类似的技术可以应用于自动驾驶车辆中，让车辆在模拟环境中学习如何导航和响应各种情况。

好 (0 )

不好 (0 )

∆-IRIS