当前位置：首页 > 优惠 >大语言模型>文章详情

结合了行为变换器和对抗性模仿学习的方法BeTAIL

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-24)| 分类：大语言模型 | 热度：307 ℃

已关闭评论

结合了行为变换器和对抗性模仿学习的方法BeTAIL

AI

加州大学伯克利分校、索尼的研究人员发布论文介绍了BeTAIL（Behavior Transformer Adversarial Imitation Learning），这是一种结合了行为变换器（Behavior Transformer，简称BeT）和对抗性模仿学习（Adversarial Imitation Learning，简称AIL）的方法，用于从人类赛车游戏中学习自动驾驶策略。BeTAIL旨在解决在真实世界机器人任务中常见的环境动态和分布变化问题，同时提高样本效率和训练稳定性。

项目主页：https://sites.google.com/berkeley.edu/BeTAIL/home

GitHub：https://github.com/cwj22/BeT-AIL

主要功能：

行为变换器（BeT）预训练： 从人类演示中学习策略，捕捉复杂的运动序列模式。
对抗性模仿学习（AIL）微调： 在线微调策略，以匹配专家轨迹的状态占据，减少对分布变化的敏感性。

主要特点：

结合序列建模和在线占据匹配： BeTAIL结合了离线序列建模和在线占据匹配微调，以捕捉人类专家的决策过程，并适应环境变化。
残差策略： 添加残差策略来细化代理的动作，同时保持接近BeT预测的动作。

工作原理：

BeT预训练： 使用人类演示数据训练BeT策略，以预测基于过去状态和动作的基础动作。
AIL微调： 使用AIL训练残差策略，通过与专家轨迹的状态占据匹配来微调策略。
残差策略学习： 定义增强的马尔可夫过程，包括基础动作和残差动作，使用AIL目标来更新残差策略。

具体应用场景：

自动驾驶赛车： 在Gran Turismo Sport（GTS）赛车游戏中，BeTAIL被用来学习专家级人类玩家的赛车策略，以提高自动驾驶车辆的性能和稳定性。

总的来说，BeTAIL通过结合序列建模和对抗性学习，能够有效地从人类演示中学习复杂的非马尔可夫决策策略，并在不同的赛车环境中实现稳定的策略微调。这种方法在自动驾驶赛车等需要复杂决策和快速适应新环境的任务中具有潜在的应用价值。

BeTAIL

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： CyberDemo：模拟人类演示以加强现实世界中的精细操作

下一篇：线性变换器（Linear Transformers）在上下文学习（In-Context Learning，ICL）中的潜力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录