加州大学伯克利分校、索尼的研究人员发布论文介绍了BeTAIL(Behavior Transformer Adversarial Imitation Learning),这是一种结合了行为变换器(Behavior Transformer,简称BeT)和对抗性模仿学习(Adversarial Imitation Learning,简称AIL)的方法,用于从人类赛车游戏中学习自动驾驶策略。BeTAIL旨在解决在真实世界机器人任务中常见的环境动态和分布变化问题,同时提高样本效率和训练稳定性。
项目主页:https://sites.google.com/berkeley.edu/BeTAIL/home
GitHub:https://github.com/cwj22/BeT-AIL
主要功能:
- 行为变换器(BeT)预训练: 从人类演示中学习策略,捕捉复杂的运动序列模式。
- 对抗性模仿学习(AIL)微调: 在线微调策略,以匹配专家轨迹的状态占据,减少对分布变化的敏感性。
主要特点:
- 结合序列建模和在线占据匹配: BeTAIL结合了离线序列建模和在线占据匹配微调,以捕捉人类专家的决策过程,并适应环境变化。
- 残差策略: 添加残差策略来细化代理的动作,同时保持接近BeT预测的动作。
工作原理:
- BeT预训练: 使用人类演示数据训练BeT策略,以预测基于过去状态和动作的基础动作。
- AIL微调: 使用AIL训练残差策略,通过与专家轨迹的状态占据匹配来微调策略。
- 残差策略学习: 定义增强的马尔可夫过程,包括基础动作和残差动作,使用AIL目标来更新残差策略。
具体应用场景:
- 自动驾驶赛车: 在Gran Turismo Sport(GTS)赛车游戏中,BeTAIL被用来学习专家级人类玩家的赛车策略,以提高自动驾驶车辆的性能和稳定性。
总的来说,BeTAIL通过结合序列建模和对抗性学习,能够有效地从人类演示中学习复杂的非马尔可夫决策策略,并在不同的赛车环境中实现稳定的策略微调。这种方法在自动驾驶赛车等需要复杂决策和快速适应新环境的任务中具有潜在的应用价值。
0条评论