加州大学伯克利分校、伊利诺伊大学伯克利分校和谷歌 DeepMind的研究人员推出新型自主强化学习方法DigiRL,它专门用于训练能够在野外(即现实世界环境)控制设备(如智能手机等)的智能代理。这些智能代理可以通过图形用户界面(GUI)执行各种任务,比如网上购物、预订旅行或者操作移动设备等。
- 项目主页:https://digirl-agent.github.io
- GitHub:https://github.com/DigiRL-agent/digirl
例如,你有一个智能助手,它可以通过智能手机上的GUI为你预订旅行。你告诉它你的目的地和日期,智能助手就会自动打开旅行应用,搜索航班,选择最合适的选项,并完成预订。在整个过程中,它可能会遇到各种挑战,如应用界面的变化或搜索结果的不确定性,但DigiRL训练的智能代理能够适应这些情况并成功完成任务。
主要功能
DigiRL的核心功能是让预训练的视觉语言模型(VLMs)通过两个阶段的微调来学习控制真实GUIs:
- 离线强化学习(Offline RL):使用已有的特定任务数据初始化模型。
- 从离线到在线的强化学习(Offline-to-Online RL):在真实世界的图形用户界面上进一步微调模型,以提高其性能。
主要特点
- 自主学习:DigiRL不需要人类手动演示或指导,它可以从自身的交互经验中学习。
- 鲁棒性:能够适应现实世界中的随机性和非平稳性,例如网站布局的变化或不可预测的干扰。
- 高性能:在Android-in-the-Wild(AitW)数据集上的实验表明,DigiRL训练的智能代理在任务成功率上有显著提升。
工作原理
DigiRL的工作原理可以概括为以下几个步骤:
- 预训练:使用互联网规模的视觉和语言数据预训练VLM。
- 离线RL:利用已有的特定任务数据通过离线强化学习初始化模型。
- 在线RL:在真实世界的Android环境中与GUI进行交互,通过在线强化学习不断优化模型。
- 优势加权回归(AWR):一种简化的强化学习算法,用于从模型自身的经验中学习。
- 自动课程:根据任务难度动态调整学习重点,以最大化学习信号。
具体应用场景
DigiRL的应用场景包括但不限于:
- 个人助理:自动化日常活动,如通过语音命令预订机票或酒店。
- 客户服务:在客户设备上远程解决问题,如帮助用户解决软件使用中的问题。
- 自动化测试:在软件开发过程中,自动化用户界面测试。
0条评论