新型自主强化学习方法DigiRL:专门用于训练能够在现实世界环境控制设备(如智能手机等)的智能代理

分类:大语言模型 | 热度:53 ℃

加州大学伯克利分校、伊利诺伊大学伯克利分校和谷歌 DeepMind的研究人员推出新型自主强化学习方法DigiRL,它专门用于训练能够在野外(即现实世界环境)控制设备(如智能手机等)的智能代理。这些智能代理可以通过图形用户界面(GUI)执行各种任务,比如网上购物、预订旅行或者操作移动设备等。

  • 项目主页:https://digirl-agent.github.io
  • GitHub:https://github.com/DigiRL-agent/digirl

例如,你有一个智能助手,它可以通过智能手机上的GUI为你预订旅行。你告诉它你的目的地和日期,智能助手就会自动打开旅行应用,搜索航班,选择最合适的选项,并完成预订。在整个过程中,它可能会遇到各种挑战,如应用界面的变化或搜索结果的不确定性,但DigiRL训练的智能代理能够适应这些情况并成功完成任务。

主要功能

DigiRL的核心功能是让预训练的视觉语言模型(VLMs)通过两个阶段的微调来学习控制真实GUIs:

  1. 离线强化学习(Offline RL):使用已有的特定任务数据初始化模型。
  2. 从离线到在线的强化学习(Offline-to-Online RL):在真实世界的图形用户界面上进一步微调模型,以提高其性能。

主要特点

  • 自主学习:DigiRL不需要人类手动演示或指导,它可以从自身的交互经验中学习。
  • 鲁棒性:能够适应现实世界中的随机性和非平稳性,例如网站布局的变化或不可预测的干扰。
  • 高性能:在Android-in-the-Wild(AitW)数据集上的实验表明,DigiRL训练的智能代理在任务成功率上有显著提升。

工作原理

DigiRL的工作原理可以概括为以下几个步骤:

  1. 预训练:使用互联网规模的视觉和语言数据预训练VLM。
  2. 离线RL:利用已有的特定任务数据通过离线强化学习初始化模型。
  3. 在线RL:在真实世界的Android环境中与GUI进行交互,通过在线强化学习不断优化模型。
  4. 优势加权回归(AWR):一种简化的强化学习算法,用于从模型自身的经验中学习。
  5. 自动课程:根据任务难度动态调整学习重点,以最大化学习信号。

具体应用场景

DigiRL的应用场景包括但不限于:

  • 个人助理:自动化日常活动,如通过语音命令预订机票或酒店。
  • 客户服务:在客户设备上远程解决问题,如帮助用户解决软件使用中的问题。
  • 自动化测试:在软件开发过程中,自动化用户界面测试。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论