Mobile-Agent-v2: 通过多代理协作有效导航的移动设备操作助手

分类:大语言模型 | 热度:55 ℃

北京交通大学和阿里巴巴集团的研究人员推出移动设备操作助手Mobile-Agent-v2,它通过多智能体(多个代理)的协作来有效导航和执行任务。这个系统是为了解决现有技术在处理移动设备操作任务时面临的两大挑战:任务进度导航和焦点内容导航。这些挑战在单一智能体架构下很难有效解决,主要是因为操作历史序列很长,且包含交错的文本和图像数据,这限制了性能。Mobile-Agent-v2在任务完成方面比单一智能体架构的Mobile-Agent有超过30%的性能提升,并且代码已经开源。

  • GitHub:https://github.com/X-PLUG/MobileAgent

例如,用户想要通过智能手机预订电影票。Mobile-Agent-v2的规划智能体会根据用户的历史操作(如打开购票应用、选择电影、选择座位等)生成任务进度。决策智能体会根据这个任务进度来决定下一步操作,比如输入预订信息。如果决策智能体在执行操作时出现了错误,比如错误地选择了座位,反思智能体会检测到这个错误,并指导决策智能体重新选择正确的座位。最终,用户可以成功预订电影票,而不需要手动更正任何步骤。

主要功能与特点:

  1. 多智能体架构:Mobile-Agent-v2包含三个智能体:规划智能体(planning agent)、决策智能体(decision agent)和反思智能体(reflection agent)。
  2. 任务进度导航:规划智能体负责将长篇交错的图像-文本历史操作压缩成纯文本的任务进度,便于决策智能体导航。
  3. 焦点内容保持:设计了一个记忆单元,随着任务的进展由决策智能体更新,以保留焦点内容。
  4. 错误操作纠正:反思智能体观察每次操作的结果,并相应地处理任何错误。

工作原理:

  • 规划智能体:根据历史操作生成任务进度,并将其传递给决策智能体。
  • 决策智能体:根据当前任务进度、当前屏幕状态和反思结果来执行操作,并更新记忆单元中的焦点内容。
  • 反思智能体:观察决策智能体操作前后的屏幕变化,判断操作是否符合预期,并在发现错误时采取相应措施。

具体应用场景:

  • 移动设备自动化操作:例如,自动执行手机上的一系列操作,如设置闹钟、发送消息、浏览网页等。
  • 多步骤任务执行:在需要连续执行多个步骤来完成任务的场景中,如在手机上预订电影票或在线购物。
  • 错误恢复:在操作过程中,如果某个步骤执行错误,反思智能体可以检测到并指导决策智能体重新执行正确的操作。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论