当前位置：首页 > 优惠 >大语言模型>文章详情

Mobile-Agent-v2: 通过多代理协作有效导航的移动设备操作助手

推荐人：暴走AI| 商城: AI | 11个月前 (06-06)| 分类：大语言模型 | 热度：234 ℃

已关闭评论

北京交通大学和阿里巴巴集团的研究人员推出移动设备操作助手Mobile-Agent-v2，它通过多智能体（多个代理）的协作来有效导航和执行任务。这个系统是为了解决现有技术在处理移动设备操作任务时面临的两大挑战：任务进度导航和焦点内容导航。这些挑战在单一智能体架构下很难有效解决，主要是因为操作历史序列很长，且包含交错的文本和图像数据，这限制了性能。Mobile-Agent-v2在任务完成方面比单一智能体架构的Mobile-Agent有超过30%的性能提升，并且代码已经开源。

GitHub：https://github.com/X-PLUG/MobileAgent

例如，用户想要通过智能手机预订电影票。Mobile-Agent-v2的规划智能体会根据用户的历史操作（如打开购票应用、选择电影、选择座位等）生成任务进度。决策智能体会根据这个任务进度来决定下一步操作，比如输入预订信息。如果决策智能体在执行操作时出现了错误，比如错误地选择了座位，反思智能体会检测到这个错误，并指导决策智能体重新选择正确的座位。最终，用户可以成功预订电影票，而不需要手动更正任何步骤。

主要功能与特点：

多智能体架构：Mobile-Agent-v2包含三个智能体：规划智能体（planning agent）、决策智能体（decision agent）和反思智能体（reflection agent）。
任务进度导航：规划智能体负责将长篇交错的图像-文本历史操作压缩成纯文本的任务进度，便于决策智能体导航。
焦点内容保持：设计了一个记忆单元，随着任务的进展由决策智能体更新，以保留焦点内容。
错误操作纠正：反思智能体观察每次操作的结果，并相应地处理任何错误。