综合数据集GUI Odyssey:训练和评估跨应用(Cross-App)图形用户界面(GUI)导航代理

分类:大语言模型 | 热度:107 ℃

上海人工智能实验室OpenGVLab、香港大学、南京大学、哈尔滨工业大学和上海交通大学的研究人员推出综合数据集GUI Odyssey,它旨在训练和评估跨应用(Cross-App)图形用户界面(GUI)导航代理。这些代理能够模拟用户与智能手机应用的交互,以自动化完成一些任务,从而提高用户体验。研究团队还推出OdysseyAgent,这是一个基于GUI Odyssey数据集训练的多模态跨应用导航代理。通过大量实验,OdysseyAgent在跨应用导航任务中的准确性超过了现有的模型。研究者们希望GUI Odyssey和OdysseyAgent能够推动通用GUI代理领域的研究。

  • GitHub:https://github.com/OpenGVLab/GUI-Odyssey

例如,你想在社交媒体上分享一张图片,通常你需要打开相册应用选择图片,然后切换到社交媒体应用并进行分享。有了GUI Odyssey训练出的代理,它可以自动完成这一系列跨应用的操作,你只需要给出一个指令,比如“分享这张图片到Instagram”,代理就会自动执行这整个流程。

主要功能:

  • 跨应用导航:能够处理涉及多个应用的复杂任务,如社交媒体内容分享、消息应用和日历间的日程协调等。

主要特点:

  • 大规模数据集:包含7735个不同移动设备上的剧集,涵盖6种跨应用任务类型,201个应用和1399个应用组合。
  • 多模态代理:利用大型视觉-语言模型(LVLMs)来理解用户指令和屏幕截图,预测下一步操作。

工作原理:

  • 数据收集:通过Android模拟器在不同设备上记录用户完成特定任务的交互过程。
  • 模型训练:使用预训练的Qwen-VL模型,并引入历史重采样模块来优化模型对历史截图的记忆和利用。
  • 任务执行:代理接收用户指令和当前屏幕截图,通过模型预测并执行相应的动作,如点击、滚动、输入文本等。

具体应用场景:

  • 辅助残障人士:对于身体有障碍的用户,自动化GUI导航代理可以减少他们与设备的交互难度。
  • 日常任务自动化:用户可以创建一个代理来自动完成一些日常任务,如网上购物、社交媒体管理和日程安排等。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论