AMEX数据集:为了提升移动设备上AI代理(也就是智能助手)的能力而设计

分类:大语言模型 | 热度:18 ℃

香港中文大学 MMLab、上海交通大学、 上海人工智能实验室和 vivo人工智能实验室的研究人员推出一个名为“Android Multi-annotation EXpo(AMEX)”的数据集,它是为了提升移动设备上AI代理(也就是智能助手)的能力而设计的。这些AI代理能够通过直接与图形用户界面(GUI)交互来完成复杂的任务。简单来说,AMEX数据集就像是一套丰富的“训练手册”,教会AI如何理解和操作手机上的各种应用。

  • 项目主页:https://yuxiangchai.github.io/AMEX
  • GitHub:https://github.com/YuxiangChai/AMEX-codebase
  • 数据:https://huggingface.co/datasets/Yuxiang007/AMEX

例如,你的智能手机上有一个智能助手,它可以帮你打开应用、搜索信息、设置提醒等。但是,如果想让这个助手做更复杂的事情,比如在某个购物应用中找到最便宜的男士皮带,它就需要更深入地理解应用界面和用户指令。AMEX数据集就是为了训练这样的智能助手而创建的。

AMEX数据集:为了提升移动设备上AI代理(也就是智能助手)的能力而设计

主要功能

  • 提供了超过10万个高清手机应用截图。
  • 这些截图包含多层次的注释,比如界面元素的定位、功能描述和复杂的自然语言指令。

主要特点

  • 多层次注释:与现有数据集不同,AMEX提供了三种级别的注释,帮助AI更好地理解界面和操作。
  • 大规模和高覆盖:数据集包含110个流行应用的超过104K截图,覆盖了多样的操作和指令。
  • 高分辨率:截图都是高清的,确保了AI可以看到和人类用户相同的细节。
  • 开源:AMEX数据集、模型和评估工具都是开源的,便于研究者使用和进一步研究。

工作原理

AMEX数据集的创建涉及到以下几个步骤:

  1. 数据收集:使用模拟器和自动化工具收集操作数据和截图。
  2. 元素定位:确定截图中哪些元素是可以交互的,比如按钮、链接等。
  3. 功能描述:使用GPT(一种大型语言模型)生成每个元素的功能描述。
  4. 指令生成:创建包含多步骤操作的复杂指令,让AI学会如何分步骤完成任务。

具体应用场景

  • 移动设备助手:智能手机和平板电脑上的虚拟助手,可以执行更复杂的用户请求。
  • 自动化测试:在应用开发过程中,自动化测试界面元素的功能。
  • 辅助技术:帮助视觉障碍用户通过语音指令操作手机。
  • 跨应用操作:在不同应用之间执行连续的任务,比如从网页上找到信息后在另一个应用中使用。

论文还提到了一个基线模型SPHINX Agent,这是一个用AMEX数据集训练的AI代理,可以作为未来研究的起点。通过这些工具和数据集,研究人员可以开发出更智能、更能干的移动设备AI代理。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论