香港中文大学 MMLab、上海交通大学、 上海人工智能实验室和 vivo人工智能实验室的研究人员推出一个名为“Android Multi-annotation EXpo(AMEX)”的数据集,它是为了提升移动设备上AI代理(也就是智能助手)的能力而设计的。这些AI代理能够通过直接与图形用户界面(GUI)交互来完成复杂的任务。简单来说,AMEX数据集就像是一套丰富的“训练手册”,教会AI如何理解和操作手机上的各种应用。
- 项目主页:https://yuxiangchai.github.io/AMEX
- GitHub:https://github.com/YuxiangChai/AMEX-codebase
- 数据:https://huggingface.co/datasets/Yuxiang007/AMEX
例如,你的智能手机上有一个智能助手,它可以帮你打开应用、搜索信息、设置提醒等。但是,如果想让这个助手做更复杂的事情,比如在某个购物应用中找到最便宜的男士皮带,它就需要更深入地理解应用界面和用户指令。AMEX数据集就是为了训练这样的智能助手而创建的。
主要功能
- 提供了超过10万个高清手机应用截图。
- 这些截图包含多层次的注释,比如界面元素的定位、功能描述和复杂的自然语言指令。
主要特点
- 多层次注释:与现有数据集不同,AMEX提供了三种级别的注释,帮助AI更好地理解界面和操作。
- 大规模和高覆盖:数据集包含110个流行应用的超过104K截图,覆盖了多样的操作和指令。
- 高分辨率:截图都是高清的,确保了AI可以看到和人类用户相同的细节。
- 开源:AMEX数据集、模型和评估工具都是开源的,便于研究者使用和进一步研究。
工作原理
AMEX数据集的创建涉及到以下几个步骤:
- 数据收集:使用模拟器和自动化工具收集操作数据和截图。
- 元素定位:确定截图中哪些元素是可以交互的,比如按钮、链接等。
- 功能描述:使用GPT(一种大型语言模型)生成每个元素的功能描述。
- 指令生成:创建包含多步骤操作的复杂指令,让AI学会如何分步骤完成任务。
具体应用场景
- 移动设备助手:智能手机和平板电脑上的虚拟助手,可以执行更复杂的用户请求。
- 自动化测试:在应用开发过程中,自动化测试界面元素的功能。
- 辅助技术:帮助视觉障碍用户通过语音指令操作手机。
- 跨应用操作:在不同应用之间执行连续的任务,比如从网页上找到信息后在另一个应用中使用。
论文还提到了一个基线模型SPHINX Agent,这是一个用AMEX数据集训练的AI代理,可以作为未来研究的起点。通过这些工具和数据集,研究人员可以开发出更智能、更能干的移动设备AI代理。
0条评论