新加坡国立大学和 微软的研究人员推出新型基准测试VideoGUI,它专门用于评估图形用户界面(GUI)自动化助手。GUI自动化是指让计算机程序自动执行图形界面中的操作,比如点击按钮、输入文字、拖拽对象等,这在很多领域都有广泛的应用前景,比如提高办公效率、简化网页浏览等。
- 项目主页:https://showlab.github.io/videogui
例如,你正在学习如何使用视频编辑软件Adobe Premiere Pro来制作一个视频过渡效果。通过VideoGUI,自动化助手可以观看教学视频,理解并执行视频中展示的步骤,比如添加一个过渡效果、调整参数等,最终自动完成视频编辑任务。这个过程展示了自动化助手在视觉中心的GUI任务上的学习和执行能力。
主要功能:
- 多模态评估:VideoGUI能够从视频教程中获取任务,评估自动化助手在视觉中心的GUI任务上的表现。
- 分层评估过程:它通过一个分层的评估过程来检查自动化助手在不同层面的表现,包括高级规划、中级规划和原子操作执行。
主要特点:
- 来源于教学视频:VideoGUI的任务来源于高质量的网络教学视频,这些视频通常展示如何使用专业软件完成复杂任务。
- 覆盖多种软件:基准测试涵盖了包括Adobe Photoshop、Stable Diffusion WebUI等在内的多种专业和新颖的软件。
- 复杂活动:它专注于评估自动化助手在执行复杂活动(如视频编辑)时的能力。
工作原理:
- 数据构建:从YouTube等平台手动选择教学视频,并在模拟环境中记录用户行为,如点击、拖拽、打字和滚动。
- 分层评估:
- 高级规划:从视觉条件中重建程序性子任务,不依赖语言描述。
- 中级规划:根据视觉状态(如屏幕截图)和目标生成精确动作叙述序列。
- 原子操作执行:执行特定动作,如点击指定元素。
- 评估指标:为每个层面设计了评估指标,比如点击、拖拽、打字和滚动的准确性。
具体应用场景:
- 专业软件操作:在需要使用专业软件如Photoshop进行图像编辑的场景中,自动化助手可以按照预设的步骤自动完成一系列操作。
- 教学辅助:在教学环境中,自动化助手可以根据教学视频自动演示软件操作过程。
- 办公自动化:在办公场景中,自动化助手可以帮助完成日常的计算机任务,如制作PPT、编辑文档等。
0条评论