新型基准测试VideoGUI:专门用于评估图形用户界面(GUI)自动化助手

分类:大语言模型 | 热度:66 ℃

新加坡国立大学和 微软的研究人员推出新型基准测试VideoGUI,它专门用于评估图形用户界面(GUI)自动化助手。GUI自动化是指让计算机程序自动执行图形界面中的操作,比如点击按钮、输入文字、拖拽对象等,这在很多领域都有广泛的应用前景,比如提高办公效率、简化网页浏览等。

  • 项目主页:https://showlab.github.io/videogui

例如,你正在学习如何使用视频编辑软件Adobe Premiere Pro来制作一个视频过渡效果。通过VideoGUI,自动化助手可以观看教学视频,理解并执行视频中展示的步骤,比如添加一个过渡效果、调整参数等,最终自动完成视频编辑任务。这个过程展示了自动化助手在视觉中心的GUI任务上的学习和执行能力。

主要功能:

  • 多模态评估:VideoGUI能够从视频教程中获取任务,评估自动化助手在视觉中心的GUI任务上的表现。
  • 分层评估过程:它通过一个分层的评估过程来检查自动化助手在不同层面的表现,包括高级规划、中级规划和原子操作执行。

主要特点:

  • 来源于教学视频:VideoGUI的任务来源于高质量的网络教学视频,这些视频通常展示如何使用专业软件完成复杂任务。
  • 覆盖多种软件:基准测试涵盖了包括Adobe Photoshop、Stable Diffusion WebUI等在内的多种专业和新颖的软件。
  • 复杂活动:它专注于评估自动化助手在执行复杂活动(如视频编辑)时的能力。

工作原理:

  1. 数据构建:从YouTube等平台手动选择教学视频,并在模拟环境中记录用户行为,如点击、拖拽、打字和滚动。
  2. 分层评估
    • 高级规划:从视觉条件中重建程序性子任务,不依赖语言描述。
    • 中级规划:根据视觉状态(如屏幕截图)和目标生成精确动作叙述序列。
    • 原子操作执行:执行特定动作,如点击指定元素。
  3. 评估指标:为每个层面设计了评估指标,比如点击、拖拽、打字和滚动的准确性。

具体应用场景:

  • 专业软件操作:在需要使用专业软件如Photoshop进行图像编辑的场景中,自动化助手可以按照预设的步骤自动完成一系列操作。
  • 教学辅助:在教学环境中,自动化助手可以根据教学视频自动演示软件操作过程。
  • 办公自动化:在办公场景中,自动化助手可以帮助完成日常的计算机任务,如制作PPT、编辑文档等。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论