微软于2月8日推出了一个以用户界面(UI)为核心的Agent(智能体)—UFO,它专门为Windows操作系统设计,能够理解和执行用户的自然语言请求。UFO利用了GPT-Vision的能力,通过观察和分析Windows应用程序的图形用户界面(GUI),实现在多个应用程序之间无缝导航和操作,完成用户的任务。
GitHub地址:https://github.com/microsoft/UFO
论文地址:https://arxiv.org/abs/2402.07939
该框架还集成了一个控制交互模块,使得代理可以在无需人为干预的情况下自主操作,实现完全自动化的执行流程。因此,UFO将原本艰巨且耗时的任务转化为仅通过自然语言命令即可轻松完成的简单任务。据了解,UFO是首个专为Windows操作系统环境下任务量身定制的UI Agent。
主要功能:
- 自然语言理解: UFO能够理解用户的自然语言指令,并将其转化为具体的操作。
- 多应用交互: UFO可以在不同的Windows应用程序之间切换,执行跨越多个应用的复杂任务。
- 自动化执行: UFO能够自动执行任务,无需人工干预,将用户请求转化为实际的系统操作。
- 安全机制: UFO在执行敏感操作(如发送邮件、删除文件等)时,会请求用户确认,确保操作的安全性。
主要特点:
- 双代理框架: UFO包含两个代理,一个是应用选择代理(AppAgent),负责选择适合的应用程序来完成任务;另一个是动作选择代理(ActAgent),负责在选定的应用程序中执行具体动作。
- 控制交互模块: UFO使用控制交互模块将GPT-Vision的决策转化为实际的应用程序操作。
- 可扩展性: 用户可以为UFO定制特定的操作和控制,以适应特定的任务和应用程序。
- 交互模式: UFO支持与用户的迭代交互,允许用户在任务完成后提出新请求或对现有任务进行修改。
工作原理: UFO首先接收用户的自然语言请求,然后AppAgent分析请求并选择适当的应用程序。接着,ActAgent在选定的应用程序中执行一系列操作,如点击按钮、输入文本等,以完成任务。在整个过程中,UFO会捕获应用程序的屏幕截图,并对UI元素进行注释,以便更好地理解和操作。UFO还使用了一个名为pywinauto的Python库来自动化Windows GUI的操作。
具体应用场景:
- 办公自动化: UFO可以帮助用户在Word、PowerPoint、Outlook等办公软件中执行任务,如撰写和发送邮件、创建和编辑文档、管理日程等。
- 图像和视频处理: UFO可以在Photos应用中查看和编辑图片,或者在视频编辑软件中应用特定的效果。
- 文件管理: UFO可以在文件资源管理器中进行文件操作,如打开、删除、移动文件等。
- 网络浏览: UFO可以在Edge浏览器中搜索信息、下载文件、访问社交媒体等。
- 跨应用任务: UFO能够处理需要在多个应用程序之间切换的任务,例如从Word文档中提取信息,结合图片内容,然后在Outlook中撰写并发送邮件。
0条评论