香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、 耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V,它专注于自动化数据科学和工程工作流程。随着视觉-语言模型(VLMs)在多模态理解和代码生成方面的进步,基于VLMs的智能代理有望通过生成SQL查询、Python代码和GUI操作来自动化这些工作流程。这种自动化不仅能提高专家的生产力,还能让更多人接触到大规模数据分析。
- 项目主页:https://spider2-v.github.io
- GitHub:https://github.com/xlang-ai/Spider2-V
Spider2-V的实验结果表明,现有的基于LLM/VLM的智能代理在自动化整个数据工作流程方面还不够可靠(成功率为14.0%)。即使在有详细步骤指导的情况下,这些代理在执行需要精细、知识密集型GUI操作的任务时仍然表现不佳(成功率为16.2%)。这表明在实现数据科学和工程工作流程的自动化方面,还有很长的路要走。
主要功能和特点:
- 多模态理解:Spider2-V能够理解自然语言指令和屏幕截图,以及辅助树(accessibility tree)等多模态输入。
- 代码生成与GUI操作:智能代理能够生成代码并执行图形用户界面(GUI)上的操作,如点击按钮、输入文本等。
- 真实环境模拟:Spider2-V提供了一个真实的计算机环境,代理可以在其中模拟人类行为,如在数据软件系统中进行操作。
工作原理:
- 任务定义:智能代理被建模为部分可观测马尔可夫决策过程(POMDP),根据当前的观察结果生成可执行的动作。
- 环境交互:代理通过与计算机环境的动态多轮交互来执行预测的动作,如点击屏幕的特定像素或通过键盘输入代码。
- 任务评估:任务完成后,通过任务特定的函数来检索结果,并评估是否成功。
具体应用场景:
- 数据仓库:例如,将Google Drive中的文件夹中的数据加载到BigQuery数据集中的新表中。
- 数据转换:比如,使用dbt(数据构建工具)来转换数据,并在Airflow中编排任务。
- 数据可视化:在Metabase或Superset中创建图表和仪表板。
举例说明:
假设你是一名数据科学家,需要将一个CSV文件中的数据上传到Snowflake数据库,并生成一个数据可视化图表。使用Spider2-V,你可以定义一个任务,让智能代理自动完成以下步骤:
- 在Snowflake UI上创建一个新的工作表。
- 编写SQL查询,将CSV文件中的数据插入到数据库中。
- 在数据可视化工具中创建一个图表,展示特定数据的趋势。
- 将生成的图表保存到本地计算机上。
0条评论