多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程

分类:大语言模型 | 热度:18 ℃

香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、 耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V,它专注于自动化数据科学和工程工作流程。随着视觉-语言模型(VLMs)在多模态理解和代码生成方面的进步,基于VLMs的智能代理有望通过生成SQL查询、Python代码和GUI操作来自动化这些工作流程。这种自动化不仅能提高专家的生产力,还能让更多人接触到大规模数据分析。

  • 项目主页:https://spider2-v.github.io
  • GitHub:https://github.com/xlang-ai/Spider2-V

Spider2-V的实验结果表明,现有的基于LLM/VLM的智能代理在自动化整个数据工作流程方面还不够可靠(成功率为14.0%)。即使在有详细步骤指导的情况下,这些代理在执行需要精细、知识密集型GUI操作的任务时仍然表现不佳(成功率为16.2%)。这表明在实现数据科学和工程工作流程的自动化方面,还有很长的路要走。

主要功能和特点:

  1. 多模态理解:Spider2-V能够理解自然语言指令和屏幕截图,以及辅助树(accessibility tree)等多模态输入。
  2. 代码生成与GUI操作:智能代理能够生成代码并执行图形用户界面(GUI)上的操作,如点击按钮、输入文本等。
  3. 真实环境模拟:Spider2-V提供了一个真实的计算机环境,代理可以在其中模拟人类行为,如在数据软件系统中进行操作。

工作原理:

  1. 任务定义:智能代理被建模为部分可观测马尔可夫决策过程(POMDP),根据当前的观察结果生成可执行的动作。
  2. 环境交互:代理通过与计算机环境的动态多轮交互来执行预测的动作,如点击屏幕的特定像素或通过键盘输入代码。
  3. 任务评估:任务完成后,通过任务特定的函数来检索结果,并评估是否成功。

具体应用场景:

  1. 数据仓库:例如,将Google Drive中的文件夹中的数据加载到BigQuery数据集中的新表中。
  2. 数据转换:比如,使用dbt(数据构建工具)来转换数据,并在Airflow中编排任务。
  3. 数据可视化:在Metabase或Superset中创建图表和仪表板。

举例说明:

假设你是一名数据科学家,需要将一个CSV文件中的数据上传到Snowflake数据库,并生成一个数据可视化图表。使用Spider2-V,你可以定义一个任务,让智能代理自动完成以下步骤:

  • 在Snowflake UI上创建一个新的工作表。
  • 编写SQL查询,将CSV文件中的数据插入到数据库中。
  • 在数据可视化工具中创建一个图表,展示特定数据的趋势。
  • 将生成的图表保存到本地计算机上。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论