当前位置：首页 > 优惠 >大语言模型>文章详情

多模态智能代理基准测试Spider2-V：专注于自动化数据科学和工程工作流程

推荐人：暴走AI| 商城: AI | 2年前 (2024-07-17)| 分类：大语言模型 | 热度：502 ℃

已关闭评论

多模态智能代理基准测试Spider2-V：专注于自动化数据科学和工程工作流程

AI

香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V，它专注于自动化数据科学和工程工作流程。随着视觉-语言模型（VLMs）在多模态理解和代码生成方面的进步，基于VLMs的智能代理有望通过生成SQL查询、Python代码和GUI操作来自动化这些工作流程。这种自动化不仅能提高专家的生产力，还能让更多人接触到大规模数据分析。

项目主页：https://spider2-v.github.io
GitHub：https://github.com/xlang-ai/Spider2-V

Spider2-V的实验结果表明，现有的基于LLM/VLM的智能代理在自动化整个数据工作流程方面还不够可靠（成功率为14.0%）。即使在有详细步骤指导的情况下，这些代理在执行需要精细、知识密集型GUI操作的任务时仍然表现不佳（成功率为16.2%）。这表明在实现数据科学和工程工作流程的自动化方面，还有很长的路要走。

主要功能和特点：

多模态理解：Spider2-V能够理解自然语言指令和屏幕截图，以及辅助树（accessibility tree）等多模态输入。
代码生成与GUI操作：智能代理能够生成代码并执行图形用户界面（GUI）上的操作，如点击按钮、输入文本等。
真实环境模拟：Spider2-V提供了一个真实的计算机环境，代理可以在其中模拟人类行为，如在数据软件系统中进行操作。

工作原理：

任务定义：智能代理被建模为部分可观测马尔可夫决策过程（POMDP），根据当前的观察结果生成可执行的动作。
环境交互：代理通过与计算机环境的动态多轮交互来执行预测的动作，如点击屏幕的特定像素或通过键盘输入代码。
任务评估：任务完成后，通过任务特定的函数来检索结果，并评估是否成功。

具体应用场景：

数据仓库：例如，将Google Drive中的文件夹中的数据加载到BigQuery数据集中的新表中。
数据转换：比如，使用dbt（数据构建工具）来转换数据，并在Airflow中编排任务。
数据可视化：在Metabase或Superset中创建图表和仪表板。

举例说明：

假设你是一名数据科学家，需要将一个CSV文件中的数据上传到Snowflake数据库，并生成一个数据可视化图表。使用Spider2-V，你可以定义一个任务，让智能代理自动完成以下步骤：

在Snowflake UI上创建一个新的工作表。
编写SQL查询，将CSV文件中的数据插入到数据库中。
在数据可视化工具中创建一个图表，展示特定数据的趋势。
将生成的图表保存到本地计算机上。

Spider2-V

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：视频占用模型（VOCs）：专为支持下游控制任务而设计，它们在紧凑的潜在空间中运行，避免了对单个像素进行预测的需要

下一篇： DataDream：通过少量的真实图像（即“少样本”或“few-shot”数据）来指导生成更真实、更多样化的训练数据集

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录