Skyvern利用大语言模型(LLMs)和计算机视觉技术,实现了基于浏览器的工作流程的自动化。它提供了一个简洁的API接口,能够全面自动化手动工作流程,彻底取代那些脆弱或不可靠的自动化解决方案。传统的浏览器自动化方法通常涉及为网站编写定制脚本,这些脚本往往依赖于DOM解析和基于XPath的交互。然而,每当网站布局发生变化时,这些交互就会失效,导致自动化流程中断。与此不同,Skyvern融合了计算机视觉和LLMs技术,能够实时解析视口内的元素,制定交互计划,并与这些元素进行智能交互。
官网:https://www.skyvern.com
GitHub:https://github.com/Skyvern-AI/skyvern
这种方法的优势在于:
- Skyvern能够操作从未见过的网站,因为它能够实时将视觉元素映射到完成工作流程所需的动作,无需任何定制代码。
- Skyvern对网站布局变化具有很强的适应性,因为它不依赖于预先确定的XPath或其他选择器进行导航。
- Skyvern利用LLMs进行交互推理,确保能够应对各种复杂情况。例如,如果您想从Geico获取汽车保险报价,对于“您18岁时是否有资格驾驶?”这一问题,Skyvern能够根据用户16岁获得驾照的事实进行智能推断。
- 在竞品分析场景中,Skyvern能够理解即使产品规格(如Arnold Palmer的罐装尺寸)存在细微差异,它们也可能是同一产品,从而避免了因数据误差导致的分析偏差。
0条评论