LaVague是一款开源大语言模型框架,旨在实现自动化操作,特别是浏览器自动化操作。LaVague利用人工智能技术,通过自然语言查询生成网页自动化流程,并在浏览器上执行这些操作。它建立在开源项目的基础上,并利用本地或远程的开源模型,确保代理的透明性,同时确保与用户的利益保持一致。
特性:
- 自然语言处理:能够理解自然语言中的指令,以执行浏览器交互操作。
- Selenium集成:与Selenium无缝集成,实现网页浏览器的自动化。
- 开源:建立在诸如transformers和llama-index等开源项目之上,并利用本地或远程的开源模型,确保代理的透明性,同时确保其符合用户的利益。
- 隐私与控制的本地模型:支持诸如Gemma-7b等本地模型,使用户能够完全控制他们的AI助手,并确保隐私得到保障。
- 先进的AI技术:首先使用本地嵌入(bge-small-en-v1.5)执行RAG(检索增强生成)以提取与查询最相关的HTML片段,因为直接处理完整的HTML代码可能不适合上下文。然后利用Few-shot learning(少量样本学习)和Chain of Thought(思维链)来生成最相关的Selenium代码以执行操作,而无需为代码生成微调LLM(Nous-Hermes-2-Mixtral-8x7B-DPO)。
0条评论