ScrapeGraphAI 是一个基于 Python 的网络爬虫库,它结合了大语言模型(LLM)和直接图逻辑来为网站和本地文档(如 XML、HTML、JSON 等)创建抓取管道。这个库的设计理念是用户只需指定想要提取的信息,库就会自动完成抓取工作。
ScrapeGraphAI 提供了三种主要的抓取管道:
- SmartScraperGraph:这是一个单页抓取器,它只需要用户提供一个提示和一个输入源,就能够执行抓取任务。
- SearchGraph:这是一个多页抓取器,它能够从一个搜索引擎的前 n 个搜索结果中提取信息。
- SpeechGraph:这是一个单页抓取器,它不仅能从一个网站中提取信息,还能生成一个音频文件。
ScrapeGraphAI 支持通过 API 使用不同的大型语言模型,例如 OpenAI、Groq、Azure 和 Gemini。此外,它也支持使用本地模型,如 Ollama。使用这个库时,你可以选择最适合你需求的抓取管道,并根据你的具体需求配置 LLM。这样,无论是需要从单个网页提取信息,还是需要从一个搜索引擎的多个结果中收集数据,或者是需要将网页信息转换成语音,ScrapeGraphAI 都能够提供相应的解决方案。
- 官网:https://scrapegraph-doc.onrender.com/
- GitHub:https://github.com/VinciGit00/Scrapegraph-ai
- Demo:https://scrapegraph-ai-demo.streamlit.app
0条评论