试试Scrapegraph-ai
Scrapegraph-ai 是一个基于大型语言模型(LLM)和代理工作流(Agent Workflow)构建的下一代网络爬虫,它利用了前沿的人工智能技术来提高网络数据抓取的效率和准确性。
支持 Groq、Llama3 等模型,Prompt 指挥抓取:这表明 Scrapegraph-ai 支持使用特定的查询语言(如 Groq)和大型语言模型(如 Llama3)来指导爬虫的行为。通过使用 Prompt(提示),用户可以更精确地控制爬虫抓取的内容,这使得爬虫能够更智能地理解和响应用户的需求。
支持 Playwright 处理 JS 渲染的网页:Playwright 是一个用于自动化跨浏览器测试的库,它支持无头模式,并且能够处理 JavaScript 渲染的网页。这意味着 Scrapegraph-ai 可以处理那些依赖于 JavaScript 动态加载内容的复杂网站,这对于传统的静态爬虫来说是一个挑战。
基于 graph builder 与 html、image、speech 节点可以自定义抓取和 parse 逻辑:Scrapegraph-ai 提供了一个图构建器(graph builder),允许用户自定义抓取逻辑。它支持对 HTML、图像和语音等不同类型的数据节点进行抓取和解析。这意味着用户可以根据自己的需求定制爬虫的行为,使其能够从网页中提取特定的数据。
安装
pip install scrapegraphai playwright install示例代码,后端大模型使用了ollama
from scrapegraphai.graphs import SmartScraperGraph graph_config = { "llm": { "model": "ollama/mistral", "temperature": 0, "format": "json", # Ollama needs the format to be specified explicitly "base_url": "http://localhost:11434", # set Ollama URL }, "embeddings": { "model": "ollama/nomic-embed-text", "base_url": "http://localhost:11434", # set Ollama URL } } smart_scraper_graph = SmartScraperGraph( prompt="List me all the articles", # also accepts a string with the already downloaded HTML code source="https://perinim.github.io/projects", config=graph_config ) result = smart_scraper_graph.run() print(result)
github:https://github.com/VinciGit00/Scrapegraph-ai
网友回复
DLNA与UPnP的区别和不同?
苏超自建抢票app,通过先预约再抽签化解高并发抢票?
python如何让给电脑在局域网中伪装成电视接收手机的投屏图片视频播放?
如何结合python+js如何自己的视频编码与加密播放直播?
python如何在电脑上通过局域网将本地视频或m3u8视频投屏电视播放?
腾讯视频爱奇艺优酷vip电影电视剧视频如何通过python绕过vip收费直接观看?
有没有可免费观看全球电视台直播m3u8地址url的合集?
有没有实现观影自由的免vip影视苹果 CMS V10 API的可用url?
python如何实时检测电脑usb插入检测报警?
如何判断真人操作的鼠标移动直线轨迹与机器操作的轨迹?