搜索

回答

试试Scrapegraph-ai

Scrapegraph-ai 是一个基于大型语言模型（LLM）和代理工作流（Agent Workflow）构建的下一代网络爬虫，它利用了前沿的人工智能技术来提高网络数据抓取的效率和准确性。 800_auto

支持 Groq、Llama3 等模型，Prompt 指挥抓取：这表明 Scrapegraph-ai 支持使用特定的查询语言（如 Groq）和大型语言模型（如 Llama3）来指导爬虫的行为。通过使用 Prompt（提示），用户可以更精确地控制爬虫抓取的内容，这使得爬虫能够更智能地理解和响应用户的需求。

支持 Playwright 处理 JS 渲染的网页：Playwright 是一个用于自动化跨浏览器测试的库，它支持无头模式，并且能够处理 JavaScript 渲染的网页。这意味着 Scrapegraph-ai 可以处理那些依赖于 JavaScript 动态加载内容的复杂网站，这对于传统的静态爬虫来说是一个挑战。

基于 graph builder 与 html、image、speech 节点可以自定义抓取和 parse 逻辑：Scrapegraph-ai 提供了一个图构建器（graph builder），允许用户自定义抓取逻辑。它支持对 HTML、图像和语音等不同类型的数据节点进行抓取和解析。这意味着用户可以根据自己的需求定制爬虫的行为，使其能够从网页中提取特定的数据。

安装

pip install scrapegraphai

playwright install

示例代码，后端大模型使用了ollama

from scrapegraphai.graphs import SmartScraperGraph

graph_config = {
    "llm": {
        "model": "ollama/mistral",
        "temperature": 0,
        "format": "json",  # Ollama needs the format to be specified explicitly
        "base_url": "http://localhost:11434",  # set Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # set Ollama URL
    }
}

smart_scraper_graph = SmartScraperGraph(
    prompt="List me all the articles",
    # also accepts a string with the already downloaded HTML code
    source="https://perinim.github.io/projects",
    config=graph_config
)

result = smart_scraper_graph.run()
print(result)

github:https://github.com/VinciGit00/Scrapegraph-ai

网友回复

我知道答案，我要回答

我有问题

私活外包

回答

开发了一个网站ai聊天助手

一个月开发一套类似coze的智能体平台

部署一套内网离线ai助理

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

技术上如何解决被曝光的ai投毒geo行为？

有没有哪个大模型可以根据声音和文字描述生成带声音的视频？

如何实现华为手机终端设备之间隔空握拳抓取传送信息？

WinUI3和Electron有啥不同？

有哪些版权中心可以合作发布短剧漫剧进行赚钱？

ai装修解压视频提示词如何写？

有哪些视频钩子可以解决5s完播低问题？

seedance2如何根据一张九宫格分镜头图片生成ai视频短剧？

www.gstatic.com打开报错net::ERR_TUNNEL_CONNECTION_FAILED

果蝇大脑神经在计算机中复原意味人脑神经和意识也可在计算机中复原？