+
80
-

网站如何禁止selenium爬取信息?

网站如何禁止selenium爬取信息?


网友回复

+
0
-

Selenium 是一种自动化测试工具,它可以模拟用户在浏览器中的操作,包括访问网页、填写表单、点击按钮等。因此,如果您想限制 Selenium 访问,服务端必须要识别出 Selenium 访问,可以考虑以下几个方面:

User-Agent:Selenium 访问通常使用的是 WebDriver,因此可以通过检查 User-Agent 来判断是否是 Selenium 访问。Selenium WebDriver 的 User-Agent 通常包含 "webdriver" 或 "selenium" 字符串,例如:"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.59"。

行为模式:Selenium 访问通常具有一些特殊的行为模式,例如访问速度较快、操作频率较高、访问页面时不会加载图片等。因此,可以通过检查访问行为模式来判断是否是 Selenium 访问。

JavaScript:Selenium 访问通常使用 JavaScript 来模拟用户的操作,因此可以通过检查页面中是否存在 Selenium WebDriver 提供的 JavaScript 对象或方法来判断是否是 Selenium 访问。

需要注意的是,Selenium 访问可能会使用一些技术手段来模拟真实用户的行为,例如设置随机延时、使用代理等,因此识别 Selenium 访问并不是一件十分准确的事情。如果您需要对访问进行严格的限制或过滤,建议采用多种方法进行判断和过滤。

目前最强大的是cloudflare的5秒盾,而且算法还在不断的更新中,可以注册一个cloudfare设置网页5 秒盾来防止Selenium 对你的内容的爬取。

我知道答案,我要回答