搜索

+

95

-

selenium爬取网页资源如何防止被服务端识别？

python 安全其他

selenium爬取网页资源如何防止被服务端识别？

网友回复

+

15

-

在使用Selenium爬取网页资源时，为了防止被服务端识别，你可以采取以下措施：

设置User-Agent:更改默认的User-Agent，模拟真实用户的浏览器请求。

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3")
driver = webdriver.Chrome(options=options)

模拟浏览行为:模拟人类的浏览行为，例如随机暂停、滚动页面、点击链接等，以减少被识别为机器人行为的可能性。

import time
import random

driver.get('https://example.com')

# 随机等待时间
time.sleep(random.uniform(2, 5))

# 滚动页面
driver.execu...

点击查看剩余70%

+

15

-

使用Selenium进行网页爬取时，防止被服务端识别和阻止是一个常见挑战。以下是一些方法和技巧，可以帮助你尽量减少被服务端识别的风险：

1. 模拟正常用户行为随机等待时间: 在执行每个操作（如点击、输入等）之间，添加随机的等待时间，而不是固定时间间隔。鼠标和键盘操作: 模拟真实用户的鼠标移动和键盘输入，而不是直接调用元素方法。2. 设置用户代理（User-Agent）修改User-Agent: 在Selenium中更改浏览器的User-Agent字符串，以模拟不同的浏览器和设备。可以定期更换User-Agent以增加多样性。

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3")

driver = webdriver.Chrome(options=options)

3. 禁用浏览器自动化特征禁用WebDriver特征: 某些网站会检查navigator.webdriver属性，以检测是否在使用Selenium。可以通过以下方式禁用该属性：

options.add_experimen...

点击查看剩余70%

我知道答案，我要回答

我有问题

最新提问