945新开传奇网站,网站建设费用,怎么做同学录的网站,响应式网站制作流程图目录三、Python爬虫的构建User-Agnet代理池3.1 自定义UA代理池3.2 模块随机获取UA三、Python爬虫的构建User-Agnet代理池
在编写爬虫程序时#xff0c;一般都会构建一个 User-Agent #xff08;用户代理#xff09;池#xff0c;就是把多个浏览器的 UA 信息放进列表中一般都会构建一个 User-Agent 用户代理池就是把多个浏览器的 UA 信息放进列表中然后再从中随机选择。构建用户代理池能够避免总是使用一个 UA 来访问网站因为短时间内总使用一个 UA 高频率访问的网站可能会引起网站的警觉从而封杀掉 IP。
3.1 自定义UA代理池
构建代理池的方法也非常简单在您的 Pycharm 工作目录中定义一个 ua_info.py 文件并将以下 UA 信息以列表的形式粘贴到该文件中如下所示
ua_list [Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11,User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11,Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1,Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0),Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0, Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1,Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1, Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1,
]经过上述操作用户代理池就构建成功。
3.2 模块随机获取UA
您也可以使用专门第三方的模块来随机获取浏览器 UA 信息不过该模块需要单独安装安装方式如下
pip install fake-useragent下载安装成功后演示如下代码
from fake_useragent import UserAgent# 实例化一个对象
ua UserAgent()
# 随机获取一个ie浏览器ua
print(ua.ie)
print(ua.ie)
# 随机获取一个火狐浏览器ua
print(ua.firefox)
print(ua.firefox)上面代码运行结果如下 -
Mozilla/4.0 (compatible; MSIE 6.0b; Windows NT 4.0)
Mozilla/4.0 (compatible; MSIE 6.0b; Windows NT 5.0; YComp 5.0.0.0) (Compatible; ; ; Trident/4.0)
Mozilla/5.0 (Windows; U; Windows NT 5.1; sv-SE; rv:1.8.1.17) Gecko/20080829 Firefox/2.0.0.17
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:14.0) Gecko/20120405 Firefox/14.0a1