网站营销教程,济宁网站运营策略,建筑焊工证查询网站官方网,贵阳住房和城乡建设局网站一、数据来源分析
想爬取一个网站的数据#xff0c;我们首先要进行数据分析。通过浏览器F12开发者工具栏进行抓包#xff0c;可以分析我们想要的数据来源。
通过关键字搜索#xff0c;可以找到相对应的数据包
二、爬虫实现
需要用到的模块为#xff1a;request#xf…一、数据来源分析
想爬取一个网站的数据我们首先要进行数据分析。通过浏览器F12开发者工具栏进行抓包可以分析我们想要的数据来源。
通过关键字搜索可以找到相对应的数据包
二、爬虫实现
需要用到的模块为requestparsel
1.发送请求
模拟浏览器对于分析得到的URL地址发送请求返回响应包
url https://example.com
#浏览器F12查看网络请求头中可以查看User-Agent目的是实现浏览器标识请求合法化
headers{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:132.0) Gecko/20100101 Firefox/132.0}
#使用request将响应数据传入res变量
res requests.get(urlurl,headersheaders)2.获取数据
获取响应的数据包
#创建Selector对象后你可以使用它来提取网页中的特定数据。例如你可以使用XPath或CSS选择器来查找元素
selector parsel.Selector(res.text)3.解析数据
解析数据内容获取我们想要的内容。
创建Selector对象后你可以使用它来提取网页中的特定数据。可以使用XPath或CSS选择器来查找元素
trs selector.css(CSS选择器)#遍历每一组数据for tr in trs:#获取每一行的第一个数据first tr.css(td:nth-child(1)::text).get()#将每一个数据写插入列表example_list.append(first)4.保存数据
将爬取下来的目标数据进行保存.
with open(example.txt,w,encodingutf-8) as f:for item in example.list:f.write(str(item)
)在使用with语句打开文件时不需要显式调用f.close()来关闭文件。with语句会在代码块执行完毕后自动关闭文件。