潜山网站建设公司哪里有,网站打开出现建设中,之前做的网站推广怎么删除,做网站的怎么挣钱基本原理 可以把网页与网页之间的链接关系比作节点中的连线#xff0c;爬虫可以根据网页中的关系获取后续的网页#xff0c;当整个网站涉及的页面全部被爬虫访问到后#xff0c;网站的数据就被访问下来了。
1.爬虫概述 简单点讲#xff0c;爬虫就是获取网页并提取和保存信…基本原理 可以把网页与网页之间的链接关系比作节点中的连线爬虫可以根据网页中的关系获取后续的网页当整个网站涉及的页面全部被爬虫访问到后网站的数据就被访问下来了。
1.爬虫概述 简单点讲爬虫就是获取网页并提取和保存信息的自动化程序。 总结原理就是构造发送请求-获取网页-解析提取-存储
获取网页** 获取网页这里指的就是获取网页源代码因为源代码包含网页的部分有用信息。 向网站的服务器发送一个请求服务器返回的响应体便是网页源代码。所以爬虫获取网页最关键的部分就是构造一个请求并发送给服务器然后接收到响应并对其进行解析。 python对此提供了许多库可以帮助我们实现比如urllib、requests等我们可以用这些库帮助我们完成http请求操作。提取信息 发送请求接收到响应体中的源代码后接下来就是分析源代码从中提取到我们想要的数据。最通用也是比较万能的方法就是正则表达式但是构造正则表达式比较复杂也容易比较出错。 另外可以根据网页结构的规则可以根据网页节点属性、CSS选择器、xpath来提取网页信息如Beautiful Soup、pyquery、lxml等。使用这些库可以高效的从源代码中提取网页信息如节点的属性、文本值等。保存数据 提取到信息后面考虑的就是要如何保存它来方便后续使用。保存数据形式多种多样可以简单的保存为TXT文本、JSON文本、CSV文件、XLSX文件等也可以保存到数据库如MySQL、MongoDB等还可以保存至远程服务器如借助SFTP操作等。自动化程序 爬虫可以替代人来完成上述操作在爬取的过程中可以进行各种异常处理、错误重试等操作确保爬取持续高效的运行。
2.能爬怎样的数据 网页中存在各种各样的信息最常见的就是常规网页这些网页对应着HTML代码最长抓取的就是HTML源代码。 另外可能有的网页中返回的不是HTML代码而是一个JSON字符串API接口大多是这种形式这种格式方便传输和解析。爬虫同样可以爬取这些数据而且解析提取会更加方便。 网页中还包含各种二进制数据利用爬虫我们可以保存这些二进制数据然后保存成对应的文件名。 除了上述数据网页中还存在各种扩展名文件如CSS、JavaScript和配置文件等。这些文件只要在浏览器里可以访问到就可以抓取下来。 上述内容其实都有对应的URLURL基于HTTP/HTTPS协议只要是这种数据爬虫都可以抓取。
3.JavaScript渲染的页面 有时候我们利用urllib、requests抓取网页时得到的源代码和浏览器中实际看到的并不一样。 这种问题其实十分常见因为现在越来越多的网页时采用Ajax、前端模块化工具构建的可能整个网页都是JavaScript渲染出来的也就是说HTML代码实际上就是一个空壳。 浏览器打开这种页面时首先会加载HTML内容接着浏览器会发现其中引入了js文件然后就会请求获取该文件执行其中的JavaScript代码JavaScript会改变HTML中的节点向其中添加内容最后得到完整页面。 用urllib、requests请求这种页面时得到的只是HTML代码它不会继续加载JavaScript文件所以也就无法得到完整网页内容。 对于这种情况我们可以分析源代码后台Ajax接口也可以使用Selenium、Splash、Pytteteer、Playwright这样的库来模拟JavaScript渲染。