电子商务网站建设公,桌面网站怎么做,翻硬币网站怎么做,特效视频网站分模块编写爬虫#xff08;一#xff09;
连接器模块基本思路#xff1a;
输入#xff1a;url连接输出#xff1a;url对应的html文本步骤#xff1a; 定义url和user-agent获取网页的requests对象捕获异常#xff1a; 403#xff1a;禁止访问404#xff1a;页面失效5…分模块编写爬虫一
连接器模块基本思路
输入url连接输出url对应的html文本步骤 定义url和user-agent获取网页的requests对象捕获异常 403禁止访问404页面失效503页面临时不可访问可隔段时间重试301网页重定向Timeout请求超时 若连接成功将返回状态码200指定requests对象的编码方式为utf-8返回页面的文本
import requests
from requests import ReadTimeout, ConnectionError, RequestException# 定义url与请求头
URL http://www.hzau.edu.cn/
#使用字典结构
HEADERS {User-Agent: ?Googlebot
}#web连接器模块输入url返回页面文本
def getHtml(url):global HEADERStry:result req.get(url, HEADERS)except ConnectionError:returnexcept ReadTimeout:returnexcept RequestException:returnelse:if result.status_code 200:# 指定网页的编码方式result.encoding utf-8# 返回网页文本信息return result.textelif result.status_code 404:returnelif result.status_code 403:returnif __name__ __main__:print(getHtml(URL))