当前位置：首页 > news >正文

网站上的公告怎么做参考文献多少钱可以注册一个公司

news 2026/4/15 11:10:09

网站上的公告怎么做参考文献,多少钱可以注册一个公司,西宁做网站ci君博却上,网站建设合同印花税爬虫之scrapy框架——基本原理和步骤爬取当当网#xff08;基本步骤#xff09; 下载scrapy框架创建项目#xff08;项目文件夹不能使用数字开头#xff0c;不能包含汉字#xff09;创建爬虫文件#xff08;1#xff09;第一步#xff1a;先进入到spiders文件中#x… 爬虫之scrapy框架——基本原理和步骤爬取当当网基本步骤下载scrapy框架创建项目项目文件夹不能使用数字开头不能包含汉字创建爬虫文件1第一步先进入到spiders文件中进入相应的位置2第二步创建爬虫文件3第三步查看创建的项目文件——检查路径是否正确运行爬虫代码查看robots协议——是否有反爬取机制——君子协议修改君子协议1查看某网站的君子协议2修改settings文件中君子协议 scrapy项目的结构response的常用属性和方法scrapy框架原理解析scrapy sell 工具调试——具体下载不说明当当网爬取案例1. 创建当当网爬虫项目2. 检查网址3. 在函数中打印一条数据看是否网站有反爬机制4. 定义数据结构——选择要爬取哪些属性5. 去网址分析数据——拿到xpath表达式1拿到图片2拿到名字3拿到价格 6. 编写函数7.运行后拿到数据8.保存数据1封装数据——yield提交给管道![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4aeebbc751de48d6b56f457a91bc0c65.png)2开启管道——保存内容 9.多条管道下载1定义管道类2在settings中开启管道 10.多页数据的下载1定义一个基本网址和page2重新调用def parse(self, response):函数——编写多页请求3修改allowed_domains的范围——一半多页请求范围编写域名即可 11.爬取核心代码下载scrapy框架 scrapy安装视频链接创建项目项目文件夹不能使用数字开头不能包含汉字 cmd: scrapy startproject 项目名称创建爬虫文件 1第一步先进入到spiders文件中进入相应的位置 cd 项目的名字\项目的名字\spiders2第二步创建爬虫文件 scrapy genspider 爬虫文件的名字要爬取的网页网址3第三步查看创建的项目文件——检查路径是否正确注意不满足时需要手动修改版本不同造成的结果不一运行爬虫代码 scrapy crawl 爬虫的名字查看robots协议——是否有反爬取机制——君子协议修改君子协议 1查看某网站的君子协议 2修改settings文件中君子协议 scrapy项目的结构 response的常用属性和方法 1爬去网站的源码数据 content_1response.txt2爬去网站的二进制源码数据 response.body3xpath方法可以用来解析response中的内容 response.xpath()4extract方法用来提取seletor对象的data属性值 response.extract()5extract_first方法用来提取seletor列表的第一个数据 response.extract()scrapy框架原理解析 scrapy sell 工具调试——具体下载不说明 1进入scrapy shell工具 scrapy shell 网址2可以看见有一个response对象 3可以对response对象进行操作调试不用像项目一样每次多要运行项目减少麻烦当当网爬取案例 1. 创建当当网爬虫项目 2. 检查网址 3. 在函数中打印一条数据看是否网站有反爬机制图1 图2 4. 定义数据结构——选择要爬取哪些属性 5. 去网址分析数据——拿到xpath表达式 1拿到图片 2拿到名字 3拿到价格 6. 编写函数 1懒加载处理图1——非第一张图片懒加载——有data-original图2——第一张图片和其他的图片的属性值不一样注第一张可以用src其他的用data-original 2代码解释如图 7.运行后拿到数据 scrapy crawl 爬虫的名字8.保存数据 1封装数据——yield提交给管道 2开启管道——保存内容图1 图2 9.多条管道下载 1定义管道类 2在settings中开启管道 10.多页数据的下载 1定义一个基本网址和page 2重新调用def parse(self, response):函数——编写多页请求 3修改allowed_domains的范围——一半多页请求范围编写域名即可 11.爬取核心代码 import scrapy from scrapy_dangdang_095.items import ScrapyDangdang095Itemclass DangSpider(scrapy.Spider):name dang#如果是多页请求的话需要调整 allowed_domains的范围——一般情况下只写域名allowed_domains [category.dangdang.com]start_urls [https://category.dangdang.com/cp01.28.01.12.00.00.html]# 第二页第三页的网址——一个网站数据结构应该是一样的# http://category.dangdang.com/pg2-cp01.28.01.12.00.00.html# http://category.dangdang.com/pg3-cp01.28.01.12.00.00.html#根网址base_urlhttps://category.dangdang.com/pgpage1def parse(self, response):#pipelines 下载数据#items 定义数据结构# print(检验是否有反爬机制)# src//ul[idcomponent_59]/li//img/src# alt//ul[idcomponent_59]/li//img/alt# price//ul[idcomponent_59]/li//p[classprice]/span[1]/text()# 共享li标签——所有的seletor对象都可以再次调用xpath方法#拿数据li_listresponse.xpath(//ul[idcomponent_59]/li)for li in li_list:#都返回的是列表srcli.xpath(.//img/data-original).extract_first()#第一张图片和其他的图片的属性值不一样#第一张可以用src其他的用data-original#反爬的——懒加载if src:scrsrcelse:srcli.xpath(.//img/src).extract_first()nameli.xpath(.//img/alt).extract_first()priceli.xpath(.//p[classprice]/span[1]/text()).extract_first()#导数据结构的包使用定义的数据结构#from scrapy_dangdang_095.items import ScrapyDangdang095Item#遍历一下得到一个对象——————将定义的数据封装为book#bookScrapyDangdang095Item(srcsrc,namename,priceprice)#yield就是类似return返回一个值——————获取一个book就将对象交给管道piplines——————再保存yield book# 第二页第三页的网址——一个网站数据结构应该是一样的# http://category.dangdang.com/pg2-cp01.28.01.12.00.00.html# http://category.dangdang.com/pg3-cp01.28.01.12.00.00.html#ctrlz暂停下载#ctrlaltl整理json数据格式#多页请求代码——多页请求代码——多页请求代码——多页请求代码#别忘记改变allowed_domains属性的范围——一般只写域名if self.page100:#第一页已经爬取完毕#所以直接加一self.pageself.page1#将self.page强转为字符串urlself.base_urlstr(self.page)-cp01.28.01.12.00.00.html#去调用parse方法#scrapy.Request就是scrapy的get请求#callback属性就是要执行哪一个函数——注意不要加括号yield scrapy.Request(urlurl,callbackself.parse)

查看全文

http://www.hkea.cn/news/14273732/