当前位置: 首页 > news >正文

福建建设执业资格中心网站做自适应网站

福建建设执业资格中心网站,做自适应网站,公司网站简介怎么做,拉新十大推广app平台一个比较基础且常见的爬虫#xff0c;写下来用于记录和巩固相关知识。 一、前置条件 本项目采用scrapy框架进行爬取#xff0c;需要提前安装 pip install scrapy# 国内镜像 pip install scrapy -i https://pypi.douban.com/simple 由于需要保存数据到数据库#xff0c;因…一个比较基础且常见的爬虫写下来用于记录和巩固相关知识。 一、前置条件 本项目采用scrapy框架进行爬取需要提前安装 pip install scrapy# 国内镜像 pip install scrapy -i https://pypi.douban.com/simple 由于需要保存数据到数据库因此需要下载pymysql进行数据库相关的操作 pip install pymysql# 国内镜像 pip install pymysql -i https://pypi.douban.com/simple 同时在数据库中创立对应的表 create database spider01 charset utf8;use spider01;# 这里简单创建name和src create table book(id int primary key auto_increment,name varchar(188),src varchar(188) ); 二、项目创建 在终端进入准备存放项目的文件夹中 1、创建项目 scrapy startproject scrapy_book 创建成功后结构如下 2、跳转到spiders路径 cd scrapy_book\scrapy_book\spiders 3、生成爬虫文件 由于涉及链接的提取这里生成CrawlSpider文件 scrapy genspider -t crawl read Www.dushu.com 注意先将第11行中follow的值改为False否则会跟随从当前页面提取的链接继续爬取避免过度下载 4、项目结构说明 接下来我们一共要修改4个文件完成爬取功能 read.py: 自定义的爬虫文件完成爬取的功能items.py 定义数据结构的地方是一个继承自scrapy.Item的类pipelines.py 管道文件里面只有一个类用于处理下载数据的后续处理setings.py 配置文件 比如是否遵循robots协议User-Agent协议 三、网页分析 1、图书分析 读书网主页 在读书网中随便选取一个分类这里以外国小说为例进行分析 这里我们简单爬取它的图片和书名当然也可扩展 使用xpath语法对第一页的图片进行分析 由上图可以知道 书名//div[classbookslist]//img/alt 书图片地址//div[classbookslist]//img/data-original 不是src属性是因为页面图片使用懒加载 2、页码分析 第一页外国小说 - 读书网|dushu.com 或 https://www.dushu.com/book/1176_1.html 第二页外国小说 - 读书网|dushu.com 第三页外国小说 - 读书网|dushu.com 发现规律满足表达式r/book/1176_\d\.html 四、项目完成 1、修改items.py文件 自己定义下载数据的结构 # Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ScrapyBookItem(scrapy.Item):# define the fields for your item here like:# name scrapy.Field()# 书名name scrapy.Field()# 图片地址src scrapy.Field() 2、修改settings.py文件 将第65行的ITEM_PIPELINES的注释去掉并在下面新增自己数据库的相关配置 3、修改pipnelines.py文件 进行下载数据的相关处理 # Define your item pipelines here # # Dont forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface from itemadapter import ItemAdapter# 加载settings文件 from scrapy.utils.project import get_project_settings import pymysqlclass ScrapyBookPipeline:# 最开始执行def open_spider(self,spider):settings get_project_settings()# 获取配置信息self.host settings[DB_HOST]self.port settings[DB_PORT]self.user settings[DB_USER]self.password settings[DB_PASSWROD]self.name settings[DB_NAME]self.charset settings[DB_CHARSET]self.connect()def connect(self):self.conn pymysql.connect(hostself.host,portself.port,userself.user,passwordself.password,dbself.name,charsetself.charset)self.cursor self.conn.cursor()# 执行中def process_item(self, item, spider):# 根据自己的表结构进行修改我的是book表sql insert into book(name,src) values({},{}).format(item[name], item[src])# 执行sql语句self.cursor.execute(sql)# 提交self.conn.commit()# 结尾执行def close_spider(self, spider):self.cursor.close()self.conn.close() 4、修改read.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule# 导入时可能有下划线报错是编译器问题可以正常使用 from scrapy_book.items import ScrapyBookItemclass ReadSpider(CrawlSpider):name readallowed_domains [www.dushu.com]# 改为第一页的网址,这样都能满足allow的规则不遗漏start_urls [https://www.dushu.com/book/1176_1.html]# allow属性提取指定链接下面是正则表达式 callback回调函数 follow是否跟进就是按照提取连接规则进行提取这里选择Falserules (Rule(LinkExtractor(allowr/book/1176_\d\.html), callbackparse_item, followFalse),)def parse_item(self, response):item {}# item[domain_id] response.xpath(//input[idsid]/value).get()# item[name] response.xpath(//div[idname]).get()# item[description] response.xpath(//div[iddescription]).get()# 获取当前页面的所有图片img_list response.xpath(//div[classbookslist]//img)for img in img_list:name img.xpath(./alt).extract_first()src img.xpath(./data-original).extract_first()book ScrapyBookItem(namename, srcsrc)# 进入pipelines管道进行下载yield book5、下载 终端进入spiders文件夹运行命令scrapy crawl read 其中read是spiders文件夹下read.py中name的值 6、结果 一共下载了40(每一页的数据) * 13(页) 520条数据 将read.py中的follow改为True即可下载该类书籍的全部数据总共有100页如果用流量的话谨慎下载预防话费不足。 5、结语 这个爬虫项目应该可以适用于挺多场景的不是特别多 跟着写一下也没啥坏处。如果有代码的需求的话日后会把项目的代码地址给出。因为自己学爬虫没多久记录一下梳理下思路也可以为以后有需要的时候做参考。
http://www.hkea.cn/news/14309672/

相关文章:

  • 南山网站制作联系电话国内做的比较大的外贸电商网站
  • idea网站开发教程wordpress登录加验证码
  • 公司网站建设与维护工作计划win7 建网站
  • 网站建设找金手指排名一条龙网站建设价格
  • 网站刚做好怎么做优化企业运营策划公司
  • 门户网站管理流程写作网站后台账号密码忘了怎么办
  • 临西网站建设网站到期不想续费
  • 转包网站建设做非法事情婚庆公司logo
  • 做任务送科比网站开源多用户商城系统细节
  • 备案需要网站空间网站友情链接有什么用
  • 企业网站模板 下载 论坛软件界面设计app
  • wordpress 网站图标设置方法2022年全球3月解封
  • 做兼职上哪个网站西安市建设工程信息网平台
  • 通辽网站建设长春经济技术开发区人才网
  • 阳江招聘网站大全科技加盟网站建设
  • 深圳网站建设比较企业管理课程
  • 河北明迈特的网站在哪里做的个人养老保险
  • 做网站 合肥上海营销型网站建设
  • 做商演任务的网站广州网站建设教程
  • 做彩票生意要登陆哪个网站给别人做网站的话术
  • 网站备案链接代码一个网站要怎么做
  • 网站定制与开发网站如何建设数据库
  • 前期的网站建设的难度电影点评wordpress主题
  • 免费的企业网站丹寇服饰官方网站
  • 门户网站建设的重要性产品详情页面设计
  • 广州h5网站建设公司网站制定
  • 有哪些做ppt用图片的网站有哪些中国建设银行北京市互联网网站
  • 域名申请 网站建设揭阳网站建站网站
  • 盐城市建设局网站设计备案资料白帽seo是什么
  • 信息化和网站建设管理工作情况十大室内设计公司