当前位置: 首页 > news >正文

网站建设中数据字典东莞wordpress

网站建设中数据字典,东莞wordpress,wordpress 去优酷广告,建设网站的一般步骤是基于Scrapy框架实现POST请求爬虫 前言 本文中介绍 如何基于 Scrapy 框架实现 POST 请求爬虫#xff0c;并以抓取指定城市的 KFC 门店信息为例进行展示 正文 1、Scrapy框架处理POST请求方法 Scrapy框架 提供了 FormRequest() 方法来发送 POST 请求#xff1b; FormReques…基于Scrapy框架实现POST请求爬虫 前言 本文中介绍 如何基于 Scrapy 框架实现 POST 请求爬虫并以抓取指定城市的 KFC 门店信息为例进行展示 正文 1、Scrapy框架处理POST请求方法 Scrapy框架 提供了 FormRequest() 方法来发送 POST 请求 FormRequest() 方法 相比于 Request() 方法多了 formdata 参数接受包含表单数据的字典或者可迭代的元组并将其转化为请求的 body。 POST请求yield scrapy.FormRequest(urlpost_url,formdata{},meta{},callback...) 注意使用 FormRequest() 方法发送 POST 请求一定要重写 start_requests() 方法 2、Scrapy框架处理POST请求案例 项目需求抓取指定城市的 KFC 门店信息。终端提示请输入城市xx 将所有 xx 市的 KFC 门店数据抓取下来。 所需数据门店编号、门店名称、门店地址、所属城市、所属省份 url 地址http://www.kfc.com.cn/kfccda/storelist/index.aspx POST请求url地址http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opcname F12抓包分析找到需要爬取的数据获取门店信息获取门店总数 获取form表单获取 form 表单数据 创建Scrapy项目编写items.py文件 import scrapyclass KfcspiderItem(scrapy.Item):# 门店编号rownum scrapy.Field()# 门店名称storeName scrapy.Field()# 门店地址addressDetail scrapy.Field()# 所属城市cityName scrapy.Field()# 所属省份provinceName scrapy.Field()编写爬虫文件 import scrapy import json from ..items import KfcspiderItemclass KfcSpider(scrapy.Spider):name kfcallowed_domains [www.kfc.com.cn]post_url http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opcnamecity_name input(请输入城市名称)# start_urls [http://www.kfc.com.cn/]def start_requests(self):重写start_requests()方法获取某个城市的KFC门店总数量:return:formdata {cname: self.city_name,pid: ,pageIndex: 1,pageSize: 10}yield scrapy.FormRequest(urlself.post_url, formdataformdata, callbackself.get_total,dont_filterTrue)def parse(self, response):解析提取具体的门店数据:param response::return:htmljson.loads(response.text)for one_shop_dict in html[Table1]:itemKfcspiderItem()item[rownum]one_shop_dict[rownum]item[storeName]one_shop_dict[storeName]item[addressDetail]one_shop_dict[addressDetail]item[cityName]one_shop_dict[cityName]item[provinceName]one_shop_dict[provinceName]#一个完整的门店数据提取完成交给数据管道yield itemdef get_total(self, response):获取总页数并交给调度器入队列:param response::return:html json.loads(response.text)count html[Table][0][rowcount]total_page count // 10 if count % 10 0 else count // 10 1# 将所有页的url地址交给调度器入队列for page in range(1, total_page 1):formdata {cname: self.city_name,pid: ,pageIndex: str(page),pageSize: 10}# 交给调度器入队列yield scrapy.FormRequest(urlself.post_url, formdataformdata, callbackself.parse) 编写设置文件 BOT_NAME KFCSpiderSPIDER_MODULES [KFCSpider.spiders] NEWSPIDER_MODULE KFCSpider.spiders# Obey robots.txt rules ROBOTSTXT_OBEY False# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay # See also autothrottle settings and docs DOWNLOAD_DELAY 1# Override the default request headers: DEFAULT_REQUEST_HEADERS {Accept: text/html,application/xhtmlxml,application/xml;q0.9,*/*;q0.8,Accept-Language: en,User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) }# 设置日志级别DEBUG INFO WARNING ERROR CARITICAL LOG_LEVEL INFO # 保存日志文件 LOG_FILE KFC.log# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES {KFCSpider.pipelines.KfcspiderPipeline: 300, }# Set settings whose default value is deprecated to a future-proof value REQUEST_FINGERPRINTER_IMPLEMENTATION 2.7 TWISTED_REACTOR twisted.internet.asyncioreactor.AsyncioSelectorReactor FEED_EXPORT_ENCODING utf-8 在管道文件中直接打印 item 创建run.py文件运行爬虫 from scrapy import cmdline cmdline.execute(scrapy crawl kfc.split())运行效果
http://www.hkea.cn/news/14273592/

相关文章:

  • 网站开发专业分析瑞安做网站的公司
  • 快速迁移网站昆明网站
  • 自己建商城型网站南山住房和建设局网站官网
  • 厦门做网站seo的wordpress自带高亮
  • 网站建设到上线easy ssl wordpress
  • 无锡哪家做网站好ecxl表格数据导入wordpress
  • 湘潭网站建设酒店类网站建设方案书
  • 卖水果网站模板wordpress支付方案解决
  • 贾汪网站建设关于申请建设网站申请报告
  • 宿州网站建设优化app开发公司定制小程序
  • 国内网站开发 框架建站公司费用情况
  • 做网站要提供什么宁波seo外包代运营
  • 网页设计图片叠加wordpress分类设置seo
  • 外接硬盘做创建立网站搭建一个app
  • 做网站生意多吗织梦网站系统删除不了
  • 北京怎么建立网站字节跳动广告投放平台
  • 做网站需要看的书彬县网站建设
  • 建设主管部门门户网站网站建设公司一般几个人
  • 创意设计网站大全北京公司如何做网站
  • html做旅游网站库尔勒网站建设电话
  • 南京企业微信网站建设h5搭建
  • php大型网站开发前端开发和后端开发
  • 深圳网站域名注册wordpress大前端4.1
  • 网站做记录访客在服务器网站上做跳转
  • 毕业设计做网站怎样的工作量算达标咸阳商城网站开发设计
  • 怎么进行网站推广园林景观网站源码
  • 网站备案承诺书填写python 网站开发神器
  • 丹东做网站的网站建设和管理维护
  • ftp上传网站后怎么弄陕西seo关键词优化外包
  • 网络推广的网站有哪些网站建设宽度一般都是多少