当前位置: 首页 > news >正文

网站运营策略市住建设局网站

网站运营策略,市住建设局网站,个人网站做淘宝客教程,中国建筑网官网电工证证件查询scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面#xff0c; js 加载的话#xff0c;如果你无法模拟它的 API 请求#xff0c;可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面 js 加载的话如果你无法模拟它的 API 请求可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 import scrapyclass BlogSpider(scrapy.Spider):name blogspiderstart_urls [https://www.zyte.com/blog/]def parse(self, response):for title in response.css(.oxy-post-title):# 返回对象yield {title: title.css(::text).get()}for next_page in response.css(a.next):# 返回一个连接爬虫框架会继续请求这个连接得到响应后再回调 parse 方法yield response.follow(next_page, self.parse)运行 scrapy runspider myspider.py代码中通过 main 方式运行调试 # _*_ coding: utf-8 _*_ import os, sys, pprint from scrapy.cmdline import executedef build_base_config():current_dir_path os.path.dirname(os.path.abspath(__file__))# sys.path.append(current_dir_name) # 入口文件 与模块查找路径、import 相对路径导入有影响print(\n当前路径 PATH:, current_dir_path)# pprint.pprint(sys.path)filepath, file_name os.path.split(current_dir_path)spiders_name file_namespiders_name bestbuy_new_careturn current_dir_path, spiders_namedef run_product_review():运行产品评论current_dir_path, spiders_name build_base_config()# 结果输出到本地 json 文件execute([scrapy, crawl, spiders_name -products_review,f-o{current_dir_path}/temp/product-review.json,-LDEBUG,f-apath{current_dir_path}/temp/review-links.json,-acollect_exist1])if __name__ __main__:run_product_review()pass简单说使用了 scrapy.cmdline 提供的工具执行的命令和在命令行中的一致只是这种方式可以在 idea 工具中进行 debug 调试 入门和实际开发的不同之处 开发上 a.入门例子相对简单工程结构也不怎么注重 b.生产相对复杂在核心开发上差不多也是如何去解析 html 结构工程结构上为了调度和复用可能会更复杂一点调度平台 a.有使用一些开源的调度平台因为是通用 b.还有的可能会再开源的调度平台上再包装一层自己的调度平台仅用来展示符合产品经理的设计 官方对于动态内容的引导 https://docs.scrapy.org/en/latest/topics/dynamic-content.html 个人感觉这里提供的知识点还是非常具有参考价值的简单总结 使用 scrapy shell 工具定位数据源 $ scrapy shell quotes.toscrape.com/scroll (...)view(response)使用 scrapy fetch 工具获取响应到文件这类似与查看网页源代码 scrapy fetch --nolog https://example.com response.html复制请求在浏览器中可以将请求复制为 curl 格式然后可以使用 form_curl() 来使用 from scrapy import Requestrequest Request.from_curl(curl https://quotes.toscrape.com/api/quotes?page1 -H User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0 -H Accept: */* -H Accept-Language: ca,en-US;q0.7,en;q0.3 --compressed -H X-Requested-With: XMLHttpRequest -H Proxy-Authorization: Basic QFRLLTAzMzEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MWI0LWJlZGYtMmM0YjgzZmI0MGY0 -H Connection: keep-alive -H Referer: http://quotes.toscrape.com/scroll -H Cache-Control: max-age0)解析 JavaScript 代码html 中有些网站会出现 script中间是大段的 json 数据有可能是变量也有可能是初始化数据之类的/script就可以使用 比如是 var data {field: value};可以使用如下的方式匹配 pattern r\bvar\sdata\s*\s*(\{.*?\})\s*;\s*\n json_data response.css(script::text).re_first(pattern) json.loads(json_data) {field: value}
http://www.hkea.cn/news/14278597/

相关文章:

  • 网站建设邯郸最传统的网站推广手段
  • phpcms v9 网站名称标签58网站建设的目的
  • 建设官方网站的作用Wordpress怎么添加购买页面
  • 西安网站建设聂卫网站制作代码
  • 西安网站建设设计的好公司制作网站题材
  • 网站建设+公司辽宁大连直客部七部
  • 学院网站建设情况如何做一个门户网站
  • ps做网站连接莆田制作公司网站
  • 做网站建设一年能赚多少钱全网营销型网站
  • 公司网站设计报价网站优化西安
  • 冬季什么行业做网站比较多百度平台app下载
  • 做网站点击软件怎么建自己的网站?
  • 中山网站建设方案百度如何投放广告
  • 旅行社网站建设策划书网络编程技术清华大学出版社答案
  • phpcms适合做什么网站河南省工程建设协会网站
  • 做网站小程序多少钱国际物流网站建设
  • 访问国外网站很慢建设博物馆网站
  • 网站建设的方案模板下载如何应用网络营销发挥作用
  • 凡科建站app全国酒店网站建设
  • 晋中企业网站建设公司seo的工作内容
  • 内蒙古建设工程质监站网站小程序商城图标素材
  • 南昌做网站软件怎样创建网站
  • 手机网站大全怎样建设网站呢
  • 网站建设方案标书合肥网站建设优化
  • linux网站建设论文wordpress最近访客
  • 北京企业网站建设电话php网站收录
  • 惠州免费自助建站模板电商网站管理
  • 台州网站建设方案策划模板建站和仿站
  • 深圳网站建设中心建设工程质量检测公司网站
  • 网站建设如何网络销售广告制作加工厂