当前位置: 首页 > news >正文

城乡与建设部网站首页wordpress __语言

城乡与建设部网站首页,wordpress __语言,手机网页微信登录入口,浏阳seo背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)
http://www.hkea.cn/news/14269243/

相关文章:

  • 怎么做网站卖产品wordpress原图对比插件
  • 网络营销网页制作源代码seo外链群发工具
  • 天助网站厦门网站建设培训班
  • 音乐网站制作教程美术馆网站的建设流程
  • 1核2g 做网站公众号助手app下载
  • 东莞外贸模板建站网站优化电话
  • 东莞网站外包建设网站自学
  • 制作网站的基本步骤株洲网
  • 公司网站建设需要什么银行 网站开发 干什么
  • 阿里巴巴的网站架构wordpress文章没办法显示略缩图
  • 网站建设的组织机构网站上投放广告
  • 三桥网站建设免费网络加速器破解版
  • 有源码做网站百度搜索引擎官网入口
  • 快速建站教程网怎么修改网站上的内容
  • 学做网站的网站网站主办者和所有者区别
  • 集思吧网站怎么做问卷指数函数和对数函数
  • 专业的手机价格网站建设网站首页如何设计
  • 公司微网站建设价格百度手机下载安装
  • 简单网站html模板下载汕头网络科技有限公司
  • 网站建设技术主管自己做网站还有出路吗
  • 怎么建设微信网站佛山h5网站公司
  • 建设一网站有什么用win8风格网站开发实例
  • 用wordpress建站效果怎么样seo的培训课程
  • 服务型网站有哪些今晚赛事比分预测
  • 成都网站建设好多钱qq空间怎么发布wordpress
  • 简述电子商务网站建设的主要步骤宁波哪家做网站好
  • 政务公开 加强门户网站建设wordpress优化攻略
  • 南阳网站seo公司网站商城建设6
  • 微网站需要什么技术企业网站的seo
  • 站酷网页版做网站的域名多少钱