当前位置: 首页 > news >正文

表格网站怎么做的下载的网站模板怎么编辑

表格网站怎么做的,下载的网站模板怎么编辑,在线做托福的网站,百度怎么推广背景 近期工作中要解决两个问题#xff0c;一个是数据组需要网爬一些图片数据#xff0c;另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎#xff0c;就写了两个脚本去完成任务。 爬虫思路 第一步#xff1a;向确定的url发送请求#xff0c;接收服务器…背景 近期工作中要解决两个问题一个是数据组需要网爬一些图片数据另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎就写了两个脚本去完成任务。 爬虫思路 第一步向确定的url发送请求接收服务器的响应信息如果是需要用户登录的网页需要手动获取cookie信息放入header中或者模拟登录自动获取cookie。 第二步对接收到的信息进行解析找到需要的标签内容通常是我们需要的图片或文件的url 第三步向目标url发送请求保存数据到本地。 python在网络爬虫方面提供了一些框架Scrapy、Pyspider等由于我们要实现的都是小功能用一些现成的库即可。 爬取附件 1、发送简单请求用urllib.request.urlopenurl就可以了但如果要加入headers则可用urllib.request.Request类构造一个request实例再调用urlopen发送请求。如要用到cookie 如果要实现模拟登录自动获取cookie可参考爬虫实战学习笔记_2 网络请求urllib模块设置请求头Cookie模拟登陆-CSDN博客 import urllib.requestheaders {Cookie: confluence.list.pages.cookielist-content-tree;.......}req urllib.request.Request(url, headersheaders) response urllib.request.urlopen(req) 2、解析响应体这里是要找到附件链接的图标在html中是a classfilename的标签元素。用到BeautifulSoup。 from bs4 import BeautifulSouphtml response.read().decode(utf8) soup BeautifulSoup(html, lxml) a_list soup.find_all(a) for a in a_list:if class in a.attrs:if filename in a[class]:filename a.text.strip()download_url a[href]print(download_url) 3、获得文件下载地址后发送请求将返回的响应保存到本地即可。这里发请求用的requests库用urllib.request应该也可以。 import requestsfile requests.get(download_url, headersheaders) save_path ./download/ if not os.path.exists(save_path):os.mkdir(save_path) save_file open(os.path.join(save_path, filename), wb) save_file.write(file.content) save_file.close() print(save ok) 遗留问题 上述脚本可针对特定网页进行附件爬取但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律发现里面的pageId是9位数字字符大概确定了范围进行暴力遍历。 爬取图片 网上关于百度、google爬取关键字图片的开源代码很多我也是找了一个开源代码进行稍微修改目前满足实际需要。这里附上代码供参考。 # -*- coding: UTF-8 -*- import requests import tqdm import os import jsondef configs(search, page, number):url https://image.baidu.com/search/acjsonparams {tn: resultjson_com,logid: 11555092689241190059,ipn: rj,ct: 201326592,is: ,fp: result,queryWord: search,cl: 2,lm: -1,ie: utf-8,oe: utf-8,adpicid: ,st: -1,z: ,ic: 0,hd: ,latest: ,copyright: ,word: search,s: ,se: ,tab: ,width: ,height: ,face: 0,istype: 2,qc: ,nc: 1,fr: ,expermode: ,force: ,pn: str(60 * page),rn: number,gsm: 1e,1617626956685: }return url, paramsdef loadpic(number, page, path):while (True):if number 0:breakurl, params configs(search, page, number)try:response requests.get(url, headersheader, paramsparams).content.decode(utf-8)result json.loads(response)url_list []for data in result[data][:-1]:url_list.append(data[thumbURL])for i in range(len(url_list)):getImg(url_list[i], 60 * page i, path)bar.update(1)number - 1if number 0:breakpage 1except Exception as e:print(e)continueprint(\nfinish!)def getImg(url, idx, result_path):img requests.get(url, headersheader)file open(result_path str(idx 1) .jpg, wb)file.write(img.content)file.close()if __name__ __main__:search 溜冰 # 爬取的关键词number 100 #爬取的目标数量result_path os.path.join(os.getcwd(), search)if not os.path.exists(result_path):os.mkdir(result_path)header {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36}bar tqdm.tqdm(totalnumber)page 0loadpic(number, page, result_path)
http://www.hkea.cn/news/14471810/

相关文章:

  • 做门窗网站怎么做wordpress移站
  • 河北营销型网站建设dede发布网站
  • 优品ppt模板免费下载网站百度推广费用怎么算
  • 还没有做网站可以先备案域名吗物联网平台排名
  • 网站建设推广的广告语魔站网站建设
  • 做网站的参考文献网站建设讲师招聘
  • 网站空间1g多少钱seo引擎优化外包
  • 百度怎么做自己的网站汕头建设网站
  • 专业做网站优化国际消息新闻
  • 建站之星做出的网站不安全有域名如何自己制作网站
  • 曲靖市住房和城乡建设局网站推广普通话内容
  • 做网站能月入10万修改wordpress 5.2.1版权
  • 建设公司网站需要准备什么给女生做网站
  • 深度网营销型网站建设公司怎么样做网站赚广告费多么
  • 电商网站建设平台佛山设计论坛
  • 郑州市建设局网站wordpress函数调用实例
  • 济南手机网站开发医疗网站建设及优化方案
  • 建设一个企业网站网站建设方式优化
  • 广州 网站建设 020常州交通建设管理有限公司网站
  • 信用中国门户网站建设方案优秀自适应网站建设哪家好
  • 网站的管理有是seo包年优化
  • asia域名的网站wordpress 脚本慢
  • wordpress网站音乐播放器海拉尔网站开发
  • 房屋网站个体工商户可以做网站备案吗
  • 温州网站建设方案书济南市建设局官网
  • 自己做的网站怎么发布到百度wordpress 安全 插件下载
  • 智慧团建网站网址南京美容网站建设
  • 手机怎么开网站设计软件培训
  • wap手机网站建设注册公司的流程和步骤
  • 网站关键技术网站建设打造学院