当前位置: 首页 > news >正文

公司门户网站的设计与实现wordpress 文章内容

公司门户网站的设计与实现,wordpress 文章内容,通过输入域名访问自己做的网站,泉州网站建设python爬取图片#xff08;lsp篇#xff09; 文章目录 前言一、需要用到什么#xff1f;二、作业模板1.根据网址分析数据#xff08;所有爬虫程序都必须对网址进行分析#xff0c;由于这是个lsp网址就不拿出来分析了#xff09;2.套用模板 总结 前言 为了完成老师布置的…python爬取图片lsp篇 文章目录 前言一、需要用到什么二、作业模板1.根据网址分析数据所有爬虫程序都必须对网址进行分析由于这是个lsp网址就不拿出来分析了2.套用模板 总结 前言 为了完成老师布置的作业爬取青春有你2借用了这个作业的模板爬图片屡试不爽 一、需要用到什么 python基础软件方面根据个人习惯可以使用Anaconda一个集成的可以在浏览器中编程的软件不需要再安装python包等等比较方便 二、作业模板 1.根据网址分析数据所有爬虫程序都必须对网址进行分析由于这是个lsp网址就不拿出来分析了 2.套用模板 第一步从网址中取得你需要的那部分html import json import re import requests from bs4 import BeautifulSoup import sys import os import datetime today datetime.date.today().strftime(%Y%m%d) def crawl_wiki_data(n):爬取htmlheaders { User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36}urlhttps://m.mm131.net/more.php?pagenint(n)1for page in range(1,n):urlurlstr(page)print(url)response requests.get(url,headersheaders)print(response.status_code)soupBeautifulSoup(response.content,lxml)contentsoup.find(body)parse_wiki_data(content)urlhttps://m.mm131.net/more.php?page第二步从那部分html中取得想要的目录名以及图集的链接地址 def parse_wiki_data(content):生成json文件到C:/Users/19509/Desktop/python目录下girls[]bsBeautifulSoup(str(content),lxml)all_articlebs.find_all(article)for h2_title in all_article:girl{}#图集girl[name]h2_title.find(a,class_post-title-link).text#链接girl[link]https://m.mm131.neth2_title.find(a,class_post-title-link).get(href)girls.append(girl)json_datajson.loads(str(girls).replace(\,\))with open(C:/Users/19509/Desktop/python/girls/today.json,w,encodingUTF-8) as f:json.dump(json_data,f,ensure_asciiFalse)crawl_pic_urls()第三步从json文件中根据图集链接进一步爬取每张图片的链接并将每张图片的链接作存在数组中用来传递给下一个函数来下载图片 def crawl_pic_urls():爬取每个相册的图片链接with open(C:/Users/19509/Desktop/python/girls/today.json,r,encodingUTF-8) as file:json_array json.loads(file.read())headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36 }for girl in json_array:name girl[name]link girl[link]pic_urls[]#爬取图集response requests.get(link,headers headers)bs BeautifulSoup(response.content,lxml)#拉取页数picbs.find(div,class_paging).find(span,class_rw).textpicre.findall(\d,pic)pic_numberint(pic[1])1#拉取图片链接pic_urlbs.find(div,class_post-content single-post-content).find(img).get(src)pic_urls.append(pic_url)list[]for x in range(len(pic_url)):list.append(pic_url[x])for m in range(2,pic_number):all_pic_urlslist[33]str(m)for k in range(len(list)):all_pic_urlslist[k]pic_urls.append(all_pic_urls)headers {Referer: link,User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9 SLBChan/25}down_pic(name, pic_urls,headers)第四步下载图片并保存 def down_pic(name,pic_urls,headers):下载图片path C:/Users/19509/Desktop/python/girls/pic/name/if not os.path.exists(path):os.makedirs(path)for i,pic_url in enumerate(pic_urls):try:pic requests.get(pic_url,headersheaders)string str(i1).jpgwith open(pathstring,wb) as f:f.write(pic.content)print(成功下载第%s张图片:%s %(str(i1),str(pic_url)))except Exception as e:print(下载第%s张图片时失败:%s %(str(i1),str(pic_url)))print(e)continue最后打印下载路径的绝对路径同时写主函数运行所有函数 def show_pic_path(path):遍历所爬取的每张图片并打印所有图片的绝对路径pic_num0for (dirpath,dirnames,filenames) in os.walk(path):for filename in filenames:pic_num1print(第%d张照片: %s %(pic_num,os.path.join(dirpath,filename)))print(共爬取lsp图%d张 % pic_num) if __name__ __main__:ninput(要几页:)html crawl_wiki_data(n)#打印所爬取的选手图片路径show_pic_path(C:/Users/19509/Desktop/python/girls/pic)print(所有信息爬取完成谢谢)注意事项’C:/Users/19509/Desktop/python/girls‘这个是我的目录不是你的目录你必须创建属于你的目录和相应的girls文件夹 总结 这篇文章涉及到挺多小细节的比如下载图片时的headers跟前面的headers不一样以及拉取图集里面图的张数时用到了正则表达式存在问题图集的名字不能改成中文不知道有没有大佬会的
http://www.hkea.cn/news/14294548/

相关文章:

  • 汕头cms模板建站外贸网站推广技巧
  • 网站建设兼职在哪找物流信息网站有哪些
  • 怎么做移动端的网站阿里云注册域名
  • 建网站的流程和费用陕西做网站的公司在哪
  • 郑州网站公司助企重庆网站设计案例
  • 做网站的公司北京有哪些谷歌浏览器官网入口
  • 阿克苏网站建设价格抖音珠宝代运营
  • 怎么建网站手机版做网站必须购买空间吗
  • 制作企业网站需要什么费用做外贸翻译用那个网站
  • 手机管理网站大连市城市建设管理局网站
  • 大连网站建设过程华强北网站建设
  • 长沙建站网页设计与制作做网站
  • 汉中免费做网站连云港专业做网站
  • 网站右侧二维码代码大庆市建设中等职业技术学校网站
  • 网站备案号链接网站功能设计的内容
  • 漳州网站建设选博大不错淄博网站建设培训学校
  • 网站权重怎么提高wordpress 电子商城 模板
  • element ui做门户网站鞍山人才网怎么查档案
  • 网站多大够用临汾市网站建设
  • 虚拟主机网站怎么上传文件百度seo自动优化
  • 网站开发pc端和手机端网站开发的报告
  • 阿里云建站百度收录吗精美网站源码下载
  • 宁波做网站的公司长沙定制网站建设
  • 制作网页的网站哪个好用昭通建设局网站
  • 满洲里网站制作附近广告设计与制作门店电话
  • 同ip网站有什么影响平面设计常用网站
  • 韩国网页游戏网站免费软件app下载大全正能量网站
  • 呼和浩特建站网站管理助手 二级域名
  • 成都微信网站建设报价单wordpress插件video playe
  • 广西和住房城乡建设厅网站杂谈发现一只网站是你们谁做的