当前位置：首页 > news >正文

公司门户网站的设计与实现wordpress 文章内容

news 2026/4/17 0:34:45

公司门户网站的设计与实现,wordpress 文章内容,通过输入域名访问自己做的网站,泉州网站建设python爬取图片#xff08;lsp篇#xff09; 文章目录前言一、需要用到什么#xff1f;二、作业模板1.根据网址分析数据#xff08;所有爬虫程序都必须对网址进行分析#xff0c;由于这是个lsp网址就不拿出来分析了#xff09;2.套用模板总结前言为了完成老师布置的…python爬取图片lsp篇文章目录前言一、需要用到什么二、作业模板1.根据网址分析数据所有爬虫程序都必须对网址进行分析由于这是个lsp网址就不拿出来分析了2.套用模板总结前言为了完成老师布置的作业爬取青春有你2借用了这个作业的模板爬图片屡试不爽一、需要用到什么 python基础软件方面根据个人习惯可以使用Anaconda一个集成的可以在浏览器中编程的软件不需要再安装python包等等比较方便二、作业模板 1.根据网址分析数据所有爬虫程序都必须对网址进行分析由于这是个lsp网址就不拿出来分析了 2.套用模板第一步从网址中取得你需要的那部分html import json import re import requests from bs4 import BeautifulSoup import sys import os import datetime today datetime.date.today().strftime(%Y%m%d) def crawl_wiki_data(n):爬取htmlheaders { User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36}urlhttps://m.mm131.net/more.php?pagenint(n)1for page in range(1,n):urlurlstr(page)print(url)response requests.get(url,headersheaders)print(response.status_code)soupBeautifulSoup(response.content,lxml)contentsoup.find(body)parse_wiki_data(content)urlhttps://m.mm131.net/more.php?page第二步从那部分html中取得想要的目录名以及图集的链接地址 def parse_wiki_data(content):生成json文件到C:/Users/19509/Desktop/python目录下girls[]bsBeautifulSoup(str(content),lxml)all_articlebs.find_all(article)for h2_title in all_article:girl{}#图集girl[name]h2_title.find(a,class_post-title-link).text#链接girl[link]https://m.mm131.neth2_title.find(a,class_post-title-link).get(href)girls.append(girl)json_datajson.loads(str(girls).replace(\,\))with open(C:/Users/19509/Desktop/python/girls/today.json,w,encodingUTF-8) as f:json.dump(json_data,f,ensure_asciiFalse)crawl_pic_urls()第三步从json文件中根据图集链接进一步爬取每张图片的链接并将每张图片的链接作存在数组中用来传递给下一个函数来下载图片 def crawl_pic_urls():爬取每个相册的图片链接with open(C:/Users/19509/Desktop/python/girls/today.json,r,encodingUTF-8) as file:json_array json.loads(file.read())headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36 }for girl in json_array:name girl[name]link girl[link]pic_urls[]#爬取图集response requests.get(link,headers headers)bs BeautifulSoup(response.content,lxml)#拉取页数picbs.find(div,class_paging).find(span,class_rw).textpicre.findall(\d,pic)pic_numberint(pic[1])1#拉取图片链接pic_urlbs.find(div,class_post-content single-post-content).find(img).get(src)pic_urls.append(pic_url)list[]for x in range(len(pic_url)):list.append(pic_url[x])for m in range(2,pic_number):all_pic_urlslist[33]str(m)for k in range(len(list)):all_pic_urlslist[k]pic_urls.append(all_pic_urls)headers {Referer: link,User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9 SLBChan/25}down_pic(name, pic_urls,headers)第四步下载图片并保存 def down_pic(name,pic_urls,headers):下载图片path C:/Users/19509/Desktop/python/girls/pic/name/if not os.path.exists(path):os.makedirs(path)for i,pic_url in enumerate(pic_urls):try:pic requests.get(pic_url,headersheaders)string str(i1).jpgwith open(pathstring,wb) as f:f.write(pic.content)print(成功下载第%s张图片:%s %(str(i1),str(pic_url)))except Exception as e:print(下载第%s张图片时失败:%s %(str(i1),str(pic_url)))print(e)continue最后打印下载路径的绝对路径同时写主函数运行所有函数 def show_pic_path(path):遍历所爬取的每张图片并打印所有图片的绝对路径pic_num0for (dirpath,dirnames,filenames) in os.walk(path):for filename in filenames:pic_num1print(第%d张照片: %s %(pic_num,os.path.join(dirpath,filename)))print(共爬取lsp图%d张 % pic_num) if __name__ __main__:ninput(要几页:)html crawl_wiki_data(n)#打印所爬取的选手图片路径show_pic_path(C:/Users/19509/Desktop/python/girls/pic)print(所有信息爬取完成谢谢)注意事项’C:/Users/19509/Desktop/python/girls‘这个是我的目录不是你的目录你必须创建属于你的目录和相应的girls文件夹总结这篇文章涉及到挺多小细节的比如下载图片时的headers跟前面的headers不一样以及拉取图集里面图的张数时用到了正则表达式存在问题图集的名字不能改成中文不知道有没有大佬会的

查看全文

http://www.hkea.cn/news/14294548/