建网站找那家企业好,做一个招聘网站需要多少钱,vip影视网站如何做app,海南省住房和城市建设厅网站对于新手做Python爬虫来说是有点难处的#xff0c;前期练习的时候可以直接套用模板#xff0c;这样省时省力还很方便。
使用Python爬取某网站的相关数据#xff0c;并保存到同目录下Excel。
直接上代码#xff1a;
import re
import urllib.error
import urllib.request…对于新手做Python爬虫来说是有点难处的前期练习的时候可以直接套用模板这样省时省力还很方便。
使用Python爬取某网站的相关数据并保存到同目录下Excel。
直接上代码
import re
import urllib.error
import urllib.requestimport xlwt
from bs4 import BeautifulSoupdef main():baseurl http://jshk.com.cndatelist getDate(baseurl)savepath.\jshk.xlssaveDate(datelist,savepath)# askURL(http://jshk.com.cn/)findlink re.compile(ra href(.*?))
findimg re.compile(rimg.*src(.*?),re.S)
findtitle re.compile(rspan classtitle(.*)/span)
findrating re.compile(rspan classrating_num propertyv:average(.*)/span)
findjudge re.compile(rspan(d*)人评价/span)
findinq re.compile(rspan classinq(.*)/span)def getDate(baseurl):datalist []for i in range(0,10):urlbaseurlstr(i*25)htmlaskURL(url)soup BeautifulSoup(html,html.parser)for item in soup.find_all(div,class_item):data []item str(item)link re.findall(findlink,item)[0]data.append(link)imgre.findall(findimg,item)[0]data.append(img)titlere.findall(findtitle,item)[0]ratingre.findall(findrating,item)[0]data.append(rating)judgere.findall(findjudge,item)[0]data.append(judge)inqre.findall(findinq,item)if len(inq)!0:inqinq[0].replace(。,)data.append(inq)else:data.append( )print(data)datalist.append(data)print(datalist)return datalistdef askURL(url):head { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36}requesturllib.request.Request(url,headershead)htmltry:responseurllib.request.urlopen(request)htmlresponse.read().decode(utf-8)# print(html)except urllib.error.URLError as e:if hasattr(e,code):print(e.code)if hasattr(e,reason):print(e.reason)return htmldef saveDate(datalist,savepath):workbook xlwt.Workbook(encodingutf-8)worksheet workbook.add_sheet(电影,cell_overwrite_okTrue)col (电影详情,图片,影片,评分,评价数,概况)for i in range(0,5):worksheet.write(0,i,col[i])for i in range(0,250):print(第%d条 %(i1))datadatalist[i]for j in range(0,5):worksheet.write(i1,j,data[j])workbook.save(savepath)if __name__ __main__:main()print(爬取完毕)直接复制粘贴就行。
若要更改爬取网站则需要更改URL以及相应的html格式代码中的“item”。