当前位置: 首页 > news >正文

网站开发风险分析郑州高新区建设环保局网站

网站开发风险分析,郑州高新区建设环保局网站,wordpress菜单添加图标,淘客返利网站建设今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx #xff0c;这个网站其实还是有点意思的#xff0c;网站很多人写了N多的教程了#xff0c;各种方式的都有#xff0c;当然网站本身在爬虫爱好者的不断进攻下#xff0c;也在不断的完善#xff0c;反爬措… 今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx 这个网站其实还是有点意思的网站很多人写了N多的教程了各种方式的都有当然网站本身在爬虫爱好者的不断进攻下也在不断的完善反爬措施也很多今天我用 selenium 在揍他一波。 整体看上去煎蛋网的妹子图质量还是可以的不是很多但是还蛮有味道的这可能也是爬虫er一批一批的奔赴上去的原因。 1. 网站分析 这个网站如果用 selenium 爬取其实也没什么要分析的,模拟访问就行导入必备的模块。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from lxml import etree import requests import time我使用的是 PhantomJS 去加载浏览器关于这个 PhantomJS 去互联网搜索一下吧资料大把会看的很爽的总之呢它可以模拟一个真实的浏览器做任何事情得到你想要的数据。 browser webdriver.PhantomJS() browser.set_window_size(1366, 768) # 这个地方需要设置一下浏览器的尺寸 wait WebDriverWait(browser,10) browser.get(http://jandan.net/ooxx)2. 分析数据 Python资源共享群484031800 程序获取到数据之后就可以对数据进行处理了编写一个 get_content 函数用来处理网页源码。 def get_content():try:wait.until(EC.presence_of_element_located((By.XPATH,//*[idcomments]/ol)))#print(正在爬取{}.format(browser.current_url))page_source browser.page_source # 获取网页源码html etree.HTML(page_source) # 解析源码imgs html.xpath(//li[contains(id,comment)]//img/src) # 匹配图片download(imgs)except Exception as e:print(错误)print(e)finally:browser.close()图片获取到之后在上面的代码中注意有一个地方调用了一个 download 函数这个函数就是用来下载图片的 def download(imgs):path ./xxoo/{} # 路径我写死了for img in imgs:try:res requests.get(img)content res.contentexcept Exception as e:print(e)continuefile_name img.split(/)[-1] # 获取文件名with open(path.format(file_name),wb) as f:f.write(content)print(file_name,成功下载文件)time.sleep(0.3)# 循环下载完毕进行翻页操作 previous-comment-pagenext wait.until(EC.presence_of_element_located((By.XPATH, //*[idcomments]//a[classprevious-comment-page])))next.click()return get_content() # 继续调用上面的网页源码分析流程
http://www.hkea.cn/news/14544003/

相关文章:

  • 建一个商业网站要多少钱游戏开发app
  • 网站策划方案书的内容建设网站什么软件好
  • 做网站方面的问题速成网站怎么做
  • 江苏水利工程建设局网站网站的关键词库怎么做的那么多
  • 临沂企业建站效果好用discuz怎样做网站
  • 深圳自助体检机地址seo狂人
  • 邯郸做网站的公司哪家好重庆渝北网站建设
  • 在线教育网站怎么做包牛牛网站怎么做
  • 做网站的公司怎么发展业务厦门网站制作建设
  • 怎么查公司网站有没有被收录今天军事新闻
  • 网站建设网站美工工作计划wordpress 多语言插件
  • 提供手机自适应网站建设项目管理软件的分类
  • 建设网站重庆施工企业企业管理费
  • 怎么在网站上建设投票统计山西省建设厅招标网站首页
  • 网站建设网点东莞服务36招全称
  • 门户网站内容建设王也个人资料
  • 房地产网站建设存在问题扶贫工作网站怎么做
  • 网站 备案 多久中国电信软件开发工程师待遇
  • 网站相关知识株洲定制型网站建设
  • 中国建设银行公积金网站首页做百度网站一般多少钱
  • wordpress门户网站主题风险报告查询系统
  • 襄阳网站seo方法民宿平台搜索量上涨
  • 网站建设飠金手指下拉省工程建设信息网
  • 做网站需要服务器网页游戏源码交易平台
  • 婚庆企业网站建设wordpress 同步预览
  • 关于桥梁建设工程设公司网站深圳做棋牌网站建设找哪家效益快
  • asp网站打开iphone下载网页视频
  • 英雄联盟网站模版做电商的几个网站
  • 东莞设计网站企业品质好的女装品牌
  • 专业公司网站设计企业分析网站建设到运营需要多少钱