当前位置: 首页 > news >正文

广州网页制作网站维护wordpress分类信息发布系统

广州网页制作网站维护,wordpress分类信息发布系统,学软件开发哪所学校好,网站要能被搜到需要做推广嘛一、爬虫页面分类 1.想要爬取的内容全部在标签中#xff0c;可以使用xpath去进行解析如下图 2.想要爬取的内容呈现json的数据特征#xff0c;用.json()转换为字典格式 3.页面不规则#xff0c;标签中包含大括号#xff0c;如下面想要获取键值内容怎么做#xff0c;先用re正…一、爬虫页面分类 1.想要爬取的内容全部在标签中可以使用xpath去进行解析如下图 2.想要爬取的内容呈现json的数据特征用.json()转换为字典格式 3.页面不规则标签中包含大括号如下面想要获取键值内容怎么做先用re正则获取大括号内容再转换为json格式 4.想要爬取的页面数据很零散建议使用css选择器如下图想要猫咪的年龄品种是否接种疫苗是否支持视频看猫等信息 二、css解析步骤 import parsel html_data requests.get(url,headers).text selector parsel.Selector(html_data) content selector.css(css格式)实例化一个selector对象  css格式总结 .代表class  #代表id  ::text 表示输出文本即尖括号里面的内容 nth-child(page)表示匹配第page项     例子 div 返回的是全部div标签 div.content 返回的是class content的整个div标签 div.content  #su 返回的是class content的整个div标签下id su的标签 div.content li 返回的是class content的整个div标签下的li标签 div.content li:nth-child(1)返回的是class content的整个div标签下的li标签中的第一个li标签 div.content li:nth-child(1)::text返回的是class content的整个div标签下的li标签中的第一个li标签中的文本数据 div.content li:nth-child(1)::attr(href)返回的是class content的整个div标签下的li标签中的第一个li标签,其中的href所对应的属性值 selector.css(css样式).get() 获得一个匹配的 selector.css(css样式).getall()获得多个匹配的 可以在开发者工具中尝试 定位要爬取的数据在elements中ctrlf出现 如想爬取在售只数应该怎么写 import parsel import requests url http://maomijiaoyi.com/index.php?/chanpinxiangqing_1038711.html headers {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36,} response requests.get(urlurl,headersheaders) response.encoding response.apparent_encodingselector parsel.Selector(response.text) num selector.css(.info2 div:nth-child(1) div.red::text).get()# 获取在售只数 获得下图src的属性值 src selector.css(div.button div.tel img::attr(src)).get() 注意编写css时要像树一样一层一层找不能跳的太远否则会出错 三、在selenimu中用css选择器代码展现 from selenium import webdriver import parsel import requests path chromedriver.exe broswer webdriver.Chrome(path)url http://maomijiaoyi.com/index.php?/chanpinliebiao_c_2.html headers {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36,} broswer.get(url)for page in range(1,25):selector broswer.find_element_by_css_selector(f#content div.breeds_floor div div a:nth-child({page}) div.img img)url selector.get_attribute(src)print(url) 筛选标签与css语法一致不会可以复制以selector方式复制。find_element_by_css_selector返回的是一个标签find_elements_by_css_selector返回的是多个标签 获取标签的属性值用selector.get_attribute方法 lis browser.find_elements_by_css_selector(.Content li) # 获取classContent的ul的下面所有的li标签 for li in lis:bs li.find_elements_by_css_selector(b) # 在li标签中找b标签for b in bs:print(bs.text)# 获取b标签的文本值
http://www.hkea.cn/news/14487211/

相关文章:

  • 免费建站长平台网站自媒体135官网手机版下载
  • 品牌网站建站网站建设神州互动
  • 公司国外网站建设城关网站seo
  • 免费网站看v片在线第一次做wordpress筛选
  • 建站 报价凡科建站官网页更换视频
  • 网站pc端网址和手机端网址建设阿里云自带wordpress
  • 网站 文件注入泉州市华泰建设工程有限公司网站
  • 如何建设红色旅游网站wordpress文章查看量
  • 织梦网站做seo优化2016优秀网站设计
  • 图书类网站建设策划书英文商城网站模板
  • 图跃网站建设网站建设使用的什么语言
  • 接私活做网站要不要签合同网站艺术设计
  • 新手卖家做来赞达网站如何要怎么做自己的网站视频教学
  • 网站功能定制合同wordpress博客代码高亮
  • 网站建设入固定资产中国核工业二三建设有限公司待遇
  • 单位网站建设的重要性公司网站友情链接怎么做副链
  • 婚庆网站建设总结服装网站建设效果
  • 旅游网站模板源码前端程序员需要掌握哪些基本技术
  • 网站地图怎么使用wordpress 手机端分开
  • 电子商务网站建设方案尖扎网站建设公司
  • wordpress移动站点天猫网站设计分析
  • 网站建设与推广推荐黄骅港股票代码
  • 山东济南网站推广网站怎么提供下载
  • 电商平台网站建设策划书wordpress自定义密码
  • 室内设计软件大全网站wordpress 插件 500
  • 新的网站设计制作泰州网站建设电话
  • 网站建设入账时进那个会计科目赤峰市建设局网站
  • 搜索排名优化网站排名优化学院网站建设情况总结
  • 河南艾特 网站建设腾讯云手动搭建wordpress个人站点
  • 做seo网站的公司设计外贸网站