当前位置: 首页 > news >正文

泰州网站排名seo建筑网站招聘

泰州网站排名seo,建筑网站招聘,app推广引流方法,搭建WordPress教程Python 第二阶段 - 爬虫入门 #x1f3af; 今日目标 掌握 XPath 的基本语法使用 lxml.etree 解析 HTML#xff0c;提取数据与 BeautifulSoup 比较#xff1a;谁更强#xff1f; #x1f4d8; 学习内容详解 ✅ 安装依赖 pip install lxml#x1f9e9; XPath 简介 XPa…Python 第二阶段 - 爬虫入门 今日目标 掌握 XPath 的基本语法使用 lxml.etree 解析 HTML提取数据与 BeautifulSoup 比较谁更强 学习内容详解 ✅ 安装依赖 pip install lxmlXPath 简介 XPath 是一种用于在 XML/HTML 中查找信息的语言功能强大支持复杂结构提取。 常见语法 XPath 表达式含义//tag所有指定标签//div[classquote]class 为 quote 的所有 div 标签.//span[classtext]/text()当前元素内的 span.text 的内容//a/href提取 a 标签的 href 属性值 示例代码 from lxml import etree import requestsurl https://quotes.toscrape.com/ res requests.get(url) tree etree.HTML(res.text)quotes tree.xpath(//div[classquote])for q in quotes:text q.xpath(.//span[classtext]/text())[0]author q.xpath(.//small[classauthor]/text())[0]tags q.xpath(.//div[classtags]/a[classtag]/text())print(f{text} —— {author} [Tags: {, .join(tags)}])XPath vs BeautifulSoup 对比项BeautifulSoupXPath (lxml)学习曲线简单稍复杂功能强度中强性能一般较快选择方式标签/类名/选择器路径表达式适合人群初学者熟悉 HTML 的开发者 今日练习任务 使用 XPath 提取名言、作者、标签 获取所有页数据分页跳转 统计作者数量 不重复的标签数 保存数据为 JSON 文件 示例代码 import requests from lxml import etree import json import timeBASE_URL https://quotes.toscrape.com HEADERS {User-Agent: Mozilla/5.0 }def fetch_html(url):response requests.get(url, headersHEADERS)return response.text if response.status_code 200 else Nonedef parse_quotes(html):tree etree.HTML(html)quotes tree.xpath(//div[classquote])data []for q in quotes:text q.xpath(.//span[classtext]/text())[0]author q.xpath(.//small[classauthor]/text())[0]tags q.xpath(.//div[classtags]/a[classtag]/text())data.append({text: text,author: author,tags: tags})return datadef get_next_page(html):tree etree.HTML(html)next_page tree.xpath(//li[classnext]/a/href)return BASE_URL next_page[0] if next_page else Nonedef main():all_quotes []url BASE_URLwhile url:print(f正在抓取{url})html fetch_html(url)if not html:print(页面加载失败)breakquotes parse_quotes(html)all_quotes.extend(quotes)url get_next_page(html)time.sleep(0.5) # 模拟人类行为防止被封# 输出抓取结果print(f\n共抓取名言{len(all_quotes)} 条)# 保存为 JSONwith open(quotes_xpath.json, w, encodingutf-8) as f:json.dump(all_quotes, f, ensure_asciiFalse, indent2)print(已保存为 quotes_xpath.json)if __name__ __main__:main()✍️ 今日总结 学会使用 XPath 精确定位 HTML 元素掌握了 lxml.etree.HTML 的解析方法对比了两种主流网页解析方式为后续复杂数据提取打好基础
http://www.hkea.cn/news/14362018/

相关文章:

  • 个人网站备案怎么做一见钟情 网站
  • 管理系统门户网站开发路线怎么把电脑字体导入wordpress
  • 石家庄建设厅网站首页wordpress 文章 移除侧边栏
  • 设计师 网站主流的网站开发框架
  • 网站做中转线上免费logo设计
  • 企业手机网站源码下载铁岭网站建设
  • 企业门户网站 意义国外论文类网站有哪些方面
  • 长沙做四维彩超玛丽亚m网站大连h5网站开发
  • 如何做哟个优惠券网站设计一个网站要多少钱
  • 大连 网站制作专业培训机构
  • 汕头建设学校的网站广东南方购物频道app
  • 建设官方网站怎么登录广州seo关键字推广
  • 郑州软件开发公司网站网站后台管理系统cms
  • 网站结构构图企业网站建设意义
  • dede网站地图位置wordpress 添加简码
  • 天河建设网站价格简历模板表格
  • 网站建设登记表软件开发公司厂家有哪些
  • 在线logo制作网站怎样做元古建筑的网站结构图
  • 亲子游网站建设内容优化手机流畅度的软件
  • 关于建设信息网站的请示营销网站建设计划书
  • 给网站写文章怎么做电子商务网站建设的实训报告
  • 如何建设教师网上授课网站wordpress博客破解版
  • 泸州网站优化推广济南做网站要多少钱
  • 网站建设邀标比选网站换域名 百度收录
  • 沈阳cms建站模板网站建设系统下载
  • 本地建设网站湛江网站建设优化推广
  • 怎样在网站上做外贸wordpress v2ex主题
  • 腾讯建站平台官网自己可以做电子商务网站
  • 网站开发维护求职信做百度推广销售怎么样
  • 常州天狼网站建设百度搜索营销