当前位置: 首页 > news >正文

谈谈你在建设主题资源网站时毕节城乡建设局网站查询

谈谈你在建设主题资源网站时,毕节城乡建设局网站查询,上海专业网站建设报价,用eclipse做jsp网站文章目录 前言导入依赖库设置ChromeDriver的路径创建Chrome WebDriver对象打开网页找到结果元素创建一个空列表用于存储数据遍历结果元素并提取数据提取标题、作者、发布时间等信息判断是否为目标文章提取目标文章的描述、阅读数量、点赞数量、评论数量等信息将提取的数据存储为… 文章目录 前言导入依赖库设置ChromeDriver的路径创建Chrome WebDriver对象打开网页找到结果元素创建一个空列表用于存储数据遍历结果元素并提取数据提取标题、作者、发布时间等信息判断是否为目标文章提取目标文章的描述、阅读数量、点赞数量、评论数量等信息将提取的数据存储为字典格式将字典添加到数据列表中保存数据为JSON文件关闭WebDriver完整代码运行效果 结束语 前言 本文介绍了如何使用Selenium和Chrome WebDriver来获取 【腾讯云 Cloud Studio 实战训练营】中的文章信息。在这篇文章中我们首先导入了需要使用的依赖库然后设置了ChromeDriver的路径并创建了Chrome WebDriver对象。接着我们使用WebDriver打开了指定的网页并等待页面加载完成。随后通过定位元素的方式找到了搜索结果列表的父元素并提取了每个搜索结果的标题、作者、发布时间等信息。最后我们将提取到的数据存储为JSON文件并关闭了WebDriver。 导入依赖库 from selenium import webdriver import json from selenium.webdriver.common.by import By from selenium.common.exceptions import NoSuchElementException import time这段代码导入了需要使用的依赖库包括selenium、json以及一些常用模块。 设置ChromeDriver的路径 driver_path 在这里driver_path变量存储了ChromeDriver的路径需要根据实际情况进行设置。 创建Chrome WebDriver对象 driver webdriver.Chrome(driver_path)通过webdriver.Chrome()方法创建了一个Chrome WebDriver对象并将其赋值给变量driver。 打开网页 url https://so.csdn.net/so/search?spm1001.2100.3001.7499q%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5tbloguutm_mediumdistribute.pc_search_hot_word.none-task-hot_word-alirecmd-1-%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5-null-null.172%5Ev8%5Etag_flagdepth_1-utm_sourcedistribute.pc_search_hot_word.none-task-hot_word-alirecmd-1-%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5-null-null.172%5Ev8%5Etag_flag driver.get(url) time.sleep(5)使用driver.get()方法打开了指定的网页。这里的URL是搜索某个关键词的CSDN博客链接。然后通过time.sleep()方法等待页面加载完成。 找到结果元素 results driver.find_element(By.CLASS_NAME, so-result-list).find_elements(By.CLASS_NAME, list-item)使用driver.find_element()方法找到了搜索结果列表的父元素再通过find_elements()方法找到所有的搜索结果元素并将其赋值给变量results。 创建一个空列表用于存储数据 data []创建一个空列表data用于存储提取出的数据。 遍历结果元素并提取数据 for result in results:...遍历结果元素列表results对每一个结果元素进行数据提取。 提取标题、作者、发布时间等信息 title result.find_element(By.CLASS_NAME, title).find_element(By.TAG_NAME, a).textauthor result.find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, name-text).textpushTime result.find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, time).text通过find_element()方法找到标题、作者和发布时间等元素并使用.text属性获取对应的文本内容。 判断是否为目标文章 if 实战训练营】 in title:...else:print(f不是目标文章, 当前文章标题是:{title})通过判断标题中是否包含关键字实战训练营】来确定是否为目标文章。如果是目标文章则进行下一步的数据提取否则打印当前文章的标题。 提取目标文章的描述、阅读数量、点赞数量、评论数量等信息 description result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, row2).texttry:read result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-view).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:read 0try:zan result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-dig).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:zan 0try:comment result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-comment).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:comment 0使用find_element()方法逐层查找目标文章的描述、阅读数量、点赞数量、评论数量等元素并通过.text属性获取对应的文本内容。如果某个元素不存在则将对应的变量赋值为0。 将提取的数据存储为字典格式 item {title: title, # 标题description: description, # 描述read: read, # 阅读数量zan: zan, # 点赞数量comment: comment, # 评论数量author: author, # 作者pushTime: pushTime # 发布时间}将提取到的标题、描述、阅读数量等信息存储为一个字典item。 将字典添加到数据列表中 data.append(item)将提取到的字典item添加到数据列表data中。 保存数据为JSON文件 with open(data.json, w, encodingutf-8) as f:json.dump(data, f, ensure_asciiFalse, indent4)使用json.dump()方法将数据列表data以JSON格式保存到文件data.json中。 关闭WebDriver driver.quit()关闭Chrome WebDriver。 完整代码 from selenium import webdriver import json from selenium.webdriver.common.by import By from selenium.common.exceptions import NoSuchElementException import time# 设置ChromeDriver的路径 driver_path # 创建Chrome WebDriver对象 driver webdriver.Chrome(driver_path)# 打开网页 url https://so.csdn.net/so/search?spm1001.2100.3001.7499q%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5tbloguutm_mediumdistribute.pc_search_hot_word.none-task-hot_word-alirecmd-1-%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5-null-null.172%5Ev8%5Etag_flagdepth_1-utm_sourcedistribute.pc_search_hot_word.none-task-hot_word-alirecmd-1-%E8%85%BE%E8%AE%AF%E4%BA%91%20Cloud%20Studio%20%E5%AE%9E%E6%88%98%E8%AE%AD%E7%BB%83%E8%90%A5-null-null.172%5Ev8%5Etag_flag driver.get(url) time.sleep(5)# 找到结果元素 results driver.find_element(By.CLASS_NAME, so-result-list).find_elements(By.CLASS_NAME, list-item)# 创建一个空列表用于存储数据 data []# 遍历结果元素并提取数据 for result in results:time.sleep(5)title result.find_element(By.CLASS_NAME, title).find_element(By.TAG_NAME, a).textauthor result.find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, name-text).textpushTime result.find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, time).textif 实战训练营】 in title:description result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, row2).text# readEle result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, item-ft).find_element(# By.CLASS_NAME, btm-view)# zanEle result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, item-ft).find_element(# By.CLASS_NAME, btm-dig)# print(zanEle)# commentEle result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,# item-ft).find_element(# By.CLASS_NAME, btm-comment)try:read result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-view).find_element(By.CLASS_NAME, num).text# read result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,# item-ft).find_element(# By.CLASS_NAME, btm-view).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:read 0try:zan result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-dig).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:zan 0try:comment result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME,item-ft).find_element(By.CLASS_NAME, btm-comment).find_element(By.CLASS_NAME, num).textexcept NoSuchElementException:comment 0# read result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, btm-view).find_element(By.CLASS_NAME, num).text# zan result.find_element(By.CLASS_NAME, item-bd__cont).find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, btm-dig).find_element(By.CLASS_NAME, num).text# comment result.find_element(By.CLASS_NAME,item-bd__cont).find_element(By.CLASS_NAME, item-ft).find_element(By.CLASS_NAME, btm-comment).find_element(By.CLASS_NAME, num).textidx result.get_attribute(i)# 将提取的数据存储为字典格式item {title: title, # 标题description: description, # 描述read: read, # 阅读数量zan: zan, # 点赞数量comment: comment, # 评论数量author: author, # 作者pushTime: pushTime # 发布时间}print(idx)# 将字典添加到数据列表中data.append(item)else:print(f不是目标文章, 当前文章标题是:{title})# 保存数据为JSON文件with open(data.json, w, encodingutf-8) as f:json.dump(data, f, ensure_asciiFalse, indent4)# 关闭WebDriver driver.quit() 运行效果 运行的数据会保存到json 中 结束语 通过本文的介绍我们学习了如何使用Selenium和Chrome WebDriver进行网页数据爬取掌握了定位元素、提取信息和数据存储的相关技巧。这些技术对于获取网页上的数据非常有用可以帮助我们实现自动化的数据采集和处理。希望本文对您有所帮助如果您对网页数据爬取和数据处理有更多兴趣和需求可以继续深入学习和探索相关内容。祝您在数据领域取得更多的成果
http://www.hkea.cn/news/14315413/

相关文章:

  • 成品网站nike源码免费怎样增加网站流量
  • 网站栏目类型wordpress怎么破解版
  • 新手如何学网站建设仿新浪微博网站代码
  • 做妇产科网站好看的手机网站布局
  • 网站排名优化怎么做商品网站建设
  • 建设厅质监总站网站黄骅贴吧最近发生的事
  • 网站建设 概念股门户网站系统建设清单
  • 南山网站设计电话租服务器 wordpress
  • 湖南网站seo营销多少费用创新的商城网站建
  • 益阳建设公司网站阿里巴巴官网电脑版
  • 网盟推广seo是付费还是免费推广
  • 无锡网站建设xinysu房地产中介网站建设
  • 怎么建一个网站服务器怎么添加网站
  • 网站上的截图怎么做wordpress 字体颜色插件
  • 查建筑企业信息的网站研发一个app费用
  • 海曙网站制作wordpress安装数据库出错
  • 鑫鼎信长春网站建设网络系统工程设计是干什么的
  • 网站制作项目分析怎么做 方法梦幻西游手游网页版官网
  • 网站开发工程师绩效考核手机网站建设需求文档
  • php做的网站如何发布深圳专业网站制作平台
  • 公司做网站怎么收费申请网站建设费
  • 网站app开发一站式服务专业建设网站建站
  • 杭州网站建设出 名郑州app软件定制开发
  • 网站开发项目教程谷歌优化教程
  • 网站移动端自适应宁德市医院东侨院区
  • 网站建设前台和后台设计十大免费行情软件在线观看
  • 杭州市江干区建设局网站哪个网站可以直接做ppt
  • 西安至诚网站建设网站制作动态转静态怎么做
  • 做门户网站公司室内设计效果图ppt演示
  • 开发区建设集团网站哪里能注册免费的网站