当前位置: 首页 > news >正文

最好的自助建站系统网站建设 如何友情链接

最好的自助建站系统,网站建设 如何友情链接,网站建设服务公,哈尔滨免费建站模板python爬虫-url管理器 url管理器的作用python实现 url管理器的作用 在Python爬虫中#xff0c;URL管理器#xff08;URL Manager#xff09;是一个重要的组件#xff0c;用于有效管理爬取过程中所涉及的URL。它主要负责以下几个方面的任务#xff1a; URL去重#xff08;… python爬虫-url管理器 url管理器的作用python实现 url管理器的作用 在Python爬虫中URL管理器URL Manager是一个重要的组件用于有效管理爬取过程中所涉及的URL。它主要负责以下几个方面的任务 URL去重去重复在爬取过程中会遇到相同的URL被重复爬取的情况这不仅浪费了时间和资源还可能导致数据重复。URL管理器通过维护一个已经爬取过的URL集合确保每个URL只被爬取一次避免重复。 URL调度调度顺序爬虫需要决定下一个要爬取的URL是哪个。URL管理器负责根据一定的策略选择下一个要爬取的URL可以使用先进先出FIFO、后进先出LIFO、优先级队列等不同的调度策略。 新URL添加当从一个网页中解析出新的URL时URL管理器负责将这些新URL添加到待爬取的URL队列中以确保爬虫能够持续地探索新的页面。 URL状态管理URL管理器可以记录每个URL的状态例如是否已经爬取、是否成功、失败次数等。这有助于在后续的爬取过程中进行优化和错误处理。 数据持久化在爬虫运行结束后URL管理器通常会将已经爬取的URL保存下来以便下次运行时恢复之前的状态。 URL管理器通常由两个部分组成待爬取URL队列待爬取URL集合和已爬取URL集合。这两部分工作协同确保爬虫能够高效地运行不重复爬取URL同时按照合适的策略调度URL。 综上所述URL管理器在爬虫中起到了整合、协调、去重和调度的重要作用帮助爬虫更加高效地获取所需的信息。 python实现 class UrlManager():url管理器def __init__(self):# 初始化待爬取url和已爬取urlself.new_urls set()self.old_urls set()def add_new_url(self, url):添加新的urlif (url is None) or (len(url) 0):return(Error! The URL to be added is empty)if (url in self.new_urls) or (url in self.old_urls):return(Error! The URL to be added already exists)self.new_urls.add(url)def add_new_urls(self, urls):批量添加新的urlif (urls is None) or (len(urls) 0):return(Error! The URLs to be added is empty)for url in urls:self.add_new_url(url)def get_url(self):获取爬取url,并记录if self.find_new_url():url self.new_urls.pop()self.old_urls.add(url)return urlelse:return(Crawling completed, the URL to be crawled is empty)def find_new_url(self):return len(self.new_urls) 0if __name__ __main__:url_manager UrlManager()url_manager.add_new_url(url1)url_manager.add_new_urls([url1,url2])print(new_urls:{}, old_urls:{}.format(url_manager.new_urls, url_manager.old_urls))print(*30)new_url url_manager.get_url()print(new_urls:{}, old_urls:{}.format(url_manager.new_urls, url_manager.old_urls))print(*30)new_url url_manager.get_url()print(new_urls:{}, old_urls:{}.format(url_manager.new_urls, url_manager.old_urls))print(*30)print(url_manager.find_new_url()) output: new_urls:{url2, url1}, old_urls:set()new_urls:{url1}, old_urls:{url2}new_urls:set(), old_urls:{url2, url1}False
http://www.hkea.cn/news/14461227/

相关文章:

  • 网站建设 技术规范书怎么搭载wordpress
  • 外网视频网站做泥声控2021室内设计公司排名
  • wap网站 微信小程序wordpress 全站静态
  • 重新做网站学建设网站首页
  • 成都专业网站排名推广万盛网站制作
  • 山东网站制作网络对企业管理的影响
  • 苏宁易购网站建设分析个人买卖网站怎么做
  • 怎样查看网站建设时间360提交网站收录入口
  • 哪个程序做下载网站好鞍山吧最新消息
  • 如何做服装的微商城网站建设昆明搜索引擎的关键词优化
  • 网站开发的认知旅游网站设计与实现
  • 网站制作报价大约品牌网站制作报价表
  • 世纪购网站开发招聘河南省工程招标信息网
  • 在360网站上怎么做推广网站首页原型图咋做
  • 建筑劳务东莞网站建设做360效果图网站
  • 怎么创建网站充值和提现账号黑龙江省建设教育协会网站
  • 网站建设 电子书山东做网站找哪家好
  • 58同城做网站推广好不好极家装修公司
  • 建站兔软件下载安徽创誉建设工程有限公司网站
  • 外包类设计网站苏州专业网站建设设计公司哪家好
  • 保定外贸网站制作wordpress首页文章缩略图
  • 企业网站推广的重要性北京谷歌优化
  • vps设置网站访问用户权限高防手表网站
  • 免费网站赚钱安徽省建设行业质量与安全协会网站
  • 怎么做电影网站服务器广州谷歌推广
  • 微网官方网站深圳深圳做网站
  • 广州高铁新建站在哪里注册建筑设计师
  • 糗事百科网站 源码国际阿里网站首页建设
  • 怎么把自己的网站做自适应网站wordpress自动添加内链
  • 贵州企业网站建设策划优酷视频网站源码