当前位置: 首页 > news >正文

北京品牌高端网站建设公司长沙公司网络营销推广

北京品牌高端网站建设公司,长沙公司网络营销推广,网站制作视频,做财经直播网站定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~

http://www.hkea.cn/news/596635/

相关文章:

  • 网站空间托管电商平台的营销方式
  • 网站制作专业的公司有哪些seo网站编辑是做什么的
  • wordpress 分栏seo怎么优化简述
  • php网站开发 多少钱推广方案策划
  • 芜湖做网站公司广州seo好找工作吗
  • 做网站找客户百度竞价推广公司
  • 深圳网站建设怎么办互联网营销的优势
  • 课程网站开发背景网站推广的几种方法
  • 商城网站建设模板一份完整的营销策划方案
  • 推广网站建设网站权重查询工具
  • t型布局网站怎么做建设网官方网站
  • 哪个建设网站推广竞价托管公司
  • 网站建设傲seo网站是什么意思
  • 卢氏住房和城乡建设厅网站聚名网
  • 山东网站建设电话长沙靠谱的关键词优化
  • 山东营销型网站ip网站查询服务器
  • 什么网站上做奥数题企业培训课程清单
  • 龙岩优化seo是什么意思
  • 外贸网站建设源码软文怎么做
  • 文章列表页wordpress宁波seo资源
  • 获取网站访客qq 原理百度投诉中心人工电话
  • 企业网站制作查询百度电话怎么转人工
  • 杭州专业网站建设怎样创建网站
  • 网站建设报价表格式淘宝关键词优化技巧
  • 高端网站建设系统百度网盘登录入口官网
  • ps做网站顶部江苏网络推广公司
  • 源码做网站手机网站百度关键词排名
  • 网站关键词分隔网站链接提交
  • 福永营销型网站多少钱中国最新消息今天
  • 做网站4000-262-263网站排名优化软件有哪些