当前位置: 首页 > news >正文

做网站有哪些行业济南seo公司

做网站有哪些行业,济南seo公司,官方网站建设推广,网络公司好听的名字目录 爬虫引发的问题 网络爬虫的尺寸 网络爬虫引发的问题 网络爬虫的限制 Robots协议 Robots协议的遵守方式 Robots的使用 对Robots协议的理解 爬虫引发的问题 网络爬虫的尺寸 爬取网页,玩转网页: 小规模,数据量小,爬取…

目录

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

Robots协议的遵守方式

Robots的使用

对Robots协议的理解


爬虫引发的问题

网络爬虫的尺寸

  • 爬取网页,玩转网页:

小规模,数据量小,爬取速度不敏感。Requests库

  • 爬取网站,爬取系列网站:

中规模,数据规模较大,爬取速度敏感。Scrapy库

  • 爬取全网:

大规模,搜索引擎,爬取速度关键。定制开发

网络爬虫引发的问题

骚扰问题、法律风险、隐私泄露

网络爬虫的限制

  • 来源审查:判断User-Agent进行限制
    • 检查来访HTTP协议头的User-Agent域,之相应浏览器或友好爬虫的访问。
  • 发布公告:Robots协议
    • 告知所有爬虫网站的爬取策略,要求爬虫遵守。


Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

形式:在网站根目录下的robots.txt文件。

案例:京东的Robots协议

http://www.jd.com/robots.txt

# 对于任何的网络爬虫来源,遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 			
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 		
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法:

# 注释
* 代表所有
./代表根目录
User-agent: *		# 代表的是那些爬虫
Disallow: /			# 代表不允许爬虫访问的目录

其他网站的一些Robots协议(但并不是所有网站都有robots协议):

  • 百度:http://www.baidu.com/robots.txt
  • 新浪新闻:http://news.sina.com.cn/robots.txt
  • 腾讯:http://www.qq.com/robots.txt
  • 腾讯新闻:http://news.qq.com/robots.txt
  • 国家教育部:http://www.meo.edu.cn/robots.txt (注:无robots协议)


Robots协议的遵守方式

Robots的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

对Robots协议的理解

  • 爬取网页,玩转网页:

访问量很小:可以遵守

访问量较大:建议遵守

  • 爬取网站,爬取系列网站:

非商业且偶尔:建议遵守

商业利益:必须遵守

  • 爬取全网:

必须遵守

http://www.hkea.cn/news/453033/

相关文章:

  • 佛山做网站建设价格百度网盘官方下载
  • 网上购物商城网站建设个人免费域名注册网站
  • 成都学网站建设电子营销主要做什么
  • 织梦cms通用蓝白简介大气企业网站环保科技公司源码网络推广员招聘
  • 网站后台怎么添加图片视频app推广
  • 网站秒收录怎么做的经典软文案例和扶贫农产品软文
  • 珠海疫情最新情况厦门搜索引擎优化
  • 中国菲律宾历史战绩网站关键词优化工具
  • 西宁网站建设最好的公司哪家好优秀网站设计案例
  • 沧州做网站费用搜索引擎优化是做什么的
  • 社区网站推广方案线上运营的5个步骤
  • 湘潭学校网站建设 z磐石网络网站关键词优化教程
  • wordpress多程序用户同步汕头seo排名
  • 旅游网站 建设平台分析百度seo一本通
  • 怎么用dw做网站app开发网站
  • 昆山做网站的公司有哪些seo整站优化推广
  • 网站建设谈单情景对话青岛seo百科
  • 网站做自适应好不好网页分析报告案例
  • 大连手机自适应网站建设公司seo诊断站长
  • 有哪些好的网站十大电商代运营公司
  • 个人网页设计欣赏网站整站优化快速排名
  • 多少钱立案seo 公司
  • 医学类的网站做Google百度怎么优化排名
  • 手机网站怎样做枸橼酸西地那非片的功效与作用
  • 邯郸做wap网站的公司六六seo基础运营第三讲
  • 六安市建设银行网站seo编辑的工作内容
  • seo外包平台福州百度快照优化
  • 橙子建站广告怎么投放竞价网络推广
  • 中国公司查询网站网络公司起名
  • wordpress邮箱内容更改一键关键词优化