当前位置：首页 > news >正文

树莓派打开wordpress郑州网站排名优化外包

news 2026/4/8 21:04:12

树莓派打开wordpress,郑州网站排名优化外包,自己做网站,成都住建局官网租房交易中心如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接一、安装Scrapy库二、创建项目（以BaiduSpider为例） scrapy startproject BaiduSpider生成每个文件的功能： 二、创建爬虫脚本（爬虫名：news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目（以BaiduSpider为例）

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能：

在这里插入图片描述

二、创建爬虫脚本（爬虫名：news）

scrapy genspider news www.baidu.com

命令执行成功后，spider目录中将生成news.py文件

在这里插入图片描述

（1）name：在同一个项目中，名字是唯一的，用来区分不同的spider。
（2）allowed_domains：允许爬取的域名，如果初始或后续请求的URL不是这个域名下的，则请求会被过滤掉，可以根据需要编辑或添加。
（3）start_urls：spider初始爬取的URL列表，可以根据需要编辑或添加。
（4）parse(self，response)：解析返回的响应，提取数据或新的URL，response是请求start_urls后返回的响应。

三、修改settings脚本（位置：settings.py）

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫（位置：news.py）

编写解析方法

在这里插入图片描述

五、运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本（位置：items.py）

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类（继承scrapy.Item类），并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法（位置：news.py）

在这里插入图片描述

6.3 保存为JSON文件

scrapy crawl news -o news.json

命令执行成功后，BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意：使用-o输出JSON文件时，会默认使用unicode编码，当内容为中文时，输出的JSON文件不便于查看。此时，可以在settings.py文件中修改默认的编码方式，即增加设置FEED_EXPORT_ENCODING = ‘utf-8’。

http://www.hkea.cn/news/634032/

相关文章：

甘肃网络推广软件seo方案

建筑公司网站首页图片网站推广引流

购物网站后台模板今日头条站长平台

营销导向企业网站策划站长工具无内鬼放心开车禁止收费

WordPress不能支付宝交易吗如何优化

南昌seo网站设计站长工具是做什么的

做IP授权的一般看什么网站一级消防工程师考试

项目建设备案网站爱站网站长百度查询权重

铜陵专业网站制作公司软文免费发布平台

鹿泉市建设局网站短视频seo关键词

手机网站开发标准网络营销服务工具

施工企业分包工程会计与税务处理网站推广优化是什么意思

网站建设开发的目的智能建站网站模板

深圳市做网站的有那些公司沈阳百度推广哪家好

用flash做网站教程个人发布信息免费推广平台

网站主题页网站模板中心

制作网页用什么进行页面布局seo优化方案案例

国外经典平面设计网站做网站的费用

学校营销型网站建设最新长尾关键词挖掘

服务网络是什么意思上海关键词排名优化价格

黑龙江做网站哪家好下载官方正版百度

实时网站制作网站关键字优化

商城网站要多少钱网页制作app

做网站前端难吗个人网站

怎么做亚马逊网站百度小说排行榜2020

山东省建设文化传媒有限公司网站网站排名查询工具有哪些

营销型企业网站有哪些网站建设找哪家好

玉环做企业网站任何东西都能搜出来的软件

无锡专业网站建设搜索优化seo

成品软件源码网站大全百度权重10的网站