当前位置：首页 > news >正文

网站备案需要多久网站如何优化

news 2026/4/7 16:08:29

网站备案需要多久,网站如何优化,61源码网,销售单页网站如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接一、安装Scrapy库二、创建项目（以BaiduSpider为例） scrapy startproject BaiduSpider生成每个文件的功能： 二、创建爬虫脚本（爬虫名：news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目（以BaiduSpider为例）

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能：

在这里插入图片描述

二、创建爬虫脚本（爬虫名：news）

scrapy genspider news www.baidu.com

命令执行成功后，spider目录中将生成news.py文件

在这里插入图片描述

（1）name：在同一个项目中，名字是唯一的，用来区分不同的spider。
（2）allowed_domains：允许爬取的域名，如果初始或后续请求的URL不是这个域名下的，则请求会被过滤掉，可以根据需要编辑或添加。
（3）start_urls：spider初始爬取的URL列表，可以根据需要编辑或添加。
（4）parse(self，response)：解析返回的响应，提取数据或新的URL，response是请求start_urls后返回的响应。

三、修改settings脚本（位置：settings.py）

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫（位置：news.py）

编写解析方法

在这里插入图片描述

五、运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本（位置：items.py）

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类（继承scrapy.Item类），并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法（位置：news.py）

在这里插入图片描述

6.3 保存为JSON文件

scrapy crawl news -o news.json

命令执行成功后，BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意：使用-o输出JSON文件时，会默认使用unicode编码，当内容为中文时，输出的JSON文件不便于查看。此时，可以在settings.py文件中修改默认的编码方式，即增加设置FEED_EXPORT_ENCODING = ‘utf-8’。

http://www.hkea.cn/news/668425/

相关文章：

网站排名不稳定怎么办seo+网站排名

做网站要淘宝热搜关键词排行榜

做网站创业流程网络建站流程

怎么做购物网站系统文本广州网络营销推广

网站后台管理系统cms推广seo网站

企业网站备案注销百度推广登陆平台

重庆如何软件网站推广网站优化seo

最专业的佛山网站建设价格3小时百度收录新站方法

wordpress门户建站html网页完整代码作业

子域名做单独的网站广州seo外包公司

凡科建设网站的步骤永久免费无代码开发平台网站

建设一个百度百科类网站网站排名优化的技巧

自己做网站可以吗淄博做网站的公司

个人做健康网站好吗宁波网站制作与推广价格

长沙有哪些做网站的连云港seo优化公司

青羊区定制网站建设报价搜索引擎营销方案

淘宝优惠券查询网站怎么做域名备案官网

wordpress自定义url优化教程网下载

模板网站和定制网站百度搜索引擎的网址

企业建设网站公司哪家好app拉新推广接单平台

老虎淘客系统可以做网站吗江西省水文监测中心

高港区企业网站建设快速建站教程

怎样写企业网站建设方案北京网站seo招聘

做蛋糕视频的网站软文广告范文

h5自适应网站模板下载网站换友链平台

政府网站建设及管理规范各大搜索引擎入口

poedit pro wordpress免费网站推广优化

市场营销产品推广策划方案seo合作代理

东莞专业网站建设推广搜索引擎网络排名

服务器做网站用什么环境好销售营销方案100例