当前位置: 首页 > news >正文

淘宝网站建设情况医院科室网站建设

淘宝网站建设情况,医院科室网站建设,wordpress怎么选择中文版,应用开发工程师目录 1. 建立 Web 网站 2. 编写 Scrapy 爬虫程序 为了说明 scrapy 爬虫爬取网站多个网页数据的过程#xff0c;用 Flask 搭建一个小型的 Web 网站。 1. 建立 Web 网站 #xff08;1#xff09;books.html !DOCTYPE html html langen h…       目录 1. 建立 Web 网站 2. 编写 Scrapy 爬虫程序 为了说明 scrapy 爬虫爬取网站多个网页数据的过程用 Flask 搭建一个小型的 Web 网站。 1. 建立 Web 网站 1books.html !DOCTYPE html html langen headmeta charsetUTF-8titlebooks/title /head bodyh3计算机/h3ullia hrefdatabase.html数据库/a/lilia hrefprogram.html程序设计/a/lilia hrefnetwork.html计算机网络/a/li/ul /body /html 2databse.html !DOCTYPE html html langen headmeta charsetUTF-8titledatabase/title /head bodyh3数据库/h3ullia hrefmysql.htmlMySQL数据库/a/li/ula hrefbooks.htmlHome/a /body /html 3program.html !DOCTYPE html html langen headmeta charsetUTF-8titleprogram/title /head bodyh3程序设计/h3ullia hrefpython.htmlPython程序设计/a/lilia hrefjava.htmlJava程序设计/a/li/ula hrefbooks.htmlHome/a /body /html 4network.html !DOCTYPE html html langen headmeta charsetUTF-8titlenetwork/title /head bodyh3计算机网络/h3a hrefbooks.htmlHome/a /body /html 5mysql.html !DOCTYPE html html langen headmeta charsetUTF-8titlemysql/title /head bodyh3MySQL数据库/h3a hrefbooks.htmlHome/a /body /html 6python.html !DOCTYPE html html langen headmeta charsetUTF-8titlepython/title /head bodyh3Python程序设计/h3a hrefbooks.htmlHome/a /body /html 7java.html !DOCTYPE html html langen headmeta charsetUTF-8titlejava/title /head bodyh3Java程序设计/h3a hrefbooks.htmlHome/a /body /html 【问题】编写一个爬虫程序爬取这个网站所有的页面的h3标题文字。 服务器程序 server.py 如下 import flask import osapp flask.Flask(__name__)def getFile(fileName):data bfileName web_html/ fileName # 将7个html页面放到web_html目录下做了个路径拼接if os.path.exists(fileName):fobj open(fileName, rb)data fobj.read()fobj.close()return dataapp.route(/) def index():return getFile(books.html)app.route(/section) def process(section):data if section ! :data getFile(section)return dataif __name__ __main__:app.run()2. 编写 Scrapy 爬虫程序 仍然使用4.1节中的爬虫程序项目重新编写MySpider.py程序 爬虫程序 MySpider.py 如下 import scrapyclass MySpider(scrapy.Spider):name mySpiderdef start_requests(self):url http://127.0.0.1:5000yield scrapy.Request(urlurl, callbackself.parse)# 函数start_requests可以用start_urls替换# start_urls [http://127.0.0.1:5000]def parse(self, response, **kwargs):try:print(response.url)data response.body.decode()selector scrapy.Selector(textdata)print(selector.xpath(//h3/text()).extract_first())links selector.xpath(//a/href).extract()for link in links:url response.urljoin(link)yield scrapy.Request(urlurl, callbackself.parse)except Exception as err:print(err)开启 服务器server.py 执行run.py如下 http://127.0.0.1:5000 计算机 http://127.0.0.1:5000/network.html 计算机网络 http://127.0.0.1:5000/program.html 程序设计 http://127.0.0.1:5000/database.html 数据库 http://127.0.0.1:5000/mysql.html MySQL数据库 http://127.0.0.1:5000/java.html Java程序设计 http://127.0.0.1:5000/books.html 计算机 http://127.0.0.1:5000/python.html Python程序设计 scrapy 自动筛选已经访问过的网站我们来分析程序的执行过程 (1)     start_urls[http://127.0.0.1:5000] 这是入口地址访问这个地址成功后会回调parse函数 (2)     def parse(self, response): 这是回调函数该函数的response对象包含了网站返回的信息 (3)     dataresponse.body.decode()           selectorscrapy.Selector(textdata) 网站返回的response.body的二进制数据要decode转为文本然后建立Selector对象 (4) print(selector.xpath(//h3/text()).extract_first()) 获取网页中的h3标题的文本这就是要爬取的数据为了简单起见这个数据只有一项 (5) linksselector.xpath(//a/href).extract() 获取所有的a href...链接的 href值组成links列表 (6) for link in links:                     urlresponse.urljoin(link)                        yield scrapy.Request(urlurl,callbackself.parse) 访问links的每个link通过urljoin函数与response.url地址组合成完整的 url地址再次建立Request对象回调函数仍然为parse即这个parse函数会被递归调用。其中使用了yield语句返回每个Request对象这是 scrapy程序的要求。
http://www.hkea.cn/news/14571940/

相关文章:

  • 阿里巴巴网站推广方法wordpress标题去掉私密
  • 海口网站建设网页制作公司前端网页设计样例
  • o2o网站制作公司wordpress paypal收款
  • 安防网站模板织梦建站教程全集
  • 网站的推广和优化方案鄞州seo整站优化服务
  • vs2017 网站开发新冠疫苗接种率
  • 网站logo的颜色与网页的颜色中山 灯饰 骏域网站建设专家
  • 网站定制微安电力案例wordpress djiango
  • 如何在谷歌做网站外链杭州市拱墅区住房与建设局网站
  • 中国建设银行阜阳分行网站电子商务网站建设实训心得体会
  • 网站广告条效果wordpress怎么改模版
  • 网站开发技术期末考试试题营销策略有哪些4种
  • 做个网站需要多少钱?有没有旧装修要拆wordpress模板源码
  • 马鞍山的网站建设公司开封建网站的公司
  • 青岛外贸假发网站建设做网站要素
  • 合肥建网站的公司谷歌网站质量指南
  • 做搜狗手机网站点学网站开发好找工作吗
  • 做美食直播哪个网站最好wordpress摘要过滤
  • 河西做网站备案中心查网站
  • 东莞汽车网站建设建设阅读网站的研究意义
  • 怎么宣传自己的网站推广做网站上传服务器
  • 网站简介 更改怎么制作小程序教程
  • 做好网站优化的方法有哪些?室内设计学校培训的
  • 为什么手机进网站乱码wordpress分类静态
  • 罗湖区做网站的公司学生做爰网站
  • 一个人做网站 知乎优化英文
  • 桂林网页制作网络优化工程师是干什么的
  • 网站开发需要20万定州哪里可以做网站
  • 优质作文网站网站所有者是什么意思
  • 网站建设自查工作做网站用什么语言编写