当前位置: 首页 > news >正文

河北省建设执业注册中心网站wordpress 多的模板

河北省建设执业注册中心网站,wordpress 多的模板,注册网站会员需要详细填写,网站建设一般都需要什么资质题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据#xff0c;需要访问大量的网页才能够完成任务。 这里有一个网站#xff0c;还是求所有数字的和#xff0c;只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据需要访问大量的网页才能够完成任务。 这里有一个网站还是求所有数字的和只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import requests import reurl http://www.glidedsky.com/level/web/crawler-basic-2headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }res 0 for i in range(1, 1001):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)for n in n_list:res int(n)print(fResult: {res})使用多线程实现更快爬取 import requests import re import threadingurl http://www.glidedsky.com/level/web/crawler-basic-2 total_threads 10 # 设置线程数量 lock threading.Lock() # 创建一个锁用于线程间的数据同步 res 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)with lock:for n in n_list:res int(n)threads [] headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }# 创建并启动线程 for i in range(total_threads):thread threading.Thread(targetworker, args(i,))thread.start()threads.append(thread)# 等待所有线程执行完成 for thread in threads:thread.join()print(fResult: {res})使用异步函数 import aiohttp import asyncio import reurl http://www.glidedsky.com/level/web/crawler-basic-2 total_requests 1000 # 总共地请求次数 concurrent_requests 10 # 同时并发的请求数量 res 0headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }async def fetch_url(session, temp_url):async with session.get(temp_url, headersheaders) as response:html await response.text()pattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks []for i in range(1, total_requests 1):temp_url url ?page str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) concurrent_requests or i total_requests:results await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres ntasks []loop asyncio.get_event_loop() loop.run_until_complete(main())print(fResult: {res})时间统计同步的方式大概80s多线程和异步时间差不多都是20s左右
http://www.hkea.cn/news/14353857/

相关文章:

  • wordpress 导航站模板百度指数搜索指数的数据来源
  • 外贸网站免费推广wordpress 慢途网
  • 手机软件制作网站网站源码下载免费
  • 购物网站的排版石家庄新钥匙网站建设
  • 哪个网站可以做logo如何创建一个公司
  • 如何网站开发语言企业网站设计html
  • 电影采集网站流量微信朋友圈的广告怎么投放
  • 求人做网站怎么才能申请自己的网站
  • 如果建网站手机端怎样做网站建设
  • 重庆自助企业建站模板豫建市2021 42号
  • 万城建设网站seo短视频网页入口引流方法
  • 三亚网站建设美工wordpress文章幻灯片代码
  • 淘宝客网站建设视频网站建设教程实训心得
  • 小破站下载优质网站建设报价
  • 宁波网站建设风格图片百度搜索
  • 做网站资源存储ui网页设计论文
  • 建站快车怎么样徐州市鼓楼区建设局网站
  • 网站口碑推广北滘 网站建设
  • 潜山做网站做彩投网站犯法吗
  • 成都建设招标网站首页济南做网站设计
  • 建设学分银行网站策划书庆云网站seo
  • 网站运行需求ui设计师培训费用
  • 深圳前十名代运营公司大连百度推广seo
  • 南开天津网站建设网站html下载器
  • 做购彩网站是怎么盈利的linux 好用的wordpress
  • 旅游电子商务网站的建设企业培训课程视频
  • 揭阳网站制作方案定制宁夏省住房城乡建设厅网站
  • 用自己的电脑建设网站什么软件是做网站的
  • 一个网站有多少网页宝安网站设计项目
  • 简述什么是网站做内贸要在哪个网站找客户