当前位置: 首页 > news >正文

长春网站建设免费咨询永久免费的电销外呼系统

长春网站建设免费咨询,永久免费的电销外呼系统,广州网络推广奋,网站设计开发的销售主要工作一、说明 本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速#xff0c;分享它会很有用#xff0c;这样你也可以掌握这门艺术。【免责声明#xff1a;本文展示了我的抓取做法#xff0c;如果您有更多相关做法请在评论中分享】 二、计划策略 2.1 策划 确定您… 一、说明 本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速分享它会很有用这样你也可以掌握这门艺术。【免责声明本文展示了我的抓取做法如果您有更多相关做法请在评论中分享】 二、计划策略 2.1 策划 确定您的目标一个简单的 html 网站在 Python 中设计抓取方案 跑起代码让魔术运转 您需要多少时间来抓取网站从业者需要~10分钟为一个简单的html网站准备Python脚本。 2.2 第一部分找到你的目标一个网站 就我而言我需要从 SWIFT 代码或法国 BIC 代码中收集银行名称。该网站 http://bank-code.net/country/FRANCE-%28FR%29.html 有一个4000 SWIFT代码的列表以及相关的银行名称。问题是它们每页仅显示 15 个结果。浏览所有页面并一次复制粘贴 15 个结果不是一种选择。刮擦在这项任务中派上了用场。 首先使用Chrome“检查”选项来确定您需要获取的html部分。将鼠标移动到检查窗口中的不同项目上右侧然后跟踪代码突出显示的网站部分左侧。选择项目后在检查窗口中使用“复制/复制元素”并将 html 代码粘贴到 python 编码工具中。 右侧是谷歌浏览器的“检查窗口”您在使用右键单击/检查时获得 就我而言具有 15 个 SWIFT 代码的所需项目是一个“表” table classtable table-hover table-bordered idtableID stylemargin-bottom: 10px; /table 2.3 第二部分在 Python 中设计抓取方案 ascrape第一页 import requests url http://bank-code.net/country/FRANCE-%28FR%29/ page requests.get(url) 就是这样3行代码和Python已经收到了网页。现在您需要正确解析html并检索所需的项目。  记住所需的 html table classtable table-hover table-bordered idtableID stylemargin-bottom: 10px; /table 它是一个“table”元素id为“tableID”。它有一个id属性的事实很好因为这个网页上没有其他html元素可以有这个id。这意味着如果我在 html 中查找此 id除了所需的元素之外我找不到任何其他内容。它节省了时间。 让我们在 Python 中正确地做到这一点 import bs4 soup bs4.BeautifulSoup(page.content, lxml) table soup.find(nametable, attrs{id:tableID}) 所以现在我们得到了所需的 html 元素。但是我们仍然需要获取 html 中的 SWIFT 代码然后将其存储在 Python 中。我选择把它存放在熊猫里。数据帧对象但只有一个列表列表也可以解决。 为此请返回Chrome检查窗口分析html树的结构并注意您必须转到哪个元素。就我而言所需的数据位于“tbody”元素中。每个银行及其SWIFT代码都包含在一个“tr”元素中每个“tr”元素有多个“td”元素。“td”元素包含我正在寻找的数据。 html 树可以描述如下table tbody tr td 我在一行中做到了如下所示 result pd.DataFrame([[td.text for td in row.findAll(td)] for row in table.tbody.findAll(tr)])b 准备自动化 现在我们已经抓取了第一个网页我们需要考虑如何抓取我们尚未看到的新网页。我这样做的方法是复制人类行为存储一页的结果然后转到下一页。现在让我们专注于下一个网页。 在页面底部有一个菜单允许您进入 swift 代码表的特定页面。让我们检查检查器窗口中的“下一页”按钮。 “”符号将引导我们进入下一页 这给出了以下 html 元素 a href//bank-code.net/country/FRANCE-%28FR%29/15 data-ci-pagination-page2 relnextgt;/a现在在 Python 中获取 url 很简单 http: soup.find(a, attrs{rel:next}).get(href) 我们快到了。 到目前为止我们已经 - 开发了一页表格的抓取 - 确定了下一页 的 url 链接 我们只需要做一个循环然后运行代码。我建议遵循以下两种最佳实践 1. 登陆新网页时打印出来知道您的代码处于流程的哪个阶段抓取代码可以运行数小时 2.定期保存结果避免在出现错误时丢失所有抓取的内容 只要我不知道何时停止抓取我就会使用惯用的“while True”语法循环。我在每一步打印出计数器值。而且我也在每一步将结果保存在csv文件中。这实际上可能会浪费时间例如更好的方法是每 10 或 20 步存储一次数据。但我追求快速实施。 三、完整代码 代码是这样的 import os, bs4, requests import pandas as pdPATH os.path.join(C:\\,Users,xxx,Documents,py) # you need to change to your local path res pd.DataFrame() url http://bank-code.net/country/FRANCE-%28FR%29/ counter 0def table_to_df(table): return pd.DataFrame([[td.text for td in row.findAll(td)] for row in table.tbody.findAll(tr)])def next_page(soup): return http: soup.find(a, attrs{rel:next}).get(href)while True:print(counter)page requests.get(url)soup bs4.BeautifulSoup(page.content, lxml)table soup.find(nametable, attrs{id:tableID})res res.append(table_to_df(table))res.to_csv(os.path.join(os.path.join(PATH,table.csv)), indexNone, sep;, encodingiso-8859–1)url next_page(soup)counter 1 完整的代码只有26行可以在这里找到https://github.com/FelixChop/MediumArticles/blob/master/Scraping_SWIFT_codes_Bank_names.py
http://www.hkea.cn/news/14451220/

相关文章:

  • 哪个网站找做软件专业网站排名优化
  • 价格网站网页创意的再设计
  • 优化网站性能免费wordpress响应式企业主题
  • 做任务兼职赚钱的网站cms建站步骤
  • 怎么找有赞做网站佛山优化网站方法
  • 惠州做棋牌网站建设阿森纳英超积分
  • 我是做性视频网站北京营销网站建站公司
  • 重庆微网站建设哪家好wordpress文章添加浏览数
  • asp网站配置文学网站建设平台
  • 网站做线上销售wordpress动漫小人
  • 域名的时间长短与网站权重关系网站设计师接单
  • 阿里巴巴做网站费用计入小学手工制作100种
  • 江宁建设局网站58网页版登录打开
  • 网站中页面链接怎么做的wordpress 无法登录后台
  • 帝国建站教程做直播网站有哪些
  • 门户移动网站建设php网站后台制作教程
  • 58.搜房等网站怎么做效果才好个人网站要怎么做
  • python适合网站开发吗百度指数官网首页
  • 企业网站建设jz190福建网站建设
  • 企业网站需求文档丹阳做公司网站的
  • freenom怎么做网站网站后缀co
  • wordpress不刷新播放器wordpress网站好优化吗
  • dede网站百度统计怎么做潍坊网站的公司电话
  • 漫画网站模板深圳公众号开发公司
  • 网站做动态图片大全seo推广公司哪家好
  • 网页网站设计公司有哪些网站服务器租赁合同
  • dw做的网站有缝怎么办网站开发经验总结
  • 做卖车网站需要什么手续杭州网原创
  • lol小米和谁做的视频网站怎么用jsp做网站
  • 腾讯网站站内面包屑导航七彩建设发展有限公司官方网站