当前位置：首页 > news >正文

网站设计深圳市苏州公司网站开发

news 2026/4/15 16:09:30

网站设计深圳市,苏州公司网站开发,app用户量排名,阿里巴巴网站建设文章目录前言大数据技术成为前沿专业也是现在甚至未来的朝阳产业#xff0c;大数据有分别是数据预处理数据存储大数据处理和分析数据可视化部分组成 #xff0c;大数据行业有数据则称王#xff0c;大数据的核心是数据本身怎么获取有价值的数据呢#xff1f;本章讲… 文章目录前言大数据技术成为前沿专业也是现在甚至未来的朝阳产业大数据有分别是数据预处理数据存储大数据处理和分析数据可视化部分组成大数据行业有数据则称王大数据的核心是数据本身怎么获取有价值的数据呢本章讲具体讲解大数据预处理技术和获取手段和平台。一、公开数据库 1.常见数据公开网站 UCI经典的机器学习数据挖掘UCI数据集是一个常用的机器学习标准测试数据集是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库。机器学习算法的测试大多采用的便是UCI数据集了其重要之处在于“标准”二字新编的机器学习程序可以采用UCI数据集进行测试。 UCI Machine Learning Repository 相关实验案例参考文章。 http://t.csdnimg.cn/CVFIs 国家数据数据来源于国家统计局包含我国经济民生等多个方面的数据并且在月度季度年度都有覆盖全面又权威。http://t.csdnimg.cn/wc7bC CEIC最完整的一套超过128个国家的经济数据能够精准查找GDPCPI,进口出口进口外资直接投资零售销售等深度数据。万得金融业有着全面的数据覆盖金融数据的类目更新非常快商业分析者和投资者的青睐。搜数网汇集中国资讯行业收集的所有统计和调查数据并提供多样化的搜索功能。中国统计信息网国家统计局的官方网站汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。亚马逊跨科学云数据平台多个领域的数据集。 figshare研究成果共享平台在这里可以找到来自世界得大牛们研究成果分享获取其中的研究数据。 github: 一个全面得数据获取渠道包含各个细分领域得数据库资源自然科学和社会科学得覆盖都很全面适合做研究和数据分析的人员。 2.政府开放数据北京市政务数据资源网包含竞技交通医疗天气等数据。深圳市政府数据开放平台交通文娱就业基础设施等数据。上海市政务数据服务网覆盖经济建设文化科技信用服务交通出行等12个领域数据。贵州省政府数据开放平台包含了政府及国有企业数据。 Data.gov美国政府开放数据包含气候教育能源金融等各领域数据。 3.数据竞赛网站竞赛的数据集通常干净且可研究性非常高。 DataCastle专业的数据科学竞赛平台。 Kaggle全球最大的数据竞赛平台。天池阿里旗下数据科学竞赛平台。 DatafountainCCF指定的大数据竞赛平台。二、网络爬虫 1.网络爬虫原理网络爬虫的价值其实就是数据的价值在互联网社会中数据是无价之宝一切皆为数据谁拥有了大量有用的数据谁就拥有了决策的主动权认识爬虫我们所熟悉的一系列搜索引擎都是大型的网络爬虫比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的爬虫程序比如 360 浏览器的爬虫称作 360Spider搜狗的爬虫叫做 Sogouspider。百度搜索引擎其实可以更形象地称之为百度蜘蛛Baiduspider它每天会在海量的互联网信息中爬取优质的信息并进行收录。当用户通过百度检索关键词时百度首先会对用户输入的关键词进行分析然后从收录的网页中找出相关的网页并按照排名规则对网页进行排序最后将排序后的结果呈现给用户。在这个过程中百度蜘蛛起到了非常想关键的作用。百度的工程师们为“百度蜘蛛”编写了相应的爬虫算法通过应用这些算法使得“百度蜘蛛”可以实现相应搜索策略比如筛除重复网页、筛选优质网页等等。应用不同的算法爬虫的运行效率以及爬取结果都会有所差异。 1.0 爬虫定义简单来讲爬虫就是一个探测机器它的基本操作就是模拟人的行为去各个网站溜达点点按钮查查数据或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 1.1 爬虫薪资 1.2 爬虫前景每个职业都是有一个横向和纵向的发展也就是所谓的广度和深度的意思。第一、如果专研得够深你的爬虫功能很强大性能很高扩展性很好等等那么还是很有前途的。第二、爬虫作为数据的来源后面还有很多方向可以发展比如可以往大数据分析、数据展示、机器学习等方面发展前途不可限量现在作为大数据时代你占据在数据的的入口还怕找不到发展方向吗 1.3 爬虫创业 1.1.1 获取网页爬虫首先要做的工作就是获取网页这里就是获取网页的源代码。源代码里包含了网页的部分有用信息所以只要把源代码获取下来就可以从中提取想要的信息了。使用socket下载一个页面 #!/usr/bin/python # -*- coding: UTF-8 -*-author:chenshifeng file:00.py time:2022/10/14 import socket# 不需要安装# 访问网站 url www.baidu.com # 端口 port 80def blocking():sock socket.socket() # 建立对象sock.connect((url, port)) # 连接网站发出一个HTTP请求request_url GET / HTTP/1.0\r\nHost: www.baidu.com\r\n\r\nsock.send(request_url.encode()) # 根据请求头来发送请求信息response b # 建立一个二进制对象用来存储我们得到的数据chunk sock.recv(1024) # 每次获得的数据不超过1024字节while chunk: # 循环接收数据因为一次接收不完整response chunkchunk sock.recv(1024)header, html response.split(b\r\n\r\n, 1)f open(index.html, wb)f.write(html)f.close()if __name__ __main__:blocking()1.1.2 提取信息获取网页源代码后接下来就是分析网页源代码从中提取我们想要的数据。首先最通用的方法便是采用正则表达式提取这是一个万能的方法但是在构造正则表达式时比较复杂且容易出错。另外由于网页的结构有一定的规则所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库如 Beautiful Soup、pyquery、lxml 等。使用这些库我们可以高效快速地从中提取网页信息如节点的属性、文本值等。提取信息是爬虫非常重要的部分它可以使杂乱的数据变得条理清晰以便我们后续处理和分析数据。 1.1.3 保存数据提取信息后我们一般会将提取到的数据保存到某处以便后续使用。这里保存形式有多种多样如可以简单保存为 TXT 文本或 JSON 文本也可以保存到数据库如 MySQL 和 MongoDB 等也可保存至远程服务器如借助 SFTP 进行操作等。 1.1.4 自动化程序说到自动化程序意思是说爬虫可以代替人来完成这些操作。首先我们手工当然可以提取这些信息但是当量特别大或者想快速获取大量数据的话肯定还是要借助程序。爬虫就是代替我们来完成这份爬取工作的自动化程序它可以在抓取过程中进行各种异常处理、错误重试等操作确保爬取持续高效地运行 1、爬虫技术概述网络爬虫(Web crawler)是一种按照一定的规则自动地抓取万维网信息的程序或者脚本它们被广泛用于互联网搜索引擎或其他类似网站可以自动采集所有其能够访问到的页面内容以获取或更新这些网站的内容和检索方式。从功能上来讲爬虫一般分为数据采集处理储存三个部分。传统爬虫从一个或若干初始网页的URL开始获得初始网页上的URL在抓取网页的过程中不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂需要根据一定的网页分析算法过滤与主题无关的链接保留有用的链接并将其放入等待抓取的URL队列。然后它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL并重复上述过程直到达到系统的某一条件时停止。另外所有被爬虫抓取的网页将会被系统存贮进行一定的分析、过滤并建立索引以便之后的查询和检索对于聚焦爬虫来说这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。相对于通用网络爬虫聚焦爬虫还需要解决三个主要问题 1) 对抓取目标的描述或定义 (2) 对网页或数据的分析与过滤 (3) 对URL的搜索策略。网络爬虫到底是什么学这个真的是“从入门到入狱”吗_哔哩哔哩_bilibili 三、HTTP请求Request超文本传输协议 HTTP 协议的重要特点一发一收一问一答 1.什么是URL URL 基本介绍平时我们俗称的”网址“其实就是 URLUniform Resource Locator翻译为统一资源定位符互连网上的每个文件都有一个唯一的 URL它包含的信息指出文件的位置以及浏览器应该怎么处理它一个URL由如下几个部分构成协议: 通常是https或者http。表示通过何种方式获取该资源。你可能还见过其他协议类型比如ftp或者file协议后面跟着://主机名: 可以是一个已经在DNS服务器注册过的域名 —— 或者是一个IP地址 —— 域名就表示背后的IP地址。一组主要由数字组成的用于标识接入网络的设备的字符串。主机名后面可以指定端口端口是可选的如果不指定则使用默认端口端口和主机名之间通过冒号隔开。资源路径: 用于表示资源在主机上的文件系统路径。可以在这之后通过问号连接可选的查询参数如果有多个查询参数通过符连接最后一项如果需要的话可以添加#作为需要跳转的页面上的矛点名称。一个URL的组成部分可以参考下面的图示 2、爬虫的开发流程爬虫的执行流程: 确定首页URL 发送请求, 获取数据解析数据保存数据首先在互联网中选出一部分网页以这些网页的链接地址作为种子URL将这些种子URL放入待抓取的URL队列中爬虫从待抓取的URL队列依次读取将URL通过DNS解析把链接地址转换为网站服务器对应的IP地址网页下载器通过网站服务器对网页进行下载下载的网页为网页文档形式对网页文档中的URL进行抽取并过滤掉已经抓取的URL对未进行抓取的URL继续循环抓取直至待抓取URL队列为空。 3.爬虫分类 1.通用网络爬虫通用网络爬虫又叫全网爬虫主要由URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等模块构成。主要为大型搜索引擎大型服务商等采集数据。通俗来说就是抓取互联网上的所有数据。由于通用网络爬虫的爬行范围和爬取数据量十分巨大对于爬取速度和存储空间要求较高所以通常采用并行工作方式。 2.聚焦网络爬虫聚焦网络爬虫又叫主题网络爬虫爬取指定网页信息的一种爬虫。由于目的性更加明确范围更加小所以爬取速度快大幅节约硬件和网络资源。 3.增量式网络爬虫所谓增量式就是增量式更新。意思是在需要的时候只爬取网页更新的部分没有发生变化的部分不进行重复爬取。这样可以有效地减少数据下载量加快运行速度减小时间空间上的耗费但是算法上的难度会相应增加。 4.深层网络爬虫深层网络爬虫又称Deep Web爬虫。Web页面按照存在方式分为表层网页Surface Web和深层网页Deep Web表层网页是直接通过静态链接可直接访问的静态页面。深层网页则是隐藏在搜索表单后面的页面。深层网络爬虫主要由六个基本功能模块**爬行控制器、解析器、表单分析器、表单处理器、响应分析器、响应分析器、LVS控制器**和两个爬虫内部数据结构URL列表、LVS表等部分构成。LVS表示标签/数值集合用来表示填充表单的数据源。 4.反爬虫技术 4.1 通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测还有一部分网站会对Referer进行检测一些资源网站的防盗链就是检测Referer。如果遇到了这类反爬虫机制可以直接在爬虫中添加Headers将浏览器的User-Agent复制到爬虫的Headers中或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫在爬虫中修改或者添加Headers就能很好的绕过。 [评论往往容易被忽略通过对请求的抓包分析确定referer在程序中模拟访问请求头中添加] 4.2 基于用户行为反爬虫还有一部分网站是通过检测用户行为例如同一IP短时间内多次访问同一页面或者同一账户短时间内多次进行相同操作。 [评论这种防爬需要有足够多的ip来应对] 大多数网站都是前一种情况对于这种情况使用IP代理就可以解决。可以专门写一个爬虫爬取网上公开的代理ip检测后全部保存起来。这样的代理ip爬虫经常会用到最好自己准备一个。有了大量代理ip后可以每请求几次更换一个ip这在requests或者urllib2中很容易做到这样就能很容易的绕过第一种反爬虫。 [评论动态拨号也是一种解决方案] 对于第二种情况可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站可以通过请求几次退出登录重新登录继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。 [评论对于账户做防爬限制一般难以应对随机几秒请求也往往可能被封如果能有多个账户切换使用效果更佳] 4.3动态页面的反爬虫上述的几种情况大多都是出现在静态页面还有一部分网站我们需要爬取的数据是通过ajax请求得到或者通过Java生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求也能分析出具体的参数和响应的具体含义我们就能采用上面的方法直接利用requests或者urllib2模拟ajax请求对响应的json进行分析得到需要的数据。 [评论感觉google的、IE的网络请求分析使用也挺好] 四.数据交易平台 1.政府类贵阳大数据交易所贵阳大数据交易所西咸新区大数据交易所东湖大数据交易平台华东江苏大数据交易平台哈尔滨数据交易中心上海数据交易中心 2.平台类京东万象聚合数据数据宝百度智能云五 .数据预处理技术 1、数据预处理的必要性数据预处理技术是数据分析以及数据挖掘过程中非常重要的一环。数据预处理是指在对数据进行数据挖掘的主要处理以前先对原始数据进行必要的清洗、集成、转换、离散、归约、特征选择和提取等一系列处理工作达到挖掘算法进行知识获取要求的最低规范和标准。 2.为什么要对数据进行预处理呢? 对于数据分析而言数据是显而易见的核心。但是并不是所有的数据都是有用的。大多数数据参差不齐层次概念不清晰数量级不同。这会给后期的数据分析带来很大的麻烦。数据挖掘的对象是从现实现实世界采集到的大量的、各种各样大数据。现实生产和实际生活以及科学研究的多样性、不确定性、复杂性等导致采集到的原始数据比较散乱它们是不符合挖掘算法进行知识获取的规范和标准的。所以这时我们必须把数据进行处理从而得到标准规范的数据。进而进行分析。现实生活中的数据经常是“肮脏的”。也就是数据会有由于各种原因存在各种问题。尤其是如今的大数据因为“大”所以什么问题都有可能出现。那么我们的数据会出现什么问题呢 1数据不完整性不完整性指的是数据记录中可能会出现有一些数据属性的值丢失或不确定的情况还有可能缺失必需的数据。这是系统设计时存在的缺陷或者使用过程中一些人为因素造成的如有些数据缺失只是因为输入时被认为时不重要的相关数据没有记录可能是由于理解错误或者因为设备故障与其他记录不一致的数据可能已经被删除历史记录或修改的数据可能被忽略等。 2不确定的数据有很多可能的原因含噪声含噪声指的是数据具有不正确的属性值包含错误或者存在偏离期望的离群值指与其他数值比较差异较大的值。它们产生的原因有很多如手机数据的设备可能出现故障人或者计算机可能在数据输入时出现错误数据传输中可能出现了错误等。不正确的数据也可能是由命名约定或所用的数据代码不一致导致的。在实际使用系统中还可能存在大量的模糊信息有些数据甚至具有一定的随机性。 3数据不一致性原始数据是从各个实际应用系统中获取的由于各应用系统的数据缺乏统一的标准的定义数据结构也有较大的差异因此各系统之间的数据存在较大的不一致性往往不能直接使用。同时来自不同应用系统中的数据由于合并还普遍存在数据重复和信息冗余现象。 4时效性也可能影响数据质量数据的实时更新没有完全的统计。因此这里说存在不完整的、含噪声的和不一致的数据是现实世界大型的数据库或数据仓库的共同特点。一些比较成熟的算法对其处理的数据集合一般有一定的要求如数据完整性好、数据的冗余性小、属性之间的相关性小。然而实际系统中的数据一般无法直接满足数据挖掘算法的要求因此必须对数据进行预处理以提高数据质量使之符合数据挖掘算法的规范和要求。协议转载请附上原文出处链接及本声明。 3、数据预处理的主要任务数据预处理是指对数据进行数据挖掘之前先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工作已达到挖掘算法进行知识获取研究所要求的最低规范和标准。在大数据处理过程中数据预处理将占用60%~80%的时间。从对不同的源数据进行预处理的功能来分数据预处理主要包括数据清洗Data Cleaning、数据集成Data Integration、数据变换Data Transformation、数据规约Data Reduction。等四个功能六.数据清洗 1.缺失值填充删除含有缺失值样本人工填写缺失值使用一个全局常量填充缺失值使用属性的均值填充缺失值使用与给定元组同一类的所有样本的属性均值填充相应的缺失值使用最可能的值填充缺失值方法3~6填充的值都有可能不正确。方法6是最常用的和最可靠的填充缺失值的方法使用已有数据的大部分信息来预测缺失值。 2.噪声平滑噪声是指被测变量的一个随机错误和变化。平滑处理旨在帮助去掉数据中的噪声常用的方法包括分箱、回归和聚类等 1.分箱分箱Bin方法通过利用被平滑数据点的周围点近邻对一组排序数据进行平滑排序后的数据被分配到若干箱子称为 Bin中。如图5所示对箱子的划分方法一般有两种一种是等高方法即每个箱子中元素的个数相等另一种是等宽方法即每个箱子的取值间距左右边界之差相同。这里给出一个实例介绍分箱方法。假设有一个数据集X{4,8,15,21,21,24,25,28,34}这里采用基于平均值的等高分箱方法对其进行平滑处理则分箱处理的步骤如下按平均值分箱 1把原始数据集X放入以下三个箱子箱子14,8,15 箱子221,21,24 箱子325,28,34 2分别计算得到每个箱子的平均值箱子1的平均值9 箱子2的平均值22 箱子3的平均值29 3用每个箱子的平均值替换该箱子内的所有元素箱子19,9,9 箱子222,22,22 箱子329,29,29 4合并各个箱子中的元素得到新的数据集{9,9,9,22,22,22,29,29,29}。按最大最小值边界值)分箱此外还可以采用基于箱子边界的等宽分箱方法对数据进行平滑处理。利用边界进行平滑时对于给定的箱子其最大值与最小值就构成了该箱子的边界利用每个箱子的边界值最大值或最小值可替换该箱子中的所有值。这时的分箱结果如下箱子14,4,15 箱子221,21,24 箱子325,25,34 合并各个箱子中的元素得到新的数据集{4,4,15,21,21,24,25,25,34}。 2.回归可以利用拟合函数对数据进行平滑。例如借助线性回归方法包括多变量回归方法就可以获得多个变量之间的拟合关系从而达到利用一个或一组变量值来预测另一个变量取值的目的。如图所示利用回归分析方法所获得的拟合函数能够帮助平滑数据并除去其中的噪声。 3.聚类通过聚类分析方法可帮助发现异常数据。如图所示相似或相邻近的数据聚合在一起形成了各个聚类集合而那些位于这些聚类集合之外的数据对象则被认为是异常数据全局离群点个别数据离整体数据数据较远。集体离群点一组数据与其他数据分布方式不同。情景离群点又称”条件离群点“即在特定条件下可能又是合理的点。比如夏天的28℃和冬天的28℃ 3.不一致的数据清洗在实际数据库中由于一些人为因素或者其他原因记录的数据可能存在不一致的情况因此需要对这些不一致数据在分析前需要进行清理。例如数据输入时的错误可通过和原始记录对比进行更正。知识工程工具也可以用来检测违反规则的数据。还例如在已知属性间依赖关系的情况下可以查找违反函数依赖的值。七.数据集成和数据转换数据集成数据集成需要考虑许多问题如实体识别问题主要是匹配来自多个不同信息源的现实世界实体。冗余是另一个重要问题。如果一个属性能由另一个或另一组属性“导出”则此属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可通过相关分析检测到如给定两个属性根据可用的数据度量一个属性能在多大程度上蕴含另一个。常用的冗余相关分析方法有皮尔逊积距系数、卡方检验、数值属性的协方差等。八.数据规约数据立方体聚集聚集操作用于数据立方体结构中的数据。数据立方体存储多维聚集信息。每个单元存放一个聚集值对应于多维空间的一个数点每个属性可能存在概念分层允许在多个抽象层进行数据分析。属性子集选择当待分析数据集含有大量属性时其中大部分属性与挖掘任务不相关或冗余属性子集选择可以检测并删除不相关、冗余或弱相关的属性或维。其目标是找出最小属性集使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。维规约维度规约使用数据编码或变换得到原数据规约或“压缩”表示。减少所考虑的随机变量或属性个数。数值规约数值规约通过选择替代的数据表示形式来减少数据量。即用较小的数据表示替换或估计数据。九.数据脱敏敏感数据又称隐私数据常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。脱敏规则一般的脱敏规则分类为可恢复与不可恢复两类。使用环境主要指脱敏之后的数据在哪些环境中使用。普遍按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分。总结

查看全文

http://www.hkea.cn/news/14256906/