当前位置: 首页 > news >正文

深圳网站开发网站网站备案 图标

深圳网站开发网站,网站备案 图标,代做网页设计作业价格,wordpress主题 手机主题目录 一、大数据概论 1.大数据的概念 2.大数据的特点 3.大数据应用场景 二、Hadoop概述 1.Hadoop定义 2.Hadoop发展历史 3.Hadoop发行版本 4.Hadoop优势 5.Hadoop1.x/2.x/3.x 6.HDFS架构 7.Yarn架构 8.MapReduce架构 9.大数据技术生态体系 一、大数据概论 1.大数…目录 一、大数据概论 1.大数据的概念 2.大数据的特点 3.大数据应用场景 二、Hadoop概述 1.Hadoop定义 2.Hadoop发展历史 3.Hadoop发行版本 4.Hadoop优势 5.Hadoop1.x/2.x/3.x 6.HDFS架构 7.Yarn架构 8.MapReduce架构 9.大数据技术生态体系 一、大数据概论 1.大数据的概念 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决海量数据的采集、存储和分析计算问题。 顺序存储单位bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byte8bit1KB1024Byte1MB1024KB...... 2.大数据的特点 ①Volume大量典型个人计算机硬盘容量为TB量级一些大型企业可以达到EB量级。 ②Velocity高速根据IDC的数字宇宙报告预计2025年全球数据使用量可以达到163ZB。 ③Variety多样数据可以分为结构化数据和非结构化数据。结构化数据主要以便于存储的数据库/文本为主非结构化数据包含了网络日志、音频、视频、图片、地理位置信息等多类型数据对于数据的处理能力具有更高要求。 ④Value低价值密度价值密度的高低与数据总量大小成反比。快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。 3.大数据应用场景 抖音、电商广告推荐、零售策略、保险海量数据挖掘及风险预测...、金融多维体现用户推荐、人工智能5G物联网方面等。 二、Hadoop概述 1.Hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题。 广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2.Hadoop发展历史 ①Hadoop创始人Doug Cutting为实现Google类似的全文搜索功能在Lucene框架基础上进行优化升级查询引擎和索引引擎。 ②2001年底Lucene成为Apache基金会的一个子项目。 ③对于海量数据的场景Lucene框架面对与Google同样的困难存储海量数据困难检索海量速度慢。 ④学习和模仿Google解决这些问题的办法微型版Nutch。 ⑤Google是Hadoop的思想源泉 ⑥2003-2004年Google公开GFs和MapReduce思想细节Doug Cutting等人使用两年时间实现使Nutch性能飙升。 ⑦Hadoop作为Lucene子项目Nutch一部分正式引入Apache。 ⑧2006年Map-Reduce和Nutch Distributed FileSystem纳入Hadoop项目Hadoop正式诞生。 3.Hadoop发行版本 Apache2006、Cloudera2008、Hortonworks2011。 4.Hadoop优势 ①高可靠性Hadoop底层维护多个数据副本即使Hadoop某个计算元素或存储出现故障也不会导致数据丢失。 ②高扩展性在集群间分配任务数据可方便的扩展数以千计的结点。可动态增加和删除服务器。 ③高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。可以实现集群工作。 ④高容错性能够自动将失败的任务重新分配。就是在执行过程中如果遇到任务无法执行将会把这个失败的任务重新分配到其他服务器这个被分配的服务器需要具有相关资源。 5.Hadoop1.x/2.x/3.x ①Hadoop1.x组成 MapReduce计算资源调度 HDFS数据存储 Common辅助工具 ②Hadoop2.x组成 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具 ③Hadoop3.x组成组成上和2.x相同但是细节方面存在差异。 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具 6.HDFS架构 Hadoop Distributed File System简称HDFS是一个分布式文件系统。 ①NameNodenn存储文件的元数据如文件名、文件目录、文件属性生成时间、副本数、文件权限以及每个文件的块列表和块所在的DataNode等。 ②DataNodedn在本地文件系统存储文件块数据以及块数据的校验和。 ③Secondary NameNode2nn每隔一段时间对NameNode元数据备份。 7.Yarn架构 Yet Anothor Resource Negotiator简称YARN是一种资源协调者是Hadoop的资源管理器。 ①ResourceManagerm整个集群资源内存、CPU等的总负责。 ②NodeManagernm单个节点服务器资源总和。 ③ApplicationMasteram单个任务运行的总和。 ④Container容器相当于一台独立服务器里面封装了任务运行所需要的资源比如内存、CPU、磁盘、网络等。一个Container可以运行1-8g内存。 Tips客户端可以有多个集群上可以运行多个ApplicationMaster每个NodeManager可以有多个Container执行。 过程client提交作业给ResourceManagerResourceManager进行节点服务器分配在ResourceManager中创建Container在Container里面运行任务。 8.MapReduce架构 MapReduce将计算过程分为两个阶段Map和Reduce。 Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总。 9.大数据技术生态体系 数据库结构化数据→Sqoop数据传递→HDFS文件传输→Yarn资源管理... 文件日志半结构化数据→Flume日志收集→HDFS文件传输→HBase非关系型数据库→Yarn资源管理... 视频、PPT等非结构数据→Kafka消息队列...
http://www.hkea.cn/news/14330519/

相关文章:

  • php网站开发实践免费空间访客
  • 个人可以做淘宝客网站吗黑龙江网站建设巨耀网络
  • 深圳营销网站建设策划50强网站开发语言
  • 三河网站建设小红书推广运营方案
  • 郑州建设工程协会网站黑龙江省住房和建设厅网站首页
  • 张家港个人网站制作wordpress 去广告插件
  • 广告网站留电话不用验证码wordpress主题 瀑布流
  • 网站内的搜索怎么做wordpress 文章所属分类
  • 网站简介如何做的有创意Linux网站开发设计
  • 东莞整站优化杭州哪里可以做网站推广
  • 房产销售网站设计wordpress非插件幻灯
  • 深圳四站合一网站建设站长源码
  • 查询网站流量的网址综述题建设网站需要几个步骤
  • 让别人做网站多久开始注册域名网上哪个网站做的系统好用
  • 网站新闻标题标题怎样进行优化如何做国外外贸网站
  • 柏乡县建设局网站无需下载直接进入的网站的代码
  • 全国网站联盟搭建源码下载站网站
  • 恩施建设网站新手如何学seo
  • 潍坊网站建设外贸搭建网站挣钱
  • 淘宝店网站建设荣泰建设集团网站
  • 网站建设与维护的选择题设计团队网站
  • 护肤网站模版阳东区网络问政平台
  • 网站前台建设小购物网站建设
  • 微信网站建设开发免费制作网页的软件有哪些
  • 网站制作代网站 成品下载
  • .net网站开发实训自己做网站开网店
  • 泉州手机网站建设价格芜湖网络营销公司
  • 关于网站建设的案例分析重庆横幅制作
  • 网站制作.有什么网站接效果图做的
  • 建网站用自己的主机做服务器网站建设属于什么岗位