当前位置: 首页 > news >正文

北京网站制作培训学校选择郑州网站建设

北京网站制作培训学校,选择郑州网站建设,美容 网站源码,重庆网站推广报价图解 Hadoop 生态系统及其组件 1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark 在了解 Hadoop 生态系统及其组件之前#xff0c;我们首先了解一下 Hadoop 的三大组件#xff0c;即 HDFS、MapReduce、YARN#xff0… 图解 Hadoop 生态系统及其组件 1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark 在了解 Hadoop 生态系统及其组件之前我们首先了解一下 Hadoop 的三大组件即 HDFS、MapReduce、YARN它们共同构成了 Hadoop 分布式计算框架的 核心。 HDFSHadoop Distributed File SystemHDFS 是 Hadoop 的 分布式文件系统它是将大规模数据分散存储在多个节点上的基础。HDFS 主要负责数据的存储和管理可以将大数据集分成多个数据块并将这些数据块分配到不同的计算节点上存储提高数据的可靠性和处理效率。 MapReduceMapReduce 是 Hadoop 的 分布式计算框架它提供了一种简单的编程模型通过将大规模数据分解成多个小任务并行处理可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段其中 Map 阶段将数据分解成多个小块进行处理Reduce 阶段将处理结果合并。 YARNYet Another Resource NegotiatorYARN 是 Hadoop 的 资源管理器它负责为多个应用程序分配和管理计算资源可以有效地提高计算资源的利用率。YARN 可以将集群中的计算资源划分为多个容器为不同的应用程序提供适当的资源并监控和管理各个应用程序的运行状态。 1.HDFS HDFS 是 Hadoop 的分布式文件系统旨在在廉价硬件上存储大型文件。它具有高度容错能力并为应用程序提供高吞吐量。 HDFS 最适合那些拥有非常大数据集的应用程序。 Hadoop HDFS 文件系统提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程从节点运行 Datanode 守护进程。 2.MapReduce MapReduce 是 Hadoop 的数据处理层它将任务分成小块并将这些小块分配给通过网络连接的许多机器并将所有事件组装成最后的事件数据集。 MapReduce 所需的基本细节是键值对。所有数据无论是否结构化在通过 MapReduce 模型传递之前都需要转换为键值对。在 MapReduce 框架中处理单元被移至数据而不是将数据移至处理单元。 3.YARN YARN 代表 Yet Another Resource Negotiator它是 Hadoop 集群的资源管理器。 YARN 用于实现 Hadoop 集群中的资源管理和作业调度。 YARN 的主要思想是将作业调度和资源管理拆分到各个进程中进行操作。 YARN 提供了两个守护进程第一个称为资源管理器Resource Manager第二个称为节点管理器Node Manager。这两个组件都用于处理 YARN 中的数据计算。资源管理器运行在 Hadoop 集群的主节点上并协商所有应用程序中的资源而节点管理器托管在所有从节点上。节点管理器的职责是监视容器、资源使用情况例如 CPU、内存、磁盘和网络并向资源管理器提供详细信息。 4.Hive Hive 是 Hadoop 的 数据仓库 项目。 Hive 旨在促进非正式数据汇总、即席查询和大量数据的解释。借助 HiveQL用户可以对 HDFS 中的数据集存储执行即席查询并使用该数据进行进一步分析。 Hive还支持自定义的用户定义函数用户可以使用这些函数来执行自定义分析。 让我们了解 Apache Hive 如何处理 SQL 查询 用户将使用命令行或 Web UI 向驱动程序例如 ODBC / JDBC提交查询。驱动程序将借助查询编译器来解析查询以检查语法 / 查询计划。编译器将向元数据数据库发送元数据请求。作为响应Metastore 将向编译器提供元数据。现在编译器的任务是验证规范并将计划重新发送给驱动程序。现在驱动程序将向执行引擎发送执行计划。该程序将作为映射缩减作业执行。执行引擎将作业发送到名称节点作业跟踪器并为该作业分配一个存在于数据节点中的任务跟踪器并在此处执行查询。查询执行后执行引擎将从数据节点接收结果。执行引擎将结果值发送给驱动程序。驱动程序会将结果发送到 Hive 接口用户。 5.Pig Pig 由 Yahoo 开发用于分析存储在 Hadoop HDFS 中的大数据。 Pig 提供了一个分析海量数据集的平台该平台由用于通信数据分析应用程序的高级语言组成并与用于评估这些程序的基础设施相链接。 Pig 具有以下关键属性 优化机会Pig 提供了查询优化帮助用户专注于意义而不是效率。可扩展性Pig 提供了创建用户定义函数以进行特殊用途处理的功能。 6.Mahout Mahout 是一个用于 创建机器学习应用程序的框架。它提供了一组丰富的组件您可以通过选择的算法构建定制的推荐系统。 Mahout 的开发目的是提供执行、可扩展性和合规性。 以下是定义这些关键抽象的 Mahout 接口的重要包 DataModelUserSimilarityItemSimilarityUserNeighborhood 7.HBase HBase 是继 Google Bigtable 之后创建的分布式、开源、版本化、非关系型数据库。它是 Hadoop 生态系统的重要组件利用 HDFS 的容错功能提供对数据的实时读写访问。 HBase 尽管是数据库但也可以称为数据存储系统因为它不提供触发器、查询语言和二级索引等 RDBMS 功能。 HBase 具有以下功能 它提供持续的模块化可扩展性。它提供定期的读取和写入。直观且可配置的表分片。RegionServer 之间的自动故障转移支持。它提供中央基类用于支持带有 Apache HBase 表的 Hadoop MapReduce 作业。使用 Java API 进行客户端访问很简单。查询谓词通过服务器端过滤器下推。它提供了 Thrift 网关和 REST-ful Web 服务支持 XML、Protobuf 和二进制数据编码选择。 8.Zookeeper Zookeeper 充当 Hadoop 不同服务之间的协调者用于维护配置信息、命名、提供分布式同步、提供群组服务。 Zookeeper 用于修复这些新部署在分布式环境中的应用程序的错误和竞争条件。 9.Sqoop Sqoop 是一个数据传输工具用于在 Hadoop 和关系数据库之间传输数据。它用于将数据从关系数据库管理系统MySQL 或 Oracle或大型机导入到 HadoopHDFS并在 Hadoop MapReduce 中转换数据。它还用于将数据导出回 RDBMS。 Sqoop 使用 map-reduce 来导入和导出数据因此它具有并行处理和容错特性。 10.Flume Flume 是一种类似于 Sqoop 的日志传输工具但它适用于非结构化数据日志而 Sqoop 用于结构化和非结构化数据。 Flume 是一个可靠、分布式且可用的系统用于高效地收集、聚合大量日志数据并将其从许多不同的源移动到 HDFS。它不仅限于日志数据聚合还可以用于传输大量事件数据。 Flume 具有以下三个组件 SourceChannelSink 11.Oozie Oozie 是一个 工作流调度框架用于调度 Hadoop Map / Reduce 和 Pig 作业。 Apache Oozie 工作流程是 Hadoop Map / Reduce 作业、Pig 作业等操作的集合排列在控制依赖 DAG有向无环图中。从一个动作到另一个动作的 “控制依赖性” 表明除非第一个动作完成否则另一个动作不会开始。 Oozie 工作流有以下两个节点即 控制流节点 和 操作节点。 控制流节点Control Flow Nodes这些节点用于提供控制工作流执行路径的机制。 操作节点Action Node操作节点提供了一种机制工作流通过该机制触发计算 / 处理任务的执行例如 Hadoop MapReduce、HDFS、Pig、SSH、HTTP 作业 。 12.Ambari Ambari 用于配置、管理和监控 Apache Hadoop 集群。 它向系统管理员提供以下任务 Hadoop 集群的配置它提供了一种在任意数量的节点上安装 Hadoop 服务的媒介。它还处理集群的 Hadoop 服务配置。 Hadoop 集群的管理它提供了一个中央控制来管理 Hadoop 服务例如整个集群的启动、停止和重新配置。 Hadoop 集群监控它提供了一个用于监控 Hadoop 集群的仪表板例如节点关闭、剩余磁盘空间不足等。 13.Spark Spark 是一个通用且快速的集群计算系统。它是一个非常强大的大数据工具。 Spark 提供了 Python、Scala、Java、R 等多种语言的丰富 API。 Spark 支持 Spark SQL、GraphX、MLlib、Spark Streaming、R 等高级工具。这些工具用于执行不同类型的操作我们将在 Spark 部分中看到。
http://www.hkea.cn/news/14546049/

相关文章:

  • 电子商务网站建设收益举例小程序免费制作平台小程序
  • 重庆网站制作设计公司做微信的网站叫什么
  • 2017自己做网站的趋势中山微网站建设报价
  • 为什么多个网站域名有同个网站备案想学网站建设
  • 建设工程网站单位名单小程序制作后维护成本
  • 如何快速做网站公司网站可以个人备案吗
  • 无锡新区规划建设环保局网站江苏省常州建设高等职业技术学校网站
  • 欧美网站建设html5网页制作成品
  • 中国购物网站大全排名网站开发流程详细介绍
  • ppt免费模板大全网站免费wordpress中文博客主题
  • 企业网站源码 asp标题设计网站
  • 有没有专门做老年婚介的网站某些网站网速慢
  • 网站规划中的三种常用类型系统优化加速工具
  • 家具网站开发京东页面网页设计与制作实训报告
  • 教师做网站赚钱电话销售怎么做 网站
  • 临汾市网站建设整站优化价格
  • win10 网站建设软件想给孩子找点题做 都有什么网站
  • 免费自助站制作在线电商网站开发 上海
  • 网站建设中幻灯片如何加链接组合wordpress源码
  • 湛江有哪些网站建设公司南京seo招聘
  • 做js题目的网站知乎哪个网站教做西餐
  • 微信官方网站首页域名购买哪个网站好
  • 为什么手机进网站乱码做汽配的网站
  • 怎么通过网站打广告商务网站信息审核的重要性在于
  • 地铁建设单位网站wordpress安装后要删除哪些文件夹
  • 网站建设的企业搭建网站的步骤有哪些
  • app和微网站的对比分析网站视频下载
  • 免费北京企业名录sem和seo有什么区别
  • 手机代理企业网站常州网络科技推广公司
  • 一个网站怎么推广制作视频的软件叫什么