手机网站制作步骤,项目计划书包括哪些内容,seo关键词优化渠道,黄骅贴吧招聘2022年1. Hadoop的主要部分及其作用
HDFS#xff08;Hadoop分布式文件系统#xff09;
HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统#xff0c;负责海量数据的存储。
YARN#xff08;资源管理调度系统#xff09;
YARN是Hadoop的资源管理调度系统…1. Hadoop的主要部分及其作用
HDFSHadoop分布式文件系统
HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统负责海量数据的存储。
YARN资源管理调度系统
YARN是Hadoop的资源管理调度系统负责Hadoop生态系统中任务的调度和监控。
MapReduce分布式并行计算框架
MapReduce是基于HDFS和YARN的分布式并行计算框架负责海量数据的计算。
2. Hadoop生态圈组件及其作用
Hive离线数据仓库
Hive是基于HDFS结合类SQL引擎底层执行MapReduce任务用于OLAP分析查询的数据仓库。它使得不熟悉MapReduce的用户也能通过类SQL语言HQL进行数据查询和分析。
Zookeeper管理员
Zookeeper是一个分布式协调服务为用户的分布式应用程序提供协调服务如主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。
Kafka消息通信中间件
Kafka是一个高吞吐量的分布式发布订阅消息系统主要用于处理实时数据流。
Flume日志传输组件
Flume是一个分布式、可靠、高可用的海量日志收集、聚合、移动的工具通俗来说Flume就是一个日志采集工具。
Spark批处理计算框架
Spark是一个快速、通用的集群计算系统支持批处理和流处理适用于数据挖掘和机器学习等需要迭代的算法。
Flink流处理计算框架
Flink是一个基于内存的分布式并行处理框架主要用于流数据处理但也支持批处理。 3. Hadoop集群工作时启动的进程及其作用
NameNodeNN
NameNode是Hadoop中的主服务器管理文件系统名称空间和对集群中存储的文件访问。
Secondary NameNodeSNN
Secondary NameNode不是NameNode的冗余守护进程而是提供周期性检查点和清理任务帮助NameNode合并editslog减少NameNode的启动时间。
DataNodeDN
DataNode提供真实的文件数据的存储服务以数据块的形式存储HDFS文件并响应HDFS客户端的读写请求。
ResourceManagerRM
ResourceManager负责整个集群资源的管理和调度包括对ApplicationMaster的管理、NodeManager的管理、Application管理等。
NodeManagerNM
NodeManager主要处理来自ResourceManager分配的任务监测并报告Container使用信息给ResourceManager。
JournalNodeJN
JournalNode用于两个NameNode之间的数据同步确保在集群出错时命名空间状态已经完全同步。
4. Hadoop集群计算的主要瓶颈
网络带宽网络带宽不足会导致数据传输速度慢影响集群计算性能。存储性能存储系统的读写能力较低会影响数据的读取和写入速度。处理能力节点的计算能力和数据量都会影响整体计算能力。内存容量内存不足会导致数据无法完全加载到内存中影响性能。数据倾斜数据分布不均匀会导致某些节点的数据负载过重成为集群的瓶颈。
5. Hadoop集群的XML配置文件
core-site.xml配置Hadoop的核心参数如文件系统默认方案、HDFS地址等。hdfs-site.xml配置HDFS的相关参数如副本数量、数据块大小等。mapred-site.xml配置MapReduce相关参数如作业跟踪器地址、任务分配器等。yarn-site.xml配置YARN相关参数如资源管理器地址、节点管理器等。hive-site.xml配置Hive的相关参数如元数据存储位置、数据库连接等。
6. Hadoop的Checkpoint流程 启动 Secondary NameNode Secondary NameNode 启动并定期检查 NameNode 的 EditLog 和 FsImage。 下载元数据 Secondary NameNode 从 NameNode 下载最新的 FsImage 和 EditLog 文件。 合并元数据 Secondary NameNode 将 EditLog 中的变更操作应用到下载的 FsImage 上生成一个新的合并后的 FsImage 文件。 上传新 FsImage Secondary NameNode 将新的 FsImage 文件上传回 NameNode并通知 NameNode 该文件已生成。 更新元数据 NameNode 将新的 FsImage 文件保存为当前的元数据快照并将 EditLog 文件截断或重命名为新的文件开始记录新的变更操作。
补充说明
EditLogedits
NameNode 持续记录文件系统元数据的所有变更操作到 EditLog 文件中。
FsImagefsimage
NameNode 会定期将当前的文件系统元数据快照存储到 FsImage 文件中。
Checkpoint
Secondary NameNode 会周期性地将 EditLog 应用到最新的 FsImage 上并生成一个新的合并后的 FsImage 文件称为 checkpoint。