当前位置: 首页 > news >正文

个人网站建设目的手机查询wordpress分类id

个人网站建设目的,手机查询wordpress分类id,网络设计的约束要素是什么,温州网站建设钱HDFS 大数据学习笔记 一、HDFS产出背景及定义 HDFS产生背景 随着数据量越来越大#xff0c;在一个操作系统存不下所有的数据#xff0c;那么就分配到更多的操作系统管理的磁盘中#xff0c;但是不方便管理和维护#xff0c;迫切需要一种系统来管理多台机器上的文件#x…HDFS 大数据学习笔记 一、HDFS产出背景及定义 HDFS产生背景 随着数据量越来越大在一个操作系统存不下所有的数据那么就分配到更多的操作系统管理的磁盘中但是不方便管理和维护迫切需要一种系统来管理多台机器上的文件这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS定义 HDFS它是一个文件系统用于存储文件通过目录树来定位文件其次它是分布式的由很多服务器联合起来实现其功能集群中的服务器有各自的角色。 HDFS的使用场景适合一次写入多次读出的场景且不支持文件的修改。适合用来做数据分析并不适合用来做网盘应用。 优点 1高容错性 数据自动保存多个副本。它通过增加副本的形式提高容错性。某一个副本丢失以后它可以自动恢复。 2 适合处理大数据 数据规模能够处理数据规模达到GB、TB、甚至PB级别的数据文件规模能够处理百万规模以上的文件数量数量相当之大。 3可构建在廉价机器上通过多副本机制提高可靠性。 缺点 1 不适合低延时数据访问比如毫秒级的存储数据是做不到的。 2无法高效的对大量小文件进行存储。 存储大量小文件的话它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的因为NameNode的内存总是有限的小文件存储的寻址时间会超过读取时间它违反了HDFS的设计目标。 3不支持并发写入、文件随机修改。一个文件只能有一个写不允许多个线程同时写仅支持数据append追加不支持文件的随机修改。 HDFS组成架构 NameNodenn就是Master它是一个主管、管理者。 管理HDFS的名称空间配置副本策略管理数据块block映射信息处理客户端读写请求。 DataNodedn就是Slave。NameNode下达命令DataNode执行实际的操作。 存储实际的数据块执行数据块的读/写操作。 Client就是客户端。 文件切分。文件上传HDFS的时候Client将文件切分成一个一个的Block然后进行上传与NameNode交互获取文件的位置信息与DataNode交互读取或者写入数据Client提供一些命令来管理HDFS比如NameNode格式化Client可以通过一些命令来访问HDFS比如对HDFS增删查改操作。 Secondary NameNode2nn并非NameNode的热备。当NameNode挂掉的时候它并不能马上替换NameNode并提供服务。 辅助NameNode分担其工作量比如定期合并Fsimage和Edits镜像和编辑日志并推送给NameNode在紧急情况下可辅助恢复NameNode只可恢复部分并不是所有。 HDFS文件块大小面试重点 HDFS中的文件在物理上是分块层出Block块的大小可以通过配置参数(dfs.blocksize)来规定默认大小在Hadoop2.x版本中是128M老版本中是64M。 思考为什么块的大小不能设置太小也不能设置太大 1HDFS的块设置太小会增加寻址时间程序一直在找块的开始位置 2如果块设置的太大从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时会非常慢。 总结HDFS块的大小设置主要取决于磁盘传输速率。 二、 HDFS的数据流面试重点 HDFS写数据流程 客户端创建一个分布式文件系统向NameNode请求上传文件指定文件位置NameNode接收到请求响应可以上传文件客户端向NameNode请求上传一个Block128M请返回DataNodeNameNode返回DataNode1、DataNode2、DataNode3结点表示采用这三个节点存储数据。客户端创建FS对象写数据与DataNodes 建立Block传输通道。DataNodes应答成功开始传输数据到DataNode传输数据完成关闭通道 2. NameNode 如何选择DataNode 在HDFS写数据的过程中namenode会选择距离待上传数据最近距离的DataNode接收数据。 节点距离计算 3. HDFS读数据流程 1. 客户端创建FileSystem向NameNode请求下载文件 2. namenode返回目标文件的元数据信息文件位置 3. 客户端创建输入流Stream向DataNode请求读数据block1 4. DataNode像客户端传输数据 5. 请求读取数据block2 6. DataNode将block2的数据返回给客户端三、NameNode 和 SecondaryNameNode面试开发重点 NN和2NN工作机制 NameNode中的元数据存储在哪里 首先我们做个假设如果存储在NameNode节点的磁盘中因为经常需要进行随机访问还有响应客户请求必然是效率过低。因此元数据需要存放在内存中。但如果只存在内存中一旦断电元数据丢失整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题当在内存中的元数据更新时如果同时更新FsImage就会导致效率过低但如果不更新就会发生一致性问题一旦NameNode节点断电就会产生数据丢失。因此引入Edits文件(只进行追加操作效率很高)。每当元数据有更新或者添加元数据时修改内存中的元数据并追加到Edits中。这样一旦NameNode节点断电可以通过FsImage和Edits的合并合成元数据。 但是如果长时间添加数据到Edits中会导致该文件数据过大效率降低而且一旦断电恢复元数据需要的时间过长。因此需要定期进行FsImage和Edits的合并如果这个操作由NameNode节点完成又会效率过低。因此引入一个新的节点SecondaryNamenode专门用于FsImage和Edits的合并。 NameNode 和 SecondaryNameNode工作机制 第一阶段NameNode启动 1第一次启动NameNode格式化后创建Fsimage和Edits文件。如果不是第一次启动直接加载编辑日志和镜像文件到内存。 2客户端对元数据进行增删改的请求。 3NameNode记录操作日志更新滚动日志。 4NameNode在内存中对数据进行增删改。第二阶段Secondary NameNode工作 1Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。 2Secondary NameNode请求执行CheckPoint。 3NameNode滚动正在写的Edits日志。 4将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。 5Secondary NameNode加载编辑日志和镜像文件到内存并合并。 6生成新的镜像文件fsimage.chkpoint。 7拷贝fsimage.chkpoint到NameNode。 8NameNode将fsimage.chkpoint重新命名成fsimage。 NN和2NN工作机制详解 FsimageNameNode内存中元数据序列化后形成的文件。 Edits记录客户端更新元数据信息的每一步操作可通过Edits运算出元数据。 NameNode启动时先滚动Edits并生成一个空的edits.inprogress然后加载Edits和Fsimage到内存中此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求这些请求的操作首先会被记录到edits.inprogress中查询元数据的操作不会被记录在Edits中因为查询操作不会更改元数据信息如果此时NameNode挂掉重启后会从Edits中读取元数据的信息。然后NameNode会在内存中执行元数据的增删改的操作。 由于Edits中记录的操作会越来越多Edits文件会越来越大导致NameNode在启动加载Edits时会很慢所以需要对Edits和Fsimage进行合并所谓合并就是将Edits和Fsimage加载到内存中照着Edits中的操作一步步执行最终形成新的Fsimage。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。 SecondaryNameNode首先会询问NameNode是否需要CheckPoint触发CheckPoint需要满足两个条件中的任意一个定时时间到和Edits中数据写满了默认1小时100w条。直接带回NameNode是否检查结果。SecondaryNameNode执行CheckPoint操作首先会让NameNode滚动Edits并生成一个空的edits.inprogress滚动Edits的目的是给Edits打个标记以后所有新的操作都写入edits.inprogress其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地然后将拷贝的Edits和Fsimage加载到内存中进行合并生成fsimage.chkpoint然后将fsimage.chkpoint拷贝给NameNode重命名为Fsimage后替换掉原来的Fsimage。NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可因为合并过的Edits中的元数据信息已经被记录在Fsimage中。 Fsimage和Edits概念 Fsimage文件HDFS文件系统元数据的一个永久性的检查点其中包含HDFS文件系统的所有目录和问句inode的序列化信息。Edits文件存放hdfs文件系统的所有更新操作的路径文件系统客户端执行的所有写操作首先会被记录到Edits文件中。seen_txid文件保存的是一个数字就是最后一个edits_的数字每次NameNode启动的时候都会将Fsimage文件读入内存加载Edits里面的更新操作保证内存中的元数据信息时最新的、同步的可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。 四、NameNode故障机制 方法一将SecondaryNameNode中数据拷贝到NameNode存储数据的目录 方法二使用importCheckpoint选项启动NameNode守护进程从而将SecondaryNameNode中数据拷贝到NameNode目录中。 五、集群安全模型 NameNode启动 NameNode启动时首先会加载Fsimage文件到内存然后执行Edits编辑日志中存储的操作。在内存创建成功后就要创建一个新的FsImage和Edits文件。这时。NameNode开始监听DataNode请求。在这个过程期间NameNode一直运行在安全模型即NameNode的文件系统对于客户端来说是只读的。DataNode启动 系统中的数据块以块列表的形式存储在DataNode中。在完全模式下各个DataNode会向NameNode发送最新的块列表信息NameNode了解到足够多的块位置信息之后即可高效运行文件系统。安全模式退出判断 如果满足**“最小副本条件”NameNode会在30秒钟之后就退出安全模型**。最小副本条件是指在整个文件系统中99.9%的块满足最小副本级别。在启动一个刚刚格式化的HDFS集群时因为系统中还没有任何块所以namenode就不会进入安全模式。 六、DataNode工作机制 DataNode工作机制 1一个数据块在DataNode上以文件形式存储在磁盘上包括两个文件一个是数据本身一个是元数据包括数据块的长度块数据的校验和以及时间戳。 2DataNode启动后向NameNode注册通过后周期性1小时的向NameNode上报所有的块信息。 3心跳是每3秒一次心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳则认为该节点不可用。 4集群运行中可以安全加入和退出一些机器。 数据完整性 1当DataNode读取Block的时候它会计算CheckSum。 2如果计算后的CheckSum与Block创建时值不一样说明Block已经损坏。 3Client读取其他DataNode上的Block。 4DataNode在其文件创建后周期验证CheckSum校验奇偶校验、crc校验位 七、HDFS2.X新特性 集群间的数据拷贝 distcp命令快照管理相当于对目录做一个备份小文件存档 HDFS存储小文件的弊端 大量的小文件会耗尽NameNode中的大部分内存。但注意存储小文件所需的磁盘容量和数据块的大小无关。 回收站 开启回收站功能可以将删除的文件在不超时的情况下恢复原数据起到防止误删除、备份等作用。在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Emptier这个线程专门管理和监控系统回收站下面的所有文件/目录对于已经超过生命周期的文件/目录这个线程就会自动的删除它们
http://www.hkea.cn/news/14559674/

相关文章:

  • 单页网站开发wordpress怎么修改后台登录地址
  • 网站制作好如何上线数据中台建设方案
  • 个人简介网站怎么做百度销售平台怎样联系
  • 可以免费做网站推广的平台wordpress创建目录失败
  • 南京江宁 网站建设导出wordpress所有链接
  • 网站网络营销推广制作高端网站设计定制公司
  • 个人网站名称江苏省建设主管部门网站
  • 兰州专业网站建设团队石家庄网站制作哪家好
  • 广州网站建设交易正规的企业网站建设
  • 南通优普营销网站建设西安学校网站建设哪家好
  • 上海网站推广策划电商网站开发prd
  • 建立网站建设专门做字体设计的网站
  • 深圳展览设计网站建设展厅设计公司西安
  • 教育网站如何做经营国家反诈中心app下载安装
  • 昆山品牌网站wplounge wordpress主题
  • 在线做免费网站做网站需要icp吗
  • 官网和网站的区别网站制作 文案
  • 亚马逊网站推广怎么做山东天齐建设集团网站
  • 免费网站的软件下载响应式网页源码
  • 织梦cms做电影网站国外优秀企业网站欣赏
  • 备案网站地址内网网站建设流程
  • php做的网站模板下载地址上海企业注销简易流程
  • 网站怎么增加代码设计上海2021门票
  • 网站开发kpi网站开发公司选择
  • 医院网站如何备案怎么申请自己公司的邮箱
  • 企业网站建设研究论文北京好的做网站的公司有哪些
  • 咸阳微网站建设服务器怎么做网站
  • 网站职业技能培训班想把公司的外部网站替换
  • 如何拷贝网站代码linux下做网站
  • 设计之家官方网站云优化 网站建设