中国电建成都设计院,外贸seo网站建站,搭建一个网站要多久,wordpress 主菜单 背景Hadoop原理#xff0c;HDFS架构#xff0c;MapReduce原理
2022找工作是学历、能力和运气的超强结合体#xff0c;遇到寒冬#xff0c;大厂不招人#xff0c;可能很多算法学生都得去找开发#xff0c;测开 测开的话#xff0c;你就得学数据库#xff0c;sql#xff0c…Hadoop原理HDFS架构MapReduce原理
2022找工作是学历、能力和运气的超强结合体遇到寒冬大厂不招人可能很多算法学生都得去找开发测开 测开的话你就得学数据库sqloracle尤其sql要学当然像很多金融企业、安全机构啥的他们必须要用oracle数据库 这oracle比sql安全强大多了所以你需要学习最重要的你要是考网络警察公务员这玩意你不会就别去报名了耽误时间 文章目录 Hadoop原理HDFS架构MapReduce原理[TOC](文章目录) Hadoop是什么Hadoop概述Hadoop优势Hadoop的生态系统Hadoop集群的部署模式Hadoop的历史版本HDFS的演进HDFS基本概念HDFS的优缺点HDFS主从架构HDFS写原理HDFS读数据的原理HDFS的shell操作MapReduce分布式计算框架map和reduce内部如何合作maptaskreducetaskshuffle工作原理MapReduce的运行模式MapReduce的性能优化总结
Hadoop是什么 Hadoop概述 Hadoop优势 计算能力 存储能力 廉价计算机组成 高效率吞吐量高 可靠容错 数据副本机制基本不会丢
Hadoop的生态系统 Hadoop集群的部署模式 Hadoop的历史版本 收费的牛逼 主从架构
计算类似的 MapReduce yarn来管理分配资源和调度资源 resourcemanager 管理nodemanager APPmaster进程去计算 app计算完上报给老大 单点故障依然gg 还是备份思想 gg zookeeper来搞这种管理美滋滋
这门课牛逼终于说清楚了这些事情 不是resource 了 HDFS的演进 老牛逼了
HDFS基本概念 不妨设a.txt要存储它很大很大一个机子存不了 咱需要拆分成多个block
这样分开存在不同的机子上 支离破碎的文件需要统一管理namenode来管理
当客户端访问是先要问nn你给我真实的地址我一个个去读取然后组装就好。 nn就是老大
datanode block 300m那平均分开 3份一样的数据分开存储增加容错性
HDFS的优缺点 蓝色dn1丢失 但是dn2和dn3保持数据的完整性 美滋滋 字节流好像访问本地文件效率高
支持超大文件的存储切片分开存储都能玩 高数据的吞吐量不支持修改支持存储 由于数据多分开存这样的话速度慢 适合线下处理 尤其是小文件多元数据量大很烦人
并发写入不合适他要备份 一次写入多次读取
HDFS主从架构
namenode管理datanode namenode的元数据是缓存在自己身上的secondarynamenode辅助管理
datanode经常需要汇报给老大namenode
一个大文件一般有3个副本
HDFS写原理 client客户端的操作 分步骤玩
1客户端发出RPC请求上传文件 2nn检查元数据文件的目录树 3告诉客户端可以上传 4上传请求第一个block一共3个 5每个block是要3个副本的nn需要检查dn的信息池查他的存储量和可用性找到可用的list即可用的副本 6返回可用的datanode可用的列表dn123 7客户端收到了列表之后他就知道存到哪里了他需要和服务器之间建立pipeline管道且dn1和dn2之间也要建立管道dn2和dn3都要建立这样的话数据流通道搞出来了当客户端一旦发送就能同时发送哦 8当管道建立好后返回管道建立完毕的信息相当于acktcp协议连接类似 9就可以发送了建立传输数据流发送数据 10以package包为单位慢慢发64k大小dn1发送诶dn2dn2发送给dn3 11发送完毕告诉前面确认好了ack确认信息 12通知客户端block发送完毕请求发送下一个block以此循环发
懂了吧
HDFS读数据的原理 1客户端发RPC请求获取读取文件block数据所在的位置往往1文件是分成了多个block而且分散存储在不同的服务器上的 2nn返回block返回datanode的地址列表比如dn1dn2dn3上都有副本 3当客户端知道了地址他直接挑选排序靠前的地址列表距离自己比较近的那个节点它还能挑选健康的服务器比如挑选然后建立通信管道分别读取并发读取哦。每次读完那客户端都要完成校验发现不完整还需要从新问nn 4读取完成合成一个完整的文件
HDFS的shell操作 /根目录 Hadoop fs -ls /目录 这种特定的命令 这种就是普通Linux之前加一个Hadoop fs 或者dfs fs 本地路径目标路径 MapReduce分布式计算框架 HDFS是存储 MapReduce是计算
懂? yarn是管理 分而治之——MapReduce map reduce map和reduce内部如何合作 格式化结构化
maptask reducetask shuffle工作原理 blocksize最重要 new一个text和int就是kv k想通哈希值就相同
就是分区的编号根key个数相同 MapReduce的运行模式 输入输出 key123各种格式 MapReduce的性能优化 总结
提示重要经验
1 2学好oracle即使经济寒冬整个测开offer绝对不是问题同时也是你考公网络警察的必经之路。 3笔试求AC可以不考虑空间复杂度但是面试既要考虑时间复杂度最优也要考虑空间复杂度最优。