当前位置：首页 > news >正文

闵行区网站开发临沂哪家做网站最好

news 2026/4/24 6:09:00

闵行区网站开发,临沂哪家做网站最好,网页制作网站受众群体分析,广东互联网产品推广技术第一章* 大数据#xff1a; 1#xff1a;什么是大数据#xff1a; 一种规模大到获取#xff0c;存储#xff0c;管理#xff0c;分析都大大超过了传统数据库软件工具的能力范围的数据集合 2#xff1a;特点#xff1a; 数据量大#xff0c;类型繁多#xff0c;处…第一章* 大数据 1什么是大数据一种规模大到获取存储管理分析都大大超过了传统数据库软件工具的能力范围的数据集合 2特点数据量大类型繁多处理速度快价值密度低 3在零售行业的应用精准定位零售行业市场支持行业收益管理挖掘零售行业新需求 Hadoop 1Hadoop优势高效率可靠性成本低扩容能力强高容错性 2Hadoop生态系统分布式文件系统、分布式存储系统HDFS分布式计算框架MapReduce资源管理平台Yarn数据迁移工具sqoop数据挖掘算法库Mahout分布式数据库HBase分布式协调服务ZookeeperHive基于Hadoop的数据仓库日志收集工具Flume 3hadoop 1.X与Hadoop2.X区别 Hadoop1.X的内核主要有HDFS分布式存储系统和MapReduce(分布式计算框架) Hadoop2.X的内核主要有HDFS分布式存储系统和MapReduce(分布式计算框架)以及Yarn资源管理平台和其他工作机制的改变Others Hadoop1.X中 1HDFS由一个Namenode和多个Datanode组成注意一个Datanode上存储的数据块不可以有相同的其中Datanode负责存储数据但是具体数据存储在哪一个Datanode上由Namenode决定。 2MapReduce由一个Jobtracker和多个Tasktraker组成Jobtraker负责接收计算任务分配给Tasktraker执行跟踪并对其进行任务执行状况监控。缺点 1HDFS中Namenode与Secondary Namenode单点故障风险较大。其次Namenode内存受限不好扩展。且只有一个Namenode需要负责观理所有Datanode. 2:MapReduce中Jobtracker职责过多访问压力太大会影响系统稳定并且MapReduce难以支持出自身外的框架。 Hadoop2.X: 1可以同时启动多个Namenode,其中一个处于工作状态一个处于随时待命的状态Hadoop HAHadoop 高可用当一个Namenode宕机可以在数据不丢失的情况下自动切换到另一个Namenode持续提供服务。 2将Jobtraker中的资源管理和作业控制分开分别由ResourceManager负责所有应用程序资源分配和ApplicationMaster负责管理一个应用程序实现其实就是引入了Yarn资源管理平台可以为各类应用程序进行资源管理和调度可以实现个不同计算模型和各种应用之间的交互使集群得到高效利用。 3:MapRuduce是运行在Yarn上的离线处理框架运行环境不在是Jobtracker和Tasktrake等服务组成而是变成通用资源管理Yarn和作业控制进程ApplicationMaster提升了Mapreduce的速度和可用性。第二章 1Hadoop安装一启动与关闭Hadoop 单节点逐个启动在主节点上启动HDFS namenode进程hadoop-daemon.sh start namenode在从节点上使用指令启动 HDFS DataNode进程 hadoop-daemon.sh start DataNode在主节点上使用指令启动Yarn RecourseManager进程yarn-daemon.sh start recoursemanager在每个节点上从节点上使用指令启动Yarn nodemanager进程yarn-daemon.sh start nodemanager在规划节点Hadoop02使用指令启动SecondaryNameNodehadoop-daemon.sh start secondarynamenode 脚本一键启动和关闭在主节点Hadoop上使用指令启动所有HDFS服务进程start-dfs.sh在主节点Hadoop01上使用指令启动所有Yarn服务进程start-yarn.sh 将以上指令start改为stop就为关闭服务命令 2通过UI查看Hadoop运行状态在Hadoop集群开放后默认开放了端口 50070监控HDFS集群主要为namenode8088监控Yarn集群 3Hadoop集群配置文件配置集群主节点修改hadoop-env.sh文件配置Hadoop运行环境下所需的JDK环境变量修改core-site.xml文件配置HDFS地址端口号以及临时文件HDFS的主进程NameNode运行主机也就是Hadoop集群的主节点同时配置Hadoop运行是所生成数据的临时目录修改hdfs-site.xml文件配置HDFS上的NameNodo和DataNode量大进程。配置了HDFS数据块的副本数量集群备份数量默认为3并根据需要设置了SecondaryNameNode所在服务的HTTP协议地址修改mapred-site.xml文件用于指定MapReduce运行时的框架修改yarn-site.xml文件配置Yarn运行RecourseManager运行主机号和NodeManager运行时的附属服务需要配置为MapReduce-shuffle才能正常运行MapReduce默认程序修改slaves文件。打开该配置文件先删除里面的内容默认localhost记录Hadoop集群所有从节点的主机名HDFS的DataNode和Yarn的NodeManager 将集群主节点的配置文件分发到其他子节点: 完成Hadoop集群主节点hadoop01的配置后还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上具体指令 $ scp /etc/profile hadoop02:/etc/profile $ scp /etc/profile hadoop03:/etc/profile $ scp -r /export/ hadoop02:/ $ scp -r /export/ hadoop03:/4 5Hadoop安装步骤下载安装包解压安装Hadoop配置Hadoop环境变量验证Hadoop环境 6:Hadoop安装目录 bin:存放操作Hadoop相关服务的脚本sbin:存放Hadoop相关管理脚本etc:存放Hadoop配置文件Hadoop2.X新增yarn-site.xml)include:Hadoop对外编程库头文件lib:hadoop 对外编程动态库和静态库libexecHadoop服务对用的shell配置文件所在目录shaveHadoop各个模块编译后的jar包所在的目录src:Hadoop源码包 7:虚拟机安装过程下载安装创建虚拟机操作系统选择—虚拟机命名—处理器配置—虚拟机内存—指定磁盘容量—-创建完成虚拟机初始化镜像文件配置—-磁盘格式化—主机名配置—网络配置—-时区配置—系统用户名配置—-磁盘格式化 8:虚拟机克隆完整克隆是对原始虚拟机的完全独立的一个复制它不和虚拟机共享任何资源可以完全脱离虚拟机独立使用。链接克隆需要和原始虚拟机共享同一虚拟磁盘文件不能脱离原始虚拟机独立运行。但是采用共同磁盘文件可以为创建虚拟机的节省时间同时还节省物理磁盘空间。完全克隆的虚拟机文件相对独立并且安全在实际开发中应用广泛。 9 命令加载环境变量配置文件需要使用source /etc/profile格式化HDFS集群命令hadoop namenode -formatshell命令方式hadoop fs(适用于任何不同文件系统例如本地文件系统和HDFS)hadoop dfs 和 hdfs dfs(都只适用于HDFS文件系统) 第三章 1HDFS的读写原理 HDFS写数据原理客户端发起文件上传请求通过RPC远程过程调用与NameNode建立通讯NameNode检查元数据文件的系统目录树若系统目录树的父目录不存在该文件相关信息返回客户端可以上传文件客户端请求上传第一个Block数据块以及数据块副本的数量NameNode检测元数据文件中DataNode信息池找到可用的数据节点NameNode检查元数据文件的系统目录树若系统目录树的父目录不存在该文件相关信息返回客户端可以上传文件客户端与DataNode之间建立Pipeline后逐个返回建立完毕信息客户端与DataNode建立数据传输流开始发送数据包客户端向DataNode_01上传第一个Block数据块当DataNode_01收到一个Packet就会传给DataNode_02DataNode_02传给DataNode_03DataNode_01每传送一个Packet都会放入一个应答队列等待应答。数据被分割成一个个Packet数据包在Pipeline上依次传输而在Pipeline反方向上将逐个发送Ack最终由Pipeline中第一个DataNode节点DataNode_01将Pipeline的 Ack信息发送给客户端。DataNode返回给客户端第一个Block块传输完成。客户端则会再次请求NameNode上传第二个Block块和第三块到服务器上重复上面的步骤直到3个Block都上传完毕。 HDFS读数据原理客户端向NameNode发起RPC请求来获取请求文件Block数据块所在的位置。NameNode检测元数据文件会视情况返回Block块信息或者全部Block块信息对于每个Block块NameNode都会返回含有该Block副本的DataNode地址。客户端会选取排序靠前的DataNode来依次读取Block块每一个Block都会进行CheckSum若文件不完整则客户端会继续向NameNode获取下一批的Block列表直到验证读取出来文件是完整的则Block读取完毕。客户端会把最终读取出来所有的Block块合并成一个完整的最终文件例如1.txt。 2HDFS的演变传统文件系统—分布式文件系统雏形–HDFS文件系统雏形–HDFS 3HDFS基本概念 NameNode维护系统下所有的文件系统和目录相关信息主要以元数据的形式进行管理存储用于维护文件系统名称和管理客户端对文件的访问namenode包含两部分Fsimage镜像文件勇于存储整个文件系统命名空间信息和Editlog日志文件勇于持久化记录文件系统元数据发生的变化DataNode存储真实数据块以文件形式存储在磁盘中包括两个文件一个是数据本身二每个数据块对应的元数据文件数据长度时间戳块数据校验和DataNode是HDFS集群中的从服务器通常称为数据节点。文件系统存储文件的方式是将文件切分成多个数据块这些数据块实际上是存储在DataNode节点中的因此DataNode机器需要配置大量磁盘空间。它与NameNode保持不断的通信DataNode在客户端或者NameNode的调度下存储并检索数据块对数据块进行创建、删除等操作并且定期向NameNode发送所存储的数据块列表。Block每个磁盘都有默认的数据块大小这是磁盘进行数据读/写的最小单位HDFS同样也有块block的概念它是抽象的块而非整个文件作为存储单元在Hadoop2.x版本下默认大小是128M且备份3份每个块尽可能地存储于不同的DataNode中。按块存储的好处主要是屏蔽了文件的大小提供数据的容错性和可用性。RackRack是用来存放部署Hadoop集群服务器的机架不同机架之间的节点通过交换机通信HDFS通过机架感知策略使NameNode能够确定每个DataNode所属的机架ID使用副本存放策略来改进数据的可靠性、可用性和网络带宽的利用率。Matadata:维护文件和目录信息记录文件内容存储目录信息记录HDFS中所有DataNode信息用于DataNode管理 4HDFS特点优点缺点 5HDFS的存储架构 6:HDFS的shell操作 shell在计算机科学中俗称“壳”是提供给使用者使用界面的进行与系统交互的软件通过接收用户输入的命令执行相应的操作Shell分为图形界面Shell和命令行式Shell。 hadoop fs -ls hadoop fs -mkdir -p/itcast/hadoop 3. hadoop fs -put -f install.log / 7Hadoop的java API操作 HDFS Shell本质上就是对Java API的应用通过编程的形式操作HDFS其核心是使用HDFS提供的Java API构造一个访问客户端对象然后通过客户端对象对HDFS上的文件进行操作增、删、改、查。在Java中操作HDFS创建一个客户端实例主要涉及以下两个类 Configuration该类的对象封装了客户端或者服务器的配置Configuration实例会自动加载HDFS的配置文件core-site.xml从中获取Hadoop集群的配置信息。 FileSystem该类的对象是一个文件系统对象案例——使用Java API操作HDFS 搭建项目环境创建一个项目名为“HadoopDemo”包名为“com.itcast”的Maven项目并在项目的pom.xml文件中引入hadoop-common、hadoop-hdfs、hadoop-client以及单元测试junit的依赖。初始化客户端对象首先在项目src文件夹下创建com.itcast.hdfsdemo包并在该包下创建HDFS_CRUD.java文件编写Java测试类构建Configuration和FileSystem对象初始化一个客户端实例进行相应的操作。上传文件到HDFS 由于采用Java测试类来实现JavaApi对HDFS的操作因此可以在HDFS_CRUD.java文件中添加一个testAddFileToHdfs()方法来演示本地文件上传到HDFS的示例。从HDFS下载文件到本地在HDFS_CRUD.java文件中添加一个testDownloadFileToLocal()方法来实现从HDFS中下载文件到本地系统的功能。目录操作在HDFS_CRUD.java文件添加一个testMkdirAndDeleteAndRename()方法实现目录的创建、删除、重命名的功能。查看目录中的文件信息在HDFS_CRUD.java文件中添加一个testListFiles()方法实现查看目录中所有文件的详细信息的功能。第四章 1MapReduce核心思想分而治之:就是把一个复杂的问题按照一定的“分解”方法分为等价的规模较小的若干部分然后逐个解决分别找出各部分的结果把各部分的结果组成整个问题的结果 MapReduce是Hadoop系统核心组件之一它是一种可用于大数据并行处理的计算模型、框架和平台主要解决海量数据的计算是目前分布式计算模型中应用较为广泛的一种 Map阶段勇于对原始数据进行处理 Reduce阶段对map阶段数据进行汇总部分任务不一定需要reduce阶段可能只有map阶段map阶段产生的数据直接写入HDFS中有map产生相关key的输出都会集中在到Reduce中处理reduce是最终的处理过程其结果不会进行二次处理。 2MapReduce工作过程分片、格式化数据源执行MapTask执行Shuffle过程执行ReduceTask写入文件 ReduceTask工作原理 ReduceTask的工作过程主要经历了5个阶段分别是Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。 MapTask工作原理 MapTask作为MapReduce工作流程前半部分它主要经历5个阶段分别是Read阶段、Map阶段、Collect阶段、Spill阶段和Combiner阶段 Shuffle工作原理 Shuffle是MapReduce的核心它用来确保每个reducer的输入都是按键排序的。它的性能高低直接决定了整个MapReduce程序的性能高低map和reduce阶段都涉及到了shuffle机制。

查看全文

http://www.hkea.cn/news/14391263/