当前位置: 首页 > news >正文

建设拍卖网站网络公司 营销型网站

建设拍卖网站,网络公司 营销型网站,互联网广告行业前景,中国建设报电子版在线阅读hadoop调优 1 HDFS核心参数 1.1 NameNode内存生产配置 1.1.1 NameNode内存计算 每个文件块大概占用150byte#xff0c;如果一台服务器128G#xff0c;能存储的文件块如下 128 (G)* 1024(MB) * 1024(KB) * 1024(Byte) / 150 Byte 9.1 亿 1.1.2 Hadoop2.x 在Hadoop2.x中…hadoop调优 1 HDFS核心参数 1.1 NameNode内存生产配置 1.1.1 NameNode内存计算 每个文件块大概占用150byte如果一台服务器128G能存储的文件块如下 128 (G)* 1024(MB) * 1024(KB) * 1024(Byte) / 150 Byte 9.1 亿 1.1.2 Hadoop2.x 在Hadoop2.x中NameNode内存默认2000m如果服务器内存4GNameNode内存可以配置3G 在hadoop-env.sh中配置 HADOOP_NAMENODE_OPTS-Xmx3072m1.1.3 Hadoop3.x 在Hadoop3.x中,NameNode和DataNode占用的内存都是自动分配的并且相等 可以自己进行更改 配置hadoop-env.sh export HDFS_NAMENODE_OPTS-Dhadoop.security.loggerINFO,RFAS - Xmx1024m export HDFS_DATANODE_OPTS-Dhadoop.security.loggerERROR,RFAS -Xmx1024m1.2 NameNode心跳并发配置 NameNode有一个工作线程池用来处理不同的DataNode的并发心跳以及客户端并发的元数据操作 默认值为10 propertynamedfs.namenode.handler.count/namevalue21/value /property1.3 回收站配置 回收站可以蒋删除的文件在不超时的情况下恢复原数据起到防止误操作、备份的作用 1.3.1 工作机制 1.3.2 参数说明 默认值fs.trash.interval 0表示禁用回收站fs.trash.checkpoint.interval 0检查回收站的间隔时间。该值为0表示和fs.trash.interval 参数相同要求 fs.trash.checkpoint.interval fs.trash.interval。 1.3.3 启动回收站 修改core-site.xml配置垃圾回收时间为1min propertynamefs.trash.interval/namevalue1/value /property通过网站删除的文件不会进入到回收站 经过程序删除的文件不会经过回收站需要调用moveToTrash()才能进入回收站 Trash trash New Trash(conf); trash.moveToTrash(path); 在命令行使用hadoop fs -rm命令删除的文件才会走回收站 2 HDFS集群压测 HDFS的读写性能只要收到网络和磁盘的影响 2.1 HDFS写性能 向HDFS写10个128M文件 [jxhadoop102 mapreduce]$ hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-clientjobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 - fileSize 128MB 2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Date time: Tue Feb 09 10:43:16 CST 2021 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Number of files: 10 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Total MBytes processed: 1280 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Throughput mb/sec: 1.61 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Average IO rate mb/sec: 1.9 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: IO rate std deviation: 0.76 2021-02-09 10:43:16,854 INFO fs.TestDFSIO: Test exec time sec: 133.05 2021-02-09 10:43:16,854 INFO fs.TestDFSIO:Number of files : 生成的MapTask的数量 Total MBytes processed 单个map处理文件的大小 Throughput mb/sec单个mapTask的吞吐量 ​ 计算方式处理总文件的大小 / 每个mapTask写数据的时间累加 ​ 集群整体的吞吐量 生成的mapTask数量 * 单个mapTask的吞吐量 Average IO rate mb/sec平均每个mapTask的吞吐量 如果测试速度远小于网络可以考虑增加固态硬盘或者增加磁盘个数 3 HDFS多目录配置 3. 1 NameNode多目录配置 为了提高HDFS的可靠性和性能可以在NameNode上配置多个目录来存储NameNode的元数据信息。每个目录存放内容相同增加了可靠性 配置NameNode多目录的步骤 创建多个目录在NameNode所在的机器上创建多个目录用于存储NameNode元数据信息。可以在本地磁盘、网络存储设备或者分布式文件系统上创建这些目录。设置hdfs-site.xml文件在hdfs-site.xml文件中添加以下配置 propertynamedfs.namenode.name.dir/namevalue/path/to/first/directory,/path/to/second/directory/value /property其中/path/to/first/directory和/path/to/second/directory是创建的多个目录的路径多个目录之间用逗号分隔。 将元数据信息复制到新目录在NameNode启动之前需要将原来的元数据信息复制到新目录中。可以使用命令hdfs dfsadmin -refreshNodes来刷新NameNode节点并将元数据信息复制到新目录中。 启动NameNode启动NameNode后它将自动读取hdfs-site.xml文件中的配置并将元数据信息存储到多个目录中。 3.2 DataNode多目录配置 DataNode 可以配置成多个目录每个目录存储的数据不一样 配置DataNode多目录的步骤 创建多个目录在DataNode所在的机器上创建多个目录用于存储数据块。可以在本地磁盘、网络存储设备或者分布式文件系统上创建这些目录。设置hdfs-site.xml文件在hdfs-site.xml文件中添加以下配置 phpCopy codepropertynamedfs.datanode.data.dir/namevalue/path/to/first/directory,/path/to/second/directory/value /property其中/path/to/first/directory和/path/to/second/directory是创建的多个目录的路径多个目录之间用逗号分隔。 启动DataNode启动DataNode后它将自动读取hdfs-site.xml文件中的配置并将数据块存储到多个目录中。 3.3 磁盘间数据均衡 在HDFS中数据块默认会被存储在集群中的不同DataNode上以提高数据的可靠性和性能。但是由于不同DataNode的磁盘容量和使用情况不同可能会导致磁盘空间不平衡的问题进而影响HDFS的性能。为了解决这个问题可以使用Hadoop提供的数据均衡工具来平衡不同DataNode的磁盘空间使用情况。 下面是使用数据均衡工具来平衡不同DataNode的磁盘空间使用情况的步骤 启用数据均衡工具在hdfs-site.xml文件中添加以下配置启用数据均衡工具 propertynamedfs.balancer.enabled/namevaluetrue/value /property配置数据均衡工具可以在命令行中使用hdfs balancer命令配置数据均衡工具。例如可以使用以下命令来配置数据均衡工具使得每个DataNode的磁盘空间使用率不超过90% Copy code hdfs balancer -threshold 90运行数据均衡工具可以在命令行中使用hdfs balancer命令来运行数据均衡工具。例如可以使用以下命令来运行数据均衡工具 Copy code hdfs balancer数据均衡工具将自动检测集群中的不同DataNode的磁盘空间使用情况并移动数据块来平衡磁盘空间使用情况。 4 HDFS集群的扩容 4.1 添加白名单 HDFS白名单是指在HDFS中配置一组允许访问HDFS文件系统的IP地址列表其他IP地址将被禁止访问。这种配置可以增强HDFS集群的安全性防止未经授权的访问。 HDFS白名单的配置可以通过以下步骤实现 编辑hdfs-site.xml文件添加以下配置 codepropertynamedfs.hosts/namevalue/etc/hadoop/conf/dfs.hosts/value /property在dfs.hosts文件中列出允许访问HDFS文件系统的IP地址列表格式如下 hadoop102 hadoop103 hadoop104重启HDFS服务使配置生效。 在HDFS白名单配置生效后只有列出的IP地址可以访问HDFS文件系统其他IP地址将被禁止访问。需要注意的是dfs.hosts文件必须在所有的DataNode节点和NameNode节点上都存在否则HDFS将无法启动。 4.2服务器间数据均衡 数据均衡是指在分布式存储系统中通过重新分配存储节点之间的数据块来平衡不同节点之间的数据负载以提高存储系统的性能和可靠性。Hadoop自带了数据均衡机制当某个节点的数据负载过高或过低时会自动将数据块从一个节点移动到另一个节点以实现负载均衡。 以下是Hadoop中常用的数据均衡方法 周期性数据均衡Hadoop默认情况下会每隔一段时间默认为一周对数据进行均衡。当数据节点之间的负载差异超过一定的阈值时Hadoop会自动启动数据均衡过程。手动数据均衡管理员也可以手动启动数据均衡过程可以通过hadoop dfsadmin -balancer命令来手动触发数据均衡。该命令将重新分配数据块使得所有节点之间的负载均衡。配置数据均衡策略Hadoop中还提供了配置数据均衡策略的方法。例如可以配置阈值当负载差异超过阈值时触发数据均衡可以配置最大移动数据块数量以避免数据均衡过程过于耗时等。 需要注意的是数据均衡会占用网络带宽和磁盘IO资源并且在数据均衡过程中Hadoop集群的性能可能会受到影响。因此在进行数据均衡时需要根据集群的负载情况和运行时间进行调度和计划以确保数据均衡过程对Hadoop集群的影响最小。 由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作所以尽量 不要在 NameNode 上执行 start-balancer.sh而是找一台比较空闲的机器。 4.3 黑名单退役服务器 黑名单退役服务器是指已经从集群中移除的服务器或节点。通常当一个服务器或节点出现故障或需要升级时管理员会将其加入黑名单并从集群中移除。这样可以避免故障节点对整个集群造成影响同时也可以保证集群的稳定性和高可用性。 对于黑名单退役服务器中的数据Hadoop提供了多种方式来处理 数据重复存储管理员可以通过配置副本数来实现数据的冗余存储。如果黑名单退役服务器上的数据已经有副本存储在其他服务器上那么数据不会丢失。Hadoop会自动将数据块复制到其他服务器上以保证数据的可靠性和可用性。数据迁移如果黑名单退役服务器上的数据没有副本存储在其他服务器上那么管理员需要手动将数据迁移到其他服务器上。可以使用hadoop fs -get命令将数据下载到本地然后使用hadoop fs -put命令将数据上传到其他服务器。数据删除如果黑名单退役服务器上的数据已经没有用处可以使用hadoop fs -rm命令将其删除。删除数据之前需要进行备份以免误删造成数据丢失。 5 HDFS 存储优化 5.1 纠删码 5.1.1 纠删码原理 HDFS纠删码是一种数据保护机制通过在数据块之间添加冗余信息来提高数据的可靠性和可用性。在HDFS中将原始数据分割成多个数据块并在这些数据块之间添加冗余信息以保护数据的完整性。 与传统的数据备份方式相比纠删码具有更高的存储效率和更好的可靠性。它可以将原始数据切分成多个数据块然后通过添加冗余信息来保护数据的完整性。与备份方式相比纠删码可以在保护数据的同时减少数据存储的成本。 HDFS纠删码可以提高数据的可靠性和可用性同时也可以减少数据存储的成本。但是它也会增加数据处理的复杂度和计算成本。在使用HDFS纠删码时需要根据具体应用场景进行选择并合理配置纠删码参数以达到最佳的性能和效果。 5.1.2 纠删码策略 RS-3-2-1024k使用 RS 编码每 3 个数据单元生成 2 个校验单元共 5 个单元只要有任意的 3 个单元存在就可以得到原始数据 RS-10-4-1024k使用 RS 编码每 10 个数据单元cell生成 4 个校验单元共 14 个单元只要有任意的 10 个单元存在就可以得到原始数据 XOR-2-1-1024k使用 XOR 编码速度比 RS 编码快每 2 个数据单元生成 1 个校 验单元共 3 个单元只要有任意的 2 个单元存在就可以得到原始数据 5.2 异构存储(冷热数据分离) HDFS异构存储是指在HDFS中使用不同类型的存储介质来存储数据例如硬盘、固态硬盘、闪存、内存等。异构存储可以提高存储系统的性能和可用性同时也可以降低存储成本。
http://www.hkea.cn/news/14587512/

相关文章:

  • 长春建设平台网站的公司吗黑龙江建设网首页
  • 网站后台开发需求创建个人网站的流程
  • 哪里有网站建设开发公司网站设置的建设过程和准备阶段
  • 个人网站网页设计网站建设 主要学是么
  • 如何上传网站源码免费erp系统
  • 滨州做网站的电话论坛网站开发开题报告
  • 绍兴公司网站建设做视频网站如何利用用户的弱点
  • 江津网站建设方案购买模板建站
  • 门户网站建设情况说明wordpress 商用
  • 上海建筑 公司网站免费网站建站塔山双喜
  • 设计本官方网站下载上海网站jianshe
  • 网站广告赚钱吗哪些网站可以做兼职设计师
  • asp简单的网站怎么做广告设计公司深圳品牌设计公司
  • 怎么让人搜索到自己做的网站自助建站哪个网站好
  • 东莞市建设安监局网站四川网站制作
  • 郑州市做网站公司a汉狮做网站镜像
  • 青岛市城市建设投标网站深圳专业网站设计公司
  • 网站开发需要2个月吗国内大型餐饮网站建设
  • 做程序教程网站赚钱吗WordPress手机网页登录代码
  • 公司网站可以用个人备案吗搜索引擎网络推广公司上海
  • 学做电商那个网站好ps个人网站制作流程
  • 学校网站建设工作如何做网站管理
  • 肇庆做网站哪家好两学一做专题教育网站
  • 网站空间费1年1200公司网站开发策略和基本步骤
  • 百度网站评级关于网站运营的问题
  • 建立一个商城网站上海专业的网站建设
  • 如何建设好高校网站长治网上制作网站
  • 学校做网站有些什么好处婚庆公司收费价格表
  • 网站建设开发软件有哪些方面公司宣传片如何制作
  • 网站建设是设计师吗给平面设计素材网站做素材挣钱吗