手机建设银行新网站,购物商城网站模板,wordpress主题防止破解,电脑网页游戏排行目录
前言
一、哈希取余分区
优点
缺点
二、一致性哈希算法分区
背景
步骤
① 算法构建一致性哈希环
② 服务器IP节点映射
③ key落到服务器的落键规则
优点
① 容错性
② 扩展性
缺点
三、哈希槽分区 前言
单机单台100%不可能#xff0c;肯定是分布式存储肯定是分布式存储但是用redis如何落地 一般业界有3种解决方案
一、哈希取余分区
2亿条记录就是2亿个k,v我们单机不行必须要分布式多机假设有3台机器构成一个集群用户每次读写操作都是根据公式hash(key) % N个机器台数计算出哈希值用来决定数据映射到哪一个节点上。 优点
简单粗暴直接有效只需要预估好数据规划好节点例如3台、8台、10台就能保证一段时间的数据支撑。使用Hash算法让固定的一部分请求落到同一台服务器上这样每台服务器固定处理一部分请求并维护这些请求的信息起到负载均衡分而治之的作用。
缺点
原来规划好的节点进行扩容或者缩容就比较麻烦了不管扩缩每次数据变动导致节点有变动映射关系需要重新进行计算在服务器个数固定不变时没有问题如果需要弹性扩容或故障停机的情况下原来的取模公式就会发生变化Hash(key)/3会变成Hash(key) /?。此时地址经过取余运算的结果将发生很大变化根据公式获取的服务器也会变得不可控。即某个redis机器宕机了由于台数数量变化会导致hash取余全部数据重新洗牌。
二、一致性哈希算法分区
背景
一致性哈希算法在1997年由麻省理工学院中提出的设计目标是为了解决分布式缓存数据变动和映射问题某个机器宕机了分母数量改变了自然取余数不OK了。
步骤
① 算法构建一致性哈希环
一致性哈希算法必然有个hash函数并按照算法产生hash值这个算法的所有可能哈希值会构成一个全量集这个集合可以成为一个hash空间[0,2^32-1]这个是一个线性空间但是在算法中我们通过适当的逻辑控制将它首尾相连(0 2^32),这样让它逻辑上形成了一个环形空间。
它也是按照使用取模的方法前面介绍的节点取模法是对节点服务器的数量进行取模。而一致性Hash算法是对2^32取模简单来说一致性Hash算法将整个哈希值空间组织成一个虚拟的圆环如假设某哈希函数H的值空间为0-2^32-1即哈希值是一个32位无符号整形整个哈希环如下图整个空间按顺时针方向组织圆环的正上方的点代表00点右侧的第一个点代表1以此类推2、3、4、……直到2^32-1也就是说0点左侧的第一个点代表2^32-1 0和2^32-1在零点中方向重合我们把这个由2^32个点组成的圆环称为Hash环。 ② 服务器IP节点映射
将集群中各个IP节点映射到环上的某一个位置。 将各个服务器使用Hash进行一个哈希具体可以选择服务器的IP或主机名作为关键字进行哈希这样每台机器就能确定其在哈希环上的位置。假如4个节点NodeA、B、C、D经过IP地址的哈希函数计算(hash(ip))使用IP地址哈希后在环空间的位置如下 ③ key落到服务器的落键规则
当我们需要存储一个kv键值对时首先计算key的hash值hash(key)将这个key使用相同的函数Hash计算出哈希值并确定此数据在环上的位置从此位置沿环顺时针“行走”第一台遇到的服务器就是其应该定位到的服务器并将该键值对存储在该节点上。 如我们有Object A、Object B、Object C、Object D四个数据对象经过哈希计算后在环空间上的位置如下根据一致性Hash算法数据A会被定为到Node A上B被定为到Node B上C被定为到Node C上D被定为到Node D上。 简而言之言而简直。就是把[0,2^32-1]变成首尾相接的环然后通过一个相同的hash函数对主机名或者ip进行hash求出在环上的位置。之后有数据过来了如何选服务器存放呢也是通过hash求出这个值在环上的位置但这个hash值的位置可能没有主机因此顺时针走第一次遇到得主机就是要存放的服务器。 优点
① 容错性
假设Node C宕机可以看到此时对象A、B、D不会受到影响只有C对象被重定位到Node D。一般的在一致性Hash算法中如果一台服务器不可用则受影响的数据仅仅是此服务器到其环空间中前一台服务器即沿着逆时针方向行走遇到的第一台服务器之间数据其它不会受到影响。简单说就是C挂了受到影响的只是B、C之间的数据并且这些数据会转移到D进行存储。 ② 扩展性
数据量增加了需要增加一台节点NodeXX的位置在A和B之间那收到影响的也就是A到X之间的数据重新把A到X的数据录入到X上即可不会导致hash取余全部数据重新洗牌。 缺点
当服务器台数较少可能出现一致性哈希算法的数据倾斜问题
一致性Hash算法在服务节点太少时容易因为节点分布不均匀而造成数据倾斜被缓存的对象大部分集中缓存在某一台服务器上问题 例如系统中只有两台服务器 总结 为了在节点数目发生改变时尽可能少的迁移数据 将所有的存储节点排列在收尾相接的Hash环上每个key在计算Hash后会顺时针找到临近的存储节点存放。 而当有节点加入或退出时仅影响该节点在Hash环上顺时针相邻的后续节点。 三、哈希槽分区
概念
哈希槽实质就是一个数组数组[0,2^14 -1]形成hash slot空间。
用于解决均匀分配的问题在数据和节点之间又加入了一层把这层称为哈希槽slot用于管理数据和节点之间的关系现在就相当于节点上放的是槽槽里放的是数据。 槽解决的是粒度问题相当于把粒度变大了这样便于数据移动。 哈希解决的是映射问题使用key的哈希值来计算所在的槽便于数据分配。
一个集群只能有16384个槽编号0-163830-2^14-1。这些槽会分配给集群中的所有主节点分配策略没有要求。可以指定哪些编号的槽分配给哪个主节点。集群会记录节点和槽的对应关系。解决了节点和槽的关系后接下来就需要对key求哈希值然后对16384取余余数是几key就落入对应的槽里。slot CRC16(key) % 16384。以槽为单位移动数据因为槽的数目是固定的处理起来比较容易这样数据移动问题就解决了。
另外redis之父建议redis的集群最好不要超过1000台。
为什么一个集群只能有16384个槽呢又为什么不能超过1000台
CRC16算法产生的hash值有16bit该算法可以产生2^1665536个值。换句话说值是分布在0~65535之间。那在做mod运算的时候为什么不mod65536而选择mod16384了
(1)如果槽位为65536发送心跳信息的消息头达8k发送的心跳包过于庞大。
在消息头中最占空间的是myslots[CLUSTER_SLOTS/8]。 当槽位为65536时这块的大小是:65536-8-10248kb因为每秒钟redis节点需要发送一定数量的ping消息作为心跳包如果槽位为65536这个ping消息的消息头太大了浪费带宽。
(2)redis的集群主节点数量基本不可能超过1000个。 集群节点越多心跳包的消息体内携带的数据越多。如果节点过1000个也会导致网络拥堵。因此redis作者不建议redis cluster节点数量超过1000个。那么对于节点数在1000以内的redis cluster集群16384个槽位够用了。没有必要拓展到65536个。
(3)槽位越小节点少的情况下压缩比高容易传输
Redis主节点的配置信息中它所负责的哈希槽是通过一张bitmap的形式来保存的在传输过程中会对bitmap进行压缩但是如果bitmap的填充率sIots/N很高的话(N表示节点数)bitmap的压缩率就很低。如果节点数很少而哈希槽数量很多的话bitmap的压缩率就很低。
哈希槽计算
Redis 集群中内置了 16384 个哈希槽redis 会根据节点数量大致均等的将哈希槽映射到不同的节点。当需要在 Redis 集群中放置一个 key-value时redis 先对 key 使用 crc16 算法算出一个结果然后把结果对 16384 求余数这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽也就是映射到某个节点上。如下代码key之A 、B在Node2 key之C落在Node3上