网站后台用什么做,开发网页系统一般多少钱,自己的网站建设,专业团队简介Apache ZooKeeper是由Apache Hadoop的子项目发展而来#xff0c;于2010年11月正式成为了Apache的顶级项目。ZooKeeper为分布式应用提供了高效且可靠的分布式协调服务#xff0c;提供了诸如统一命名服务、配置管理和分布式锁等分布式的基础服务。在解决分布式数据一致性方面于2010年11月正式成为了Apache的顶级项目。ZooKeeper为分布式应用提供了高效且可靠的分布式协调服务提供了诸如统一命名服务、配置管理和分布式锁等分布式的基础服务。在解决分布式数据一致性方面ZooKeeper并没有直接采用Paxos算法而是采用了一种被称为ZAB (ZooKeeper Atomic Broadcast)的一致性协议。
1、初识ZooKeeper
1.1、ZooKeeper简介
ZooKeeper是一个开放源代码的分布式协调服务由知名互联网公司雅虎创建是Google Chubby的开源实现。ZooKeeper的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来构成一个高效可靠的原语集并以一系列简单易用的接口提供给用户使用。
1.1.1、ZooKeeper是什么
ZooKeeper是一个典型的分布式数据一致性的解决方案分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。ZooKeeper可以保证如下分布式一致性特性
顺序一致性从同一个客户端发起的事务请求最终将会严格地按照其发起顺序被应用到ZooKeeper中去。原子性所有事务请求的处理结果在整个集群中所有机器上的应用情况是一致的也就是说要么整个集群所有机器都成功应用了某一个事务要么都没有应用一定不会出现集群中部分机器应用了该事务而另外一部分没有应用的情况。单一视图(Single System Image)无论客户端连接的是哪个ZooKeeper服务器其看到的服务端数据模型都是一致的。可靠性一旦服务端成功地应用了一个事务并完成对客户端的响应那么该事务所引起的服务端状态变更将会被一直保留下来除非有另一个事务又对其进行了变更。实时性通常人们看到实时性的第一反应是一旦一个事务被成功应用那么客户端能够立即从服务端上读取到这个事务变更后的最新数据状态。这里需要注意的是ZooKeeper仅仅保证在一定的时间段内客户端最终一定能够从服务端上读取到最新的数据状态。
1.1.2、ZooKeeper的设计目标
ZooKeeper致力于提供一个高性能、高可用且具有严格的顺序访问控制能力主要是写操作的严格顺序性的分布式协调服务。高性能使得ZooKeeper能够应用于那些对系统吞吐有明确要求的大型分布式系统中高可用使得分布式的单点问题得到了很好的解决而严格的顺序访问控制使得客户端能够基于ZooKeeper实现一些复杂的同步原语。下面我们来具体看一下ZooKeeper的四个设计目标。
目标一简单的数据模型
ZooKeeper使得分布式程序能够通过一个共享的、树型结构的名字空间来进行相互协调。这里所说的树型结构的名字空间是指ZooKeeper服务器内存中的一个数据模型其由一系列被称为ZNode的数据节点组成总的来说其数据模型类似于一个文件系统而ZNode之间的层级关系就像文件系统的目录结构一样。不过和传统的磁盘文件系统不同的是ZooKeeper将全量数据存储在内存中以此来实现提高服务器吞吐、减少延迟的目的。
目标二可以构建集群
一个ZooKeeper集群通常由一组机器组成一般35台机器就可以组成一个可用的ZooKeeper集群了如下图所示 组成ZooKeeper集群的每台机器都会在内存中维护当前的服务器状态并且每台机器之间都互相保持着通信。值得一提的是只要集群中存在超过一半的机器能够正常工作那么整个集群就能够正常对外服务。
ZooKeeper的客户端程序会选择和集群中任意一台机器共同来创建一个TCP连接而一旦客户端和某台ZooKeeper服务器之间的连接断开后客户端会自动连接到集群中的其他机器。
目标三顺序访问
对于来自客户端的每个更新请求ZooKeeper都会分配一个全局唯一的递增编号这个编号反映了所有事务操作的先后顺序应用程序可以使用ZooKeeper的这个特性来实现更高层次的同步原语。
目标四高性能
由于ZooKeeper将全量数据存储在内存中并直接服务于客户端的所有非事务请求因此它尤其适用于以读操作为主的应用场景。
1.2、ZooKeeper从何而来
ZooKeeper最早起源于雅虎研究院的一个研究小组。在当时研究人员发现在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调但是这些系统往往都存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架以便让开发人员将精力集中在处理业务逻辑上。
关于“ZooKeeper”这个项目的名字其实也有一段趣闻。在立项初期考虑到之前内部很多项目都是使用动物的名字来命名的例如著名的Pig项目雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家Raghu Ramakrishnan开玩笑地说“在这样下去我们这儿就变成动物园了”此话一出大家纷纷表示就叫动物园管理员吧——因为各个以动物命名的分布式组件放在一起雅虎的整个分布式系统看上去就像一个大型的动物园了而ZooKeeper正好要用来进行分布式环境的协调——于是ZooKeeper的名字也就由此诞生了。
1.3、ZooKeeper的基本概念
1.3.1、集群角色
通常在分布式系统中构成一个集群的每一台机器都有自己的角色最典型的集群模式就是Master/Slave模式主备模式。在这种模式中我们把能够处理所有写操作的机器称为Master机器把所有通过异步复制方式获取最新数据并提供读服务的机器称为Slave机器。
而在ZooKeeper中这些概念被颠覆了。它没有沿用传统的Master/Slave概念而是引入了Leader、Follower和Observer三种角色。ZooKeeper集群中的所有机器通过一个Leader选举过程来选定一台被称为“Leader”的机器Leader服务器为客户端提供读和写服务。除Leader外其他机器包括Follower和Observer。Follower和Observer都能够提供读服务唯一的区别在于Observer机器不参与Leader选举过程也不参与写操作的“过半写成功”策略因此Observer可以在不影响写性能的情况下提升集群的读性能。
1.3.2、会话(Session)
Session是指客户端会话在讲解会话之前我们首先来了解一下客户端连接。在ZooKeeper中一个客户端连接是指客户端和服务器之间的一个TCP长连接。ZooKeeper对外的服务端口默认是2181客户端启动的时候首先会与服务器建立一个TCP连接从第一次连接建立开始客户端会话的生命周期也开始了通过这个连接客户端能够通过心跳检测与服务器保持有效的会话也能够向ZooKeeper服务器发送请求并接受响应同时还能够通过该连接接收来自服务器的Watch事件通知。Session的sessionTimeout值用来设置一个客户端会话的超时时间。当由于服务器压力太大、网络故障或是客户端主动断开连接等各种原因导致客户端连接断开时只要在sessionTimeout规定的时间内能够重新连接上集群中任意一台服务器那么之前创建的会话仍然有效。
1.3.3、数据节点(Znode)
在谈到分布式的时候我们通常说的“节点”是指组成集群的每一台机器。然而在ZooKeeper中“节点”分为两类第一类同样是指构成集群的机器我们称之为机器节点第二类则是指数据模型中的数据单元我们称之为数据节点——ZNode。ZooKeeper将所有数据存储在内存中数据模型是一棵树(ZNode Tree)由斜杠(/)进行分割的路径就是一个Znode例如/foo/path1。每个ZNode上都会保存自己的数据内容同时还会保存一系列属性信息。
在ZooKeeper中ZNode可以分为持久节点和临时节点两类。所谓持久节点是指一旦这个ZNode被创建了除非主动进行ZNode的移除操作否则这个ZNode将一直保存在ZooKeeper上。而临时节点就不一样了它的生命周期和客户端会话绑定一旦客户端会话失效那么这个客户端创建的所有临时节点都会被移除。另外ZooKeeper还允许用户为每个节点添加一个特殊的属性SEQUENTIAL。一旦节点被标记上这个属性那么在这个节点被创建的时候ZooKeeper会自动在其节点名后面追加上一个整型数字这个整型数字是一个由父节点维护的自增数字。
1.3.4、版本
在前面我们已经提到ZooKeeper的每个ZNode上都会存储数据对应于每个ZNodeZooKeeper都会为其维护一个叫作Stat的数据结构Stat中记录了这个ZNode的三个数据版本分别是version当前ZNode的版本、cversion当前ZNode子节点的版本和aversion当前ZNode的ACL版本。
1.3.5、Watcher
Watcher事件监听器是ZooKeeper中的一个很重要的特性。ZooKeeper允许用户在指定节点上注册一些Watcher并且在一些特定事件触发的时候ZooKeeper服务端会将事件通知到感兴趣的客户端上去该机制是ZooKeeper实现分布式协调服务的重要特性。
1.3.6、ACL
ZooKeeper采用ACL(Access Control Lists)策略来进行权限控制类似于UNIX文件系统的权限控制。ZooKeeper定义了如下5种权限:
CREATE创建子节点的权限。READ获取节点数据和子节点列表的权限WRITE更新节点数据的权限。DELETE删除子节点的权限。ADMIN设置节点ACL的权限。
其中尤其需要注意的是CREATE和DELETE这两种权限都是针对子节点的权限控制。
1.4、为什么选择ZooKeeper
随着分布式架构的出现越来越多的分布式应用会面临数据一致性问题。很遗憾的是在解决分布式数据一致性上除了ZooKeeper之外目前还没有一个成熟稳定且被大规模应用的解决方案。ZooKeeper无论从性能、易用性还是稳定性上来说都已经达到了一个工业级产品的标准。
其次ZooKeeper是开放源代码的所有人都在关注它的发展都有权利来贡献自己的力量你可以和全世界成千上万的ZooKeeper开发者们一起交流使用经验共同解决问题。
另外ZooKeeper是免费的你无须为它支付任何费用。这点对于一个小型公司尤其是初创团队来说无疑是非常重要。
最后ZooKeeper已经得到了广泛的应用。诸如Hadoop、HBase、Storm和Solr等越来越多的大型分布式项目都已经将ZooKeeper作为其核心组件用于分布式协调。
2、ZooKeeper的ZAB协议
2.1、ZAB协议
ZooKeeper并没有完全采用Paxos算法而是使用了一种称为ZooKeeper Atomic BroadcastZABZooKeeper原子消息广播协议的协议作为其数据一致性的核心算法。
ZAB协议是为分布式协调服务ZooKeeper专门设计的一种支持崩溃恢复的原子广播协议。ZAB协议的开发设计人员在协议设计之初并没有要求其具有很好的扩展性最初只是为雅虎公司内部那些高吞吐量、低延迟、健壮、简单的分布式系统场景设计的。在ZooKeeper的官方文档中也指出ZAB协议并不像Paxos算法那样是一种通用的分布式一致性算法它是一种特别为ZooKeeper设计的崩溃可恢复的原子消息广播算法。
在ZooKeeper中主要依赖ZAB协议来实现分布式数据一致性基于该协议ZooKeeper实现了一种主备模式的系统架构来保持集群中各副本之间数据的一致性。具体的ZooKeeper使用一个单一的主进程来接收并处理客户端的所有事务请求并采用ZAB的原子广播协议将服务器数据的状态变更以事务Proposal的形式广播到所有的副本进程上去。ZAB协议的这个主备模型架构保证了同一时刻集群中只能够有一个主进程来广播服务器的状态变更因此能够很好地处理客户端大量的并发请求。另一方面考虑到在分布式环境中顺序执行的一些状态变更其前后会存在一定的依赖关系有些状态变更必须依赖于比它早生成的那些状态变更例如变更C需要依赖变更A和变更B。这样的依赖关系也对ZAB协议提出了一个要求ZAB协议必须能够保证一个全局的变更序列被顺序应用也就是说ZAB协议需要保证如果一个状态变更已经被处理了那么所有其依赖的状态变更都应该已经被提前处理掉了。最后考虑到主进程在任何时候都有可能出现崩溃退出或重启现象因此ZAB协议还需要做到在当前主进程出现上述异常情况的时候依旧能够正常工作。
ZAB协议的核心是定义了对于那些会改变ZooKeeper服务器数据状态的事务请求的处理方式即所有事务请求必须由一个全局唯一的服务器来协调处理这样的服务器被称为Leader服务器而余下的其他服务器则成为Follower服务器。Leader服务器负责将一个客户端事务请求转换成一个事务Proposal提议并将该Proposal分发给集群中所有的Follower服务器。之后Leader服务器需要等待所有Follower服务器的反馈一旦超过半数的Follower服务器进行了正确的反馈后那么Leader就会再次向所有的Follower服务器分发Commit消息要求其将前一个Proposal进行提交。
2.2、协议介绍
ZAB协议包括两种基本的模式分别是崩溃恢复和消息广播。当整个服务框架在启动过程中或是当Leader服务器出现网络中断、崩溃退出与重启等异常情况时ZAB协议就会进入恢复模式并选举产生新的Leader服务器。当选举产生了新的Leader服务器同时集群中已经有过半的机器与该Leader服务器完成了状态同步之后ZAB协议就会退出恢复模式。其中所谓的状态同步是指数据同步用来保证集群中存在过半的机器能够和Leader服务器的数据状态保持一致。
当集群中已经有过半的Follower服务器完成了和Leader服务器的状态同步那么整个服务框架就可以进入消息广播模式了。当一台同样遵守ZAB协议的服务器启动后加入到集群中时如果此时集群中已经存在一个Leader服务器在负责进行消息广播那么新加入的服务器就会自觉地进入数据恢复模式找到Leader所在的服务器并与其进行数据同步然后一起参与到消息广播流程中去。正如上文介绍中所说的ZooKeeper设计成只允许唯一的一个Leader服务器来进行事务请求的处理。Leader服务器在接收到客户端的事务请求后会生成对应的事务提案并发起一轮广播协议而如果集群中的其他机器接收到客户端的事务请求那么这些非Leader服务器会首先将这个事务请求转发给Leader服务器。
当Leader服务器出现崩溃退出或机器重启亦或是集群中已经不存在过半的服务器与该Leader服务器保持正常通信时那么在重新开始新一轮的原子广播事务操作之前所有进程首先会使用崩溃恢复协议来使彼此达到一个一致的状态于是整个ZAB流程就会从消息广播模式进入到崩溃恢复模式。
一个机器要成为新的Leader必须获得过半进程的支持同时由于每个进程都有可能会崩溃因此在ZAB协议运行过程中前后会出现多个Leader并且每个进程也有可能会多次成为Leader。进入崩溃恢复模式后只要集群中存在过半的服务器能够彼此进行正常通信那么就可以产生一个新的Leader并再次进入消息广播模式。举个例子来说一个由3台机器组成的ZAB服务通常由1个Leader、2个Follower服务器组成。某一个时刻假如其中一个Follower服务器挂了整个ZAB集群是不会中断服务的这是因为Leader服务器依然能够获得过半机器包括Leader自己的支持。
2.2.1、消息广播
AB协议的消息广播过程使用的是一个原子广播协议类似于一个二阶段提交过程。针对客户端的事务请求Leader服务器会为其生成对应的事务Proposal并将其发送给集群中其余所有的机器然后再分别收集各自的选票最后进行事务提交如下图所示就是ZAB协议消息广播流程的示意图 ZAB协议中涉及的二阶段提交过程则与其略有不同。在ZAB协议的二阶段提交过程中移除了中断逻辑所有的Follower服务器要么正常反馈Leader提出的事务Proposal要么就抛弃Leader服务器。同时ZAB协议将二阶段提交中的中断逻辑移除意味着我们可以在过半的Follower服务器已经反馈Ack之后就开始提交事务Proposal了而不需要等待集群中所有的Follower服务器都反馈响应。当然在这种简化了的二阶段提交模型下是无法处理Leader服务器崩溃退出而带来的数据不一致问题的因此在ZAB协议中添加了另一个模式即采用崩溃恢复模式来解决这个问题。另外整个消息广播协议是基于具有FIFO特性的TCP协议来进行网络通信的因此能够很容易地保证消息广播过程中消息接收与发送的顺序性。
在整个消息广播过程中Leader服务器会为每个事务请求生成对应的Proposal来进行广播并且在广播事务Proposal之前Leader服务器会首先为这个事务Proposal分配一个全局单调递增的唯一ID我们称之为事务ID即ZXID。由于ZAB协议需要保证每一个消息严格的因果关系因此必须将每一个事务Proposal按照其ZXID的先后顺序来进行排序与处理。
具体的在消息广播过程中Leader服务器会为每一个Follower服务器都各自分配一个单独的队列然后将需要广播的事务Proposal依次放入这些队列中去并且根据FIFO策略进行消息发送。每一个Follower服务器在接收到这个事务Proposal之后都会首先将其以事务日志的形式写入到本地磁盘中去并且在成功写入后反馈给Leader服务器一个Ack响应。当Leader服务器接收到超过半数Follower的Ack响应后就会广播一个Commit消息给所有的Follower服务器以通知其进行事务提交同时Leader自身也会完成对事务的提交而每一个Follower服务器在接收到Commit消息后也会完成对事务的提交。
2.2.2、崩溃恢复
ZAB协议的这个基于原子广播协议的消息广播过程在正常情况下运行非常良好但是一旦Leader服务器出现崩溃或者说由于网络原因导致Leader服务器失去了与过半Follower的联系那么就会进入崩溃恢复模式。在ZAB协议中为了保证程序的正确运行整个恢复过程结束后需要选举出一个新的Leader服务器。因此ZAB协议需要一个高效且可靠的Leader选举算法从而确保能够快速地选举出新的Leader。同时Leader选举算法不仅仅需要让Leader自己知道其自身已经被选举为Leader同时还需要让集群中的所有其他机器也能够快速地感知到选举产生的新的Leader服务器。
2.2.3、基本特性
根据上面的内容我们了解到ZAB协议规定了如果一个事务Proposal在一台机器上被处理成功那么应该在所有的机器上都被处理成功哪怕机器出现故障崩溃。接下来我们看看在崩溃恢复过程中可能会出现的两个数据不一致性的隐患及针对这些情况ZAB协议所需要保证的特性。
ZAB协议需要确保那些已经在Leader服务器上提交的事务最终被所有服务器都提交。 假设一个事务在Leader服务器上被提交了并且已经得到过半Follower服务器的Ack反馈但是在它将Commit消息发送给所有Follower机器之前Leader服务器挂了如下图所示 上图中的消息C2就是一个典型的例子在集群正常运行过程中的某一个时刻Server1是Leader服务器其先后广播了消息P1、P2、C1、P3和C2其中当Leader服务器将消息C2C2是Commit Of Proposal2的缩写即提交事务Proposal2发出后就立即崩溃退出了。针对这种情况ZAB协议就需要确保事务Proposal2最终能够在所有的服务器上都被提交成功否则将出现不一致。
ZAB协议需要确保丢弃那些只在Leader服务器上被提出的事务。相反如果在崩溃恢复过程中出现一个需要被丢弃的提案那么在崩溃恢复结束后需要跳过该事务Proposal如下图所示 在上图所示的集群中假设初始的Leader服务器Server1在提出了一个事务Proposal3之后就崩溃退出了从而导致集群中的其他服务器都没有收到这个事务Proposal。于是当Server1恢复过来再次加入到集群中的时候ZAB协议需要确保丢弃Proposal3这个事务。
结合上面提到的这两个崩溃恢复过程中需要处理的特殊情况就决定了ZAB协议必须设计这样一个Leader选举算法能够确保提交已经被Leader提交的事务Proposal同时丢弃已经被跳过的事务Proposal。针对这个要求如果让Leader选举算法能够保证新选举出来的Leader服务器拥有集群中所有机器最高编号即ZXID最大的事务Proposal那么就可以保证这个新选举出来的Leader一定具有所有已经提交的提案。更为重要的是如果让具有最高编号事务Proposal的机器来成为Leader就可以省去Leader服务器检查Proposal的提交和丢弃工作的这一步操作了。
2.2.4、数据同步
完成Leader选举之后在正式开始工作即接收客户端的事务请求然后提出新的提案之前Leader服务器会首先确认事务日志中的所有Proposal是否都已经被集群中过半的机器提交了即是否完成数据同步。下面我们就来看看ZAB协议的数据同步过程。
所有正常运行的服务器要么成为Leader要么成为Follower并和Leader保持同步。Leader服务器需要确保所有的Follower服务器能够接收到每一条事务Proposal并且能够正确地将所有已经提交了的事务Proposal应用到内存数据库中去。具体的Leader服务器会为每一个Follower服务器都准备一个队列并将那些没有被各Follower服务器同步的事务以Proposal消息的形式逐个发送给Follower服务器并在每一个Proposal消息后面紧接着再发送一个Commit消息以表示该事务已经被提交。等到Follower服务器将所有其尚未同步的事务Proposal都从Leader服务器上同步过来并成功应用到本地数据库中后Leader服务器就会将该Follower服务器加入到真正的可用Follower列表中并开始之后的其他流程。
上面讲到的是正常情况下的数据同步逻辑下面来看ZAB协议是如何处理那些需要被丢弃的事务Proposal的。在ZAB协议的事务编号ZXID设计中ZXID是一个64位的数字其中低32位可以看作是一个简单的单调递增的计数器针对客户端的每一个事务请求Leader服务器在产生一个新的事务Proposal的时候都会对该计数器进行加1操作而高32位则代表了Leader周期epoch的编号每当选举产生一个新的Leader服务器就会从这个Leader服务器上取出其本地日志中最大事务Proposal的ZXID并从该ZXID中解析出对应的epoch值然后再对其进行加1操作之后就会以此编号作为新的epoch并将低32位置0来开始生成新的ZXID。ZAB协议中的这一通过epoch编号来区分Leader周期变化的策略能够有效地避免不同的Leader服务器错误地使用相同的ZXID编号提出不一样的事务Proposal的异常情况这对于识别在Leader崩溃恢复前后生成的Proposal非常有帮助大大简化和提升了数据恢复流程。
基于这样的策略当一个包含了上一个Leader周期中尚未提交过的事务Proposal的服务器启动时其肯定无法成为Leader原因很简单因为当前集群中一定包含一个Quorum集合该集合中的机器一定包含了更高epoch的事务Proposal因此这台机器的事务Proposal肯定不是最高也就无法成为Leader了。当这台机器加入到集群中以Follower角色连接上Leader服务器之后Leader服务器会根据自己服务器上最后被提交的Proposal来和Follower服务器的Proposal进行比对比对的结果当然是Leader会要求Follower进行一个回退操作——回退到一个确实已经被集群中过半机器提交的最新的事务Proposal。