日常生活中,网络购物、在线支付、地图导航等便捷的应用,人们已经习以为常,以至于我们几乎不会关注其背后的技术。这自然离不开通信网络的飞跃发展,而那些功能的实现则要归功于分布式系统的进步。本文通过网络购票的实例,简要介绍分布式系统的概念,包括其核心的Paxos算法,以及它如何应对网络断开的挑战。
一年一度的春运又到了,据估计,今年铁路客运量或超5.1亿人次,日均1275万人次,人们在比拼手速抢票的背后,12306的计算机系统是如何快速响应海量的请求的呢?单台服务器由于有限的计算能力无法快速响应成千上万的请求,想象一下线下的购票大厅只有一个售票窗口却有一万人排队的场景,人们恐怕都要带上睡袋来排队了。那如何加速售票的过程来减少人们的等待时间呢?首先窗口的工作人员可以加快手速,以极快的速度进行操作,但是单个工作人员的手速再快也有一个上限;另一个办法就是在大厅开设多个窗口,同时进行售票。网络售票系统也是一样的,单台服务器处理不过来,就使用多台服务器来进行协同处理,这就需要“分布式系统”登场了!
通俗地说,分布式系统是指,一群计算机共同完成一个任务。这些计算机也可称为节点,它们通过网络连接在一起,分工合作,但对用户表现得像一个整体。不仅仅是12306售票系统,你刷视频时看到的推荐、搜索引擎给出的搜索结果、外卖平台的订单分配,背后都是分布式系统在默默运行。相比单个服务器,使用分布式系统既能提高系统的性能、响应请求的速度,又能提供更好的可靠性,部分节点宕机或者断网了,整个系统依然能继续提供服务。分布式系统虽有这些好处,但是它带来的复杂性也给计算机系统设计提出了挑战。这里就涉及并发(concurrency)以及数据一致(consistency)的问题。以售票为例,试想以下场景,人在北京的张三和人在广州的李四在抢同一张票,张三的抢票请求被分发到了华北地区的某台服务器,而李四的请求被分给了华南地区的某服务器,这俩服务器现在可以同时并行地处理两个人的抢票请求,系统整体的响应速度很快,但是系统如何恰当地协作使得票不会被卖重呢?此外,分布式系统的另一大特点是存在部分失效(partial failure)的可能性,顾名思义,就是系统部分出现故障,但系统其他部分仍可运行。分布式系统由众多计算机构成,而且通过网络连接。显然,不管是计算机还是网络本身都有可能出现故障,譬如某处停电了、网线断了,又或是某台计算机操作系统故障,等等。即使一台机器发生故障的概率很低,然而当计算机的数量多了,对于整个系统来说,故障会非常频繁。我们可以做一个简单的计算,假设系统中有1000台计算机,每台平均一年只出一次故障(故障可能由任何原因导致),即每天出现故障的概率是1/365;反之,每天不出现故障概率是1-1/365,约等于0.99726。这看起来是一个很大的概率,但是对整个系统而言,每天所有机器都不出故障的概率则是0.99726的1000次方 ,约为0.064。这里还未考虑网络问题,所以对于系统来说,不出故障几乎是不可能的。因此,在分布式系统的设计中,如何在部分节点故障或者网络断开的情况下,依然提供正常的服务是必须考虑的问题。
分布式系统的基石——共识算法(consensus algorithm)
共识算法在分布式系统中扮演着核心角色,它使得系统在没有共享的内存,只能通过发送消息通信,并且部分节点可能失效的情况下,整个系统依然能够就某个问题达成共识。譬如某一个特定的座位到底是卖了还是没卖,是卖给了张三还是李四等等,需要系统达成共识才能继续执行。分布式系统先驱、著名图灵奖得主Leslie Lamport于1990年提出了现代共识算法的基础——Paxos算法。Lamport用Paxos这个名字的缘由很有意思。Paxos本是希腊伊奥尼亚海有着悠久历史的小岛,Lamport想象,考古学家发现在远古时代小岛上有一个“业余议会”(part-time parliament),议员们通过信使传递消息对议案进行表决,但是信使不可靠,消息可能传递不到或者被延迟,而且议员本身也有不来开会的可能性,在这种情况下,议员们如何对某议案达成一致?在论文中,Lamport使用这个虚构在Paxos小岛的议会为框架,提出了一个在不可靠通信的情况下实现共识的算法,并给出了严格的数学证明。1990年Lamport将论文提交给ACM Transactions on Computer Systems,审稿人表示论文还算是有趣,但看起来并不很重要,而且关于Paxos故事的部分建议去掉。Lamport表示,审稿人怎么这么一点幽默感都没有,并拒绝对论文做任何修改。后来,分布式系统的另一位先驱Butler Lampson读懂了论文,并和Nancy Lynch等领域大佬一起发表了他们自己的证明,此时Lamport再次考虑将论文发表,最终在一众同行的推动下,论文于1998年发表,现在已经成为分布式系统的基石。分布式系统先驱Leslie Lamport 丨图片来源:wiki下面我们以卖票系统为例,简述一下Paxos算法的思想,以及它如何在节点失效的情况依然达成共识。为了简化,假设系统中只有3台服务器(节点;3个节点是演示Paxos算法所需的最小数量),并且只卖一张票(卖多张票也可以理解成反复卖一张票的过程)。此外,我们还需要先简述一下算法的假定。首先,Paxos算法假定一个节点如果故障则完全停止响应,而不会继续在网络发送错误的消息以干扰系统,它被修复之后会回到系统中继续响应,这种类型的失效被称为fail-stop(失败终止),即fail后就stop了。其次,Paxos是一个基于多数派投票的算法,即需要多数节点投票通过才被认为是共识;Paxos需要2m+1个节点才能容纳m个节点失效。也就是说,要能够容纳1个节点失效,至少系统需要有3个节点(另外两个正常运行)。如果超出半数的节点都失效,那Paxos算法将无法正常运转。现在我们给这三台服务器分配一个全局的序号以示区分:1号节点、2号节点和3号节点。Paxos算法会为每个节点分配一个角色,这里假设1号节点是提议者(proposer)也是接受者(acceptor);2号和3号节点是接受者,只接受,不提议。现在1号节点收到了来自张三的购票请求,它开始了算法的第一步:PREPARE-PROMISE。提议者1号节点首先会为它的提议proposal(即卖票给张三)分配一个唯一的序号(proposal number)。系统中所有的提议都会有一个自己独特的序号,一种简单的实现方式是这样:每个节点自己维护一个计数器(counter),初始值为0,每次自己提出新的提议时,计数器加1;新提议的序号设定为由计数器的数值和该节点的全局ID所拼接构成的小数,两者中间用小数点做间隔,即{counter}.{ID}。比如1号节点的第一个提议的序号为1.1,第二个提议的序号则是2.1。类似的,2号节点的第一个提议序号为1.2,它的第二个提议的序号则是2.2,以此类推。按照这种序号的设计方式,当提议者1号节点收到张三的请求以后,它首先会发送一条PREAPRE消息给其他所有节点,并且附上提议的序号1.1,这里写作PREPARE(1.1)。收到提议的接受者们按照以下逻辑进行响应:
1. 查看收到的PREPARE消息所附带的提议序号。2. 将收到的提议号与自己本地的max_id进行对比。如果更大,则将本地的max_id更新为这个收到的提议号,并返回一条PROMISE消息,相当于告诉提议者:我收到你的消息了,目前你的提议号是最大的哦,准备提议吧,我承诺将不再接受比你的序号小的提议。3. 如果收到的提议序号小于它本地的max_id,该接受者就不做回复,或者回复一条fail消息,即告诉提议者:你的提议失败。如果提议者(1号节点)收到了来自大多数接受者(自己也算一个)返回的PROMISE消息,这时候它就知道,大家已经做好准备接受它的提议了。如果没有得到多数人的答复,或者收到了一个fail消息,提议者就只能放弃本轮的提议,它可以将自己本地counter加1,然后再次提出新一轮的提议(由于counter加了1,提议号也会加1),重新尝试。当1号节点收到了来自多数节点的PROMISE消息后,它就进入第二步:PROPOSE-ACCEPT。在第二步中,1号节点会发送一条PROPOSE消息,并且附带上刚才的提议号,以及具体的值(value),这里的值value就是大家希望达成共识的东西,在本文买票的例子中,它的内容就是“张三”,代表票卖给张三。所以1号节点发送的消息是这样:收到消息的接受者们现在要做一个判断,是否接受这个提议,它们的逻辑是这样的:
1. 如果PROPOSE消息里附带的提议号依然是我目前收到的最大的(即和自己的max_id进行对比),那就接受这个提议,并且返回一条ACCEPTED消息;2. 否则就不返回消息,或者返回fail消息,告诉提议者:提议失败。如果提议者收到来自大多数节点的ACCEPTED消息,那它就知道共识已经达成了。假设现在2号和3号都正常收到了PROPOSE消息,并正常返回了ACCEPTED消息,则所有节点就“票卖给张三”这一状态达成了一致。总结一下,这里达成共识一共用了两步。第一步的目标在于获得多数人的同意,相当于提议者对每个人喊话:我要进行修改数据了啊,你们同意不同意?只有当获得了多数人的同意之后,才会进行第二步——提议者真正发出要propose的值。试想,如果算法跳过第一步,直接发送要propose的值,不同的接受者就可能会收到来自不同提议者的值。而这个时候又因为没有事先征求多数的同意,最后接收者也不知道自己收到的值是否就代表了大多数的意见,系统中可能会有多个子群体大家各自有自己的值,这样全局的共识就没有了。
完整的Paxos算法逻辑
到此为止,算法的运行一切正常,现在我们再来看看一些更加复杂的情况。假设不光1号节点是提议者,2号节点因收到了李四的请求,也成为了一个提议者(注意所有节点都是接受者),现在系统里就有了两个不同的提议者,它们发送的消息可能以任何的方式交织在一起。假设3号节点可能先收到了来自1号节点的PREPARE消息(张三购票),即PREPARE(1.1),并且返回了PROMISE。就在这时,它又收到了2号节点的PREPARE消息(李四购票),即PREPARE(1.2),因为提议号1.2大于1.1,于是它又会给2号节点返回PROMISE,并且将自己的max_id更新为1.2。注意,1号节点会进行第二步继续发送PROPOSE消息,PROPOSE(1.1, “张三”) ,但此时3号节点已经不会再接受它的提议了,因为现在对它而言,1.2是更新的提议。只有当2号节点的PROPOSE消息发过来时它才会接受。再考虑另一种情况,假设李四的操作比张三慢了那么一点点,当2号节点成为提议者,并且发送PREPARE(1.2)的时候,3号节点已经接受1号节点的提议了(提议号为1.1),即ACCEPTED消息已经发送。而这时2号节点因为各种原因还没有收到1号节点的PREPARE消息,浑然不知1号和3号已达成共识(票卖给张三)。那么根据Paxos算法,当3号节点收到来自2号的PREPARE(1.2) 消息时,由于1.2是3号见过的最大的提议号,所以它的确会向2号返回一个PROMISE消息,但是因为3号又已经接受此前的提议1.1了,所以在它返回的PROMISE消息中,会附上之前所接受提议的序号以及值,即PROMISE(1.1, “张三”),即告诉2号:我收到你的提议号了,它的确是最新的提议,但是我此前已经接受过序号为1.1的提议了,它的内容是“张三”。2号收到该消息,了解到票已经卖出,此时根据Paxos算法,2号必须将自己要propose的值更改为“张三”,然后继续发送PROPOSE消息,于是所有的节点依然是达成了共识。最终客户端的李四看到的结果便是:票已售罄。事实上,提议者可能会收到多个带此前接受值的PROMISE消息,它将会选取这些所有PROMISE里面提议序号最大的那个对应的值,作为自己要propose的值,如果没有任何PROMISE消息里带有此前接受的提议信息,提议者则继续用自己原本想propose的值。更新后的接受者和提议者的完整逻辑分别如下图所示。PREPARE-PROMISE 过程。图片来源:https://people.cs.rutgers.edu/~pxk/417/notes/paxos.html
这便是完整的Paxos算法。最后我们再来简单考虑下断网或者节点宕机的情况,看看Paxos如何在故障情况下依然能正确运行。
网络或节点失效下的Paxos
不管是提议者还是接受者都有宕机的可能性。当接收者宕机时,实际上对系统运行影响不大,这正是分布式系统的优势:哪怕有一些节点不对PREPARE消息或者PROPOSE消息做任何反应,只要有多数的节点依然在线,系统依然能做出反应,提议者依然能得到多数人的回复,于是算法运行。而当宕机的节点死而复生后,他们终究也会通过其他节点发来的带有此前已接受提议信息的PROMISE消息来了解到自己错过的共识,在自己本地也进行更新。那如果提议者(譬如1号节点)宕机呢?分为三种情况:
1. 假如它在发送PREPARE消息之前宕机,那相当于系统里面什么也没有发生。其他节点接收用户的需求时会变为新的提议者;
2. 如果提议者在发送PREPARE消息之后宕机,还没来得及发送PROPOSE,如我们刚所说,它的提议会被之后更新的PREPARE所取代(由新的提议者所发出);
3. 如果提议者已经完成了第一步PREPARE-PROMISE,进入了第二步,但是在给部分节点发送PROPOSE消息后宕机,譬如1号在给3号发送完PROPOSE之后宕机,没来得及发给2号;那它的提议将会被3号接受,而2号最终还是会了解到1号和3号达成的共识。因为2号在某时会成为提议者,它终究会收到3号返回的带有此前已接受提议信息的PROMISE消息,并据此来更新自己本地的信息,于是与1号、3号保持了一致。所以最后回到抢票上,当我们从客户端发出买票请求以后,它会和背后复杂的分布式系统进行交互,大家如果抢不到票并不一定因为自己手速不够快,还有可能是网络延迟、连接的服务器宕机,或者和系统算法本身的运作有关。
结语
分布式系统作为现代计算机系统的基石,能够支持12306购票这样的高负载、高并发场景。本文讨论了分布式系统中关于一致性与容错性的一些基本概念与技术实现。事实上,分布式系统的应用不只是线上网购,在加密领域,分布式系统为区块链技术提供了基础支持,确保数据的安全性和一致性;在科学计算领域,分布式系统也被用来解决更大规模的问题。这些领域都展示了分布式系统在我们日常生活和技术发展中发挥着不可或缺的作用。最后,春节马上到了,祝大家:春节快乐,阖家幸福! 关注公众号了解更多
会员申请 请在公众号内回复“个人会员”或“单位会员