一、分布式系统面临的挑战有哪些
分布式系统需要大量机器协作,面临诸多的挑战,其中主要的挑战有:
1、异构的机器与网络
分布式系统中的机器,配置不一样,其上运行的服务也可能由不同的语言、架构实现,因此处理能力也不一样;节点间通过网络连接,而不同网络运营商提供的网络的带宽、延时、丢包率又不一样。怎么保证大家齐头并进,共同完成目标,这是个不小的挑战。
2、普遍的节点故障
虽然单个节点的故障概率较低,但节点数目达到一定规模,出故障的概率就变高了。分布式系统需要保证故障发生的时候,系统仍然是可用的,这就需要监控节点的状态,在节点故障的情况下将该节点负责的计算、存储任务转移到其他节点。
3、不可靠的网络
节点间通过网络通信,而网络是不可靠的。可能的网络问题包括:网络分割、延时、丢包、乱序。相比单机过程调用,网络通信最让人头疼的是超时:节点A向节点B发出请求,在约定的时间内没有收到节点B的响应,那么B是否处理了请求,这个是不确定的,这个不确定会带来诸多问题,最简单的,是否要重试请求,节点B会不会多次处理同一个请求。
总而言之,分布式的挑战来自不确定性,不确定计算机什么时候crash、断电,不确定磁盘什么时候损坏,不确定每次网络通信要延迟多久,也不确定通信对端是否处理了发送的消息。而分布式的规模放大了这个不确定性,不确定性是令人讨厌的,所以有诸多的分布式理论、协议来保证在这种不确定性的情况下,系统还能继续正常工作。
二、分布式系统带来的问题及解答
1、如何找到所需的服务?——服务发现组件
问题描述:线上生产环境中,尤其容器部署情况下服务实例地址(服务器端口)是动态分配的,服务调用者无法提前获取服务实例地址和端口。
解决方案:在服务运行时,通过服务发现组件解析服务名来获取服务实例地址和端口。
2、如何找到实例?——请求分发的策略
问题描述:找到服务器后,还应该确定将当前请求发往服务器的哪一个实例。
解决方案:
(1)如果同一个服务的实例都是完全对等的(无状态),那么按负载均衡策略来处理就足够(随机、轮询、权重、hash、一致性hash、fair等各种策略)。
(2)如果同一个服务的实例不是对等的(有状态),那么需要通过路由服务(元数据服务等)先确定当前要访问的请求数据在哪一个实例上,然后再进行访问。
3、如何避免雪崩?
问题描述:一个故障由于正反馈不断被扩大,从而导致整个系统故障
解决方案:
(1)【快速失败】和【降级机制】:熔断、降级、限流等,通过快速减少系统负载来避免雪崩的发生。
(2)【弹性扩容机制】,通过快速增加系统的服务能力来避免雪崩的发生。
4、如何对系统进行监控?
问题描述:对于一个分布式系统,如果我们不能很清楚地了解内部的状态,那么高可用是没有办法完全保障的。
解决方案:监控系统的各层
(1)【硬件层面】:服务器温度、磁盘RAID阵列等。
(2)【系统层面】:存活状态、CPU、RAM、load负载。
(3)【应用层】:mysql、Nginx、Django、LVS、HAProxy。
(4)【业务层面】:PV、UV、订单。
5、分布式存储如何做数据切片?
问题描述:既然要实现分布式数据库,那么应该如何将数据进行切片?
解决方案:Hash、Consistent Hash和Range Based分片策略。
6、如何设置冗余?如何复制数据?
问题描述:分布式存储的高可用性需要冗余来保证,那么如何做冗余?如何对数据进行复制、更新时保证两份数据的一致性?
解决方案:
(1)【中心化方案】:主从复制、一致性协议(Raft和Paxos)。
(2)【去中心化的方案】:Quorum、Vector Clock。