拼夕夕面试官:集群高并发环境下如何保证分布式唯一全局ID生成?

文摘   2024-12-20 12:04   陕西  

今天咱们来聊一聊面试中的一个常见问题——如何在集群高并发的环境下保证分布式唯一全局ID生成。

这个问题啊,听起来不复杂,但要解决起来可真得费点脑筋。因为这不仅仅关乎ID生成的效率,还涉及到数据的一致性和可靠性。

所以,我们今天就来聊一聊,如何在这种环境下做出高效、可扩展的唯一ID生成方案。

一、问题背景:分布式环境下的ID生成

首先,让我们从问题的本质开始,为什么在集群高并发环境下生成ID会变得这么复杂呢?

在单机环境下,生成ID相对简单。一个自增的数字,基本就能解决问题。然而,分布式环境下的情况就不一样了。比如,假设你有多个服务器节点,每个节点都在独立运行,怎么保证它们生成的ID是唯一的呢?而且,在高并发的场景下,我们不仅需要保证ID的唯一性,还得保证生成的效率,不能让系统变得过于缓慢。💥

二、ID生成的挑战

我们要在分布式环境下确保全局唯一的ID生成,面临的挑战主要有以下几个:

  1. 高并发: 多个请求同时到来,我们需要确保每个请求都能得到一个唯一的ID,而不会出现冲突。
  2. 分布式一致性: 集群中的多个节点必须能够协同工作,生成的ID不能出现重复。
  3. 性能: 在高并发的情况下,ID生成不能成为系统的瓶颈。
  4. 可扩展性: 随着业务的发展,ID生成服务需要能够随时横向扩展,处理更多的请求。

那么,面对这些挑战,我们应该怎么解决呢?接下来,我们就来分析一下常见的几种方案。

三、常见的分布式ID生成方案

1. 数据库自增ID(不推荐)

最直观的解决方法是使用数据库的自增ID。其实这种方法在单机环境下是非常简单的,但在分布式系统中,数据库的自增ID就不再适用了。为什么呢?

  • 数据库的自增ID通常是全局唯一的,但它是通过数据库锁来保证的,而数据库锁会成为性能瓶颈。
  • 在分布式环境中,多个服务节点并发操作同一个数据库,会导致数据库的性能下降,甚至可能出现数据库宕机的情况。

所以,虽然数据库的自增ID看起来很简单,但在高并发和分布式环境下并不是一个好的选择。

2. UUID(不推荐)

UUID(Universally Unique Identifier)是另一种常见的方案,它的优点是生成非常简单,并且不依赖于数据库。然而,UUID也有不少问题:

  • 效率低:UUID的长度比较长,通常是32个字符,存储和传输效率低。
  • 可读性差:UUID并不是自增的,生成的ID没有任何顺序,查找和排序的时候效率较低。
  • 唯一性问题:UUID依赖算法生成,理论上是唯一的,但在极端高并发的情况下,碰撞的概率还是存在的。

因此,虽然UUID不需要中心化的服务,但它并不适合高性能、高并发的ID生成场景。

3. 雪花算法(Snowflake)

雪花算法是一种非常流行的分布式ID生成方案,尤其适用于大规模、高并发的场景。它的原理是什么呢?简单来说,雪花算法生成的ID包含了时间戳、机器ID、数据中心ID、序列号等信息。

雪花算法的结构

一个标准的雪花ID是64位,通常划分为以下几部分:

  • 符号位(1位):固定为0,表示正数。
  • 时间戳(41位):精确到毫秒的时间戳,最多支持69年(2^41毫秒)。
  • 机器ID(10位):用于标识不同的机器节点,最大支持1024台机器。
  • 序列号(12位):每毫秒内最多生成4096个ID。
  • 剩余的位数:保留作为备用空间。
为什么雪花算法适用于高并发?
  • 高并发支持:雪花算法生成的ID是基于时间戳和机器ID的,确保了ID的唯一性。每个机器节点根据自身的机器ID生成不同的ID,同时通过序列号避免了同一毫秒内的重复。
  • 去中心化:每个节点自己生成ID,不依赖于中心化服务,避免了数据库的性能瓶颈。
  • 有序性:雪花算法生成的ID按时间有序,适合做排序、查询等操作。
Java实现雪花算法

接下来,我给大家演示一个简单的雪花算法的Java实现:

public class SnowflakeIdWorker {
    // 起始时间戳 (2015-01-01)
    private final long twepoch = 1420041600000L;
    
    // 各个部分的位数
    private final long workerIdBits = 5L;
    private final long datacenterIdBits = 5L;
    private final long sequenceBits = 12L;
    
    // 机器ID和数据中心ID的最大值
    private final long maxWorkerId = -1L ^ (-1L << workerIdBits);
    private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);
    
    // 各部分左移位数
    private final long workerIdShift = sequenceBits;
    private final long datacenterIdShift = sequenceBits + workerIdBits;
    private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
    
    private final long sequenceMask = -1L ^ (-1L << sequenceBits);
    
    private long workerId;
    private long datacenterId;
    private long sequence = 0L;
    private long lastTimestamp = -1L;

    public SnowflakeIdWorker(long workerId, long datacenterId) {
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException("workerId can't be greater than " + maxWorkerId + " or less than 0");
        }
        if (datacenterId > maxDatacenterId || datacenterId < 0) {
            throw new IllegalArgumentException("datacenterId can't be greater than " + maxDatacenterId + " or less than 0");
        }
        this.workerId = workerId;
        this.datacenterId = datacenterId;
    }

    // 获取当前时间戳
    private long tilNextMillis(long lastTimestamp) {
        long timestamp = System.currentTimeMillis();
        while (timestamp <= lastTimestamp) {
            timestamp = System.currentTimeMillis();
        }
        return timestamp;
    }

    public synchronized long nextId() {
        long timestamp = System.currentTimeMillis();
        if (timestamp < lastTimestamp) {
            throw new RuntimeException("Clock moved backwards. Refusing to generate id");
        }

        if (timestamp == lastTimestamp) {
            sequence = (sequence + 1) & sequenceMask;
            if (sequence == 0) {
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            sequence = 0L;
        }

        lastTimestamp = timestamp;

        return ((timestamp - twepoch) << timestampLeftShift) |
                (datacenterId << datacenterIdShift) |
                (workerId << workerIdShift) |
                sequence;
    }
}
解释:
  • workerIddatacenterId 是每个节点的唯一标识符,可以通过配置来设置。
  • sequence 是每个节点在同一毫秒内生成的ID序列号。
  • tilNextMillis 方法保证在同一毫秒内生成多个ID时,能正确递增序列号。

使用这个类,我们就能在高并发的环境下生成唯一且有序的ID了。

四、总结

通过使用雪花算法,我们不仅能保证生成的ID全局唯一,还能确保系统的高并发性能。这个方案的优势在于它无需中心化服务,完全去中心化,而且可以在各个节点独立生成ID,非常适合分布式环境。

总的来说,在分布式环境下保证全局唯一ID生成并不简单,但雪花算法提供了一种高效、可扩展的解决方案,解决了ID冲突、性能瓶颈等一系列问题。对于高并发的系统来说,它无疑是一个非常合适的选择。

希望大家在面试时碰到类似的问题时,不妨思考一下这个方案,拿下面试官的好感! 

-END-


ok,今天先说到这,老规矩,给大家分享一份不错的副业资料,感兴趣的同学找我领取。

以上,就是今天的分享了,看完文章记得右下角给何老师点赞,也欢迎在评论区写下你的留言

程序员老鬼
10年+老程序员,专注于AI知识普及,已打造多门AI课程,本号主要分享国内AI工具、AI绘画提示词、Chat教程、AI换脸、Chat中文指令、Sora教程等,帮助读者解决AI工具使用疑难问题。
 最新文章