云消息队列 Kafka 版 V3 系列技术创新
Cloud Native
云消息队列 Kafka 版 V3 系列基于阿里云强大的基础设施,对 Apache Kafka 进行了深度重构和优化,从而构建了端到端的竞争力。其核心技术创新点包括:
利用先进的容器服务技术,显著提升了容器部署的密度和效率,大幅降低了运维成本。 依托于阿里云飞天盘古读写强一致的高性能分布式文件系统,实现了存算分离架构下 RTO(恢复时间目标)的理论最优值。 基于弹性 RDMA 网络,相较于传统的 TCP/IP 协议栈,结合 SMC-R 和 eRDMA,实现最高约 30% 的时延减少和最高约 5% 的 CPU 资源节省。 基于 AJDK 分代无暂停 GC 和 synchronized 兼容的协程,大幅度降低了长尾延迟。 基于 Alibaba Cloud Linux 3 操作系统中的 Page Cache(文件缓存)限制功能,解决了因 Page Cache无限制使用而导致的稳定性问题。
云消息队列 Kafka 版 V3 系列核心优势
Cloud Native
经济 - 成本效益
云消息队列 Kafka 版在成本上具有显著的竞争优势,与 Apache Kafka 相比,其定价平均低约 30%,在某些特定场景下,成本降幅可达 80%。如此显著的经济效益,得益于云消息队列 Kafka 版在架构层面一系列的关键优化和创新。
细粒度按量计费:云消息队列 Kafka 版 Serverless 系列提供了细粒度的计费模式,支持完全按使用量付费,而不是以云服务器 ECS 实例的粒度进行计费。
计算单副本架构:云消息队列 Kafka 版基于高性能分布式文件系统提供的分布式强一致性读写语义,实现了 Kafka 计算层的一写多读能力,Leader 写入数据,Follower 强一致可读,计算层无需多副本复制就能实现系统高可用。减少 60% 的复制流量同时也降低 CPU 使用率,大幅提升计算节点利用率。
存储智能分层架构:闪存介质支持低延迟、高吞吐,微妙级 IO 延迟,磁盘介质支持低成本,温数据高性价比存储,OSS 支持海量数据长期归档存储。通过全链路 CRC 校验保证数据不丢不错,通过纠删码/多副本保证可靠性,通过软硬件协同优化发挥效能,持续释放技术红利。
使用成本优化:云消息队列 Kafka 团队有长时间研发和运维经历,积累了大量的实战经验。结合客户的业务模型,提供 Kafka 最佳实践,客户端和服务端都有 50% 的成本优化,避免不必要的开支。同时制定容灾方案以防止数据丢失或服务中断,帮忙客户用好、用深产品。
稳定 - 稳定可靠
高可用 HA:存算分离架构下,计算层不再需要 ISR 这样重量级的副本复制协议,我们设计了一种轻量 HA 方案,优化了元数据管理机制、降低了系统复杂度。Follower Replica 仅作为计算资源的热备存在,只保有少量必要的元数据,仅需要处理少量的元数据变化请求,进一步提高计算层的处理效率。这种架构下,新节点能够快速接管数据并提供服务,为极致弹性打下扎实基础。
多可用区容灾:云消息队列 Kafka 版支持多可用区容灾体系,并达到了秒级 RTO(恢复时间目标)和零 RPO(恢复点目标)的高标准。即使发生整个可用区不可用级别的灾难性故障,系统也能在不丢失数据的情况下秒级恢复,确保数据的持续可用性和业务的连续性。
自动化巡检:云消息队列 Kafka 版的自动化巡检系统支持秒级巡检系统运行状态,及时发现异常情况。自动化运维手段减少了人为操作的错误概率,提高了系统的敏捷性和响应速度。
报警机制:云消息队列 Kafka 版具备完善的报警功能,涵盖多种潜在的故障类型和性能问题。无论是数据积压、节点故障,还是流量异常,报警系统都能迅速通知运维人员,使其能够及时采取措施,从而进一步增强了系统的稳健性和可靠性。
性能 - 高吞吐、低延时
高吞吐:飞天盘古是阿里云自研的高性能分布式文件系统,解决了超大规模下数据不丢不错和高可用的难题,兼顾更加稳定可靠的存储能力、更大的容量和更高的性能等优点,广泛部署在全球数十个大型数据中心,服务阿里云上数百万的客户,覆盖互联网、政企、金融、制造等全行业。飞天盘古是阿里云关键的创新技术之一,满足数字经济对海量存储、快速存储和稳定存储的需求,并入选世界互联网领先科技成果。
低延时:存储低延时,用户态协议栈、闪存介质和高性能 RDMA 网络支持百微秒级平均延迟,毫秒级长尾延迟。计算低延时,针对平均延迟计算层无复制流量可以充分降低网络吞吐以避免拥塞,针对长尾延迟,使用主流编程语言领域最顶尖的内存管理技术,即新一代分代无暂停 GC(generational pauseless GC),大大降低了系统长尾延时。网络低延时,基于 SMC-R 技术(Alibaba Cloud Linux 3 提供的一套完全兼容 Socket API、基于 eRDMA 的共享内存实现的高性能内核网络协议栈),Kafka 无需代码改造即可享受到 eRDMA 技术带来的网络性能红利。相较于传统 TCP/IP 协议栈,云消息队列 Kafka 版使用 SMC-R + eRDMA,能带来最高约 30% 的时延减少和最高约 5% 的 CPU 资源节省。
弹性 - 灵活弹性
容器化部署:阿里云容器服务通过硬件结构体系、操作系统、分布式调度配合,实现了面向 SLO 的资源精细化管理和弹性调度:VPA,弹性,超卖等调度技术,提升了资源弹性能力和资源的利用率。节点资源自动弹性结合调度能力提供了丰富的资源弹性能力:块资源弹性,resource limit 阈值弹性,定时弹性等。通过调度和节点弹性技术大幅度提升了容器部署密度和部署效率。
自适应弹性:云消息队列 Kafka 版 Serverless 系列在 20 MB/s - 1 GB/s 支持无感弹性;1 GB/s - 3 GB/s 支持秒级弹性;3 GB/s 以上支持分钟级弹性。客户可以依据业务流量的趋势,通过弹性能力极致地平衡成本与性能,从容且高效地应对突发流量高峰。
秒级定时弹性:对于超大规模集群,云消息队列 Kafka 版 Serverless 系列支持脉冲的定时弹性,允许预设弹性策略,在流量高峰期预留足够资源确保关键业务的持续性和稳定性,在低峰期则减少资源使用以节约成本,不仅提升了资源利用率,还降低了运维复杂度。
云消息队列 Kafka 版 V3 系列应用案例
Cloud Native
云消息队列 Kafka 版已服务数万家企业,广泛应用于互联网、金融、汽车/出行、在线教育等 20 多个行业领域。以下是两个具有代表性的案例,展示了云消息队列 Kafka 版 V3 系列在实际业务中的应用价值。
曹操出行借助 ApsaraMQ for Kafka Serverless 提升效率,成本节省超 20%
更多详情请查看:
曹操出行借助 ApsaraMQ for Kafka Serverless 提升效率,成本节省超 20
道旅科技借助云消息队列 Kafka 版加速旅游大数据创新发展
更多详情请查看:
欢迎点击阅读原文了解关于云消息队列 Kafka 版产品的更多信息~