一线实践揭秘:腾讯、蚂蚁、携程、B站的可靠性工程与 AIOps 之旅 | QCon

科技   2024-09-10 14:38   辽宁  

在技术迅猛发展的今天,软件系统的稳定性和可靠性已成为互联网公司的生命线。近年来,多家知名互联网公司遭遇的软件系统故障,不仅影响了用户体验,也暴露了在可靠性工程和业务连续性规划方面的不足。这些事件促使服务提供商、用户及整个行业开始深刻反思,并加强在这些领域的投入和改进。

软件系统的稳定性问题不仅给用户带来不便,还可能导致企业声誉和经济损失。随着对服务质量要求的提高,线上可靠性工程逐渐成为互联网公司的核心竞争力之一。

线上可靠性工程是代码发布到生产环境之后的技术运营过程,是代码产生使用价值的环节,很多公司的 SRE 工程师会围绕这个环节展开各类工作,例如 SLI/SLO 管理、故障应急、用户体验优化、618 之类的重大节点技术保障、容量管理及成本优化、混沌工程、综合算力调度、业务全生命周期工具建设等。

如果线上可靠性工程出现问题,那么前期在应用产品设计、研发测试、发布变更等环节的所有投入都可能变得毫无意义。

在 10 月 18 日 -19 日的 QCon 全球软件开发大会(上海站) 上,我们将为您围绕可靠性工程展开分享。我们特别邀请了腾讯 IEG 技术运营部助理总经理、专家工程师党受辉,他将为我们的《线上可靠性工程》专题提供专业的内容指导。作为腾讯游戏 SRE 的负责人,党受辉在研发工具链、运维自动化、线上可靠性等领域拥有丰富的实践经验,此外,《线上可靠性工程》专题已经上线了四场精彩的分享。以下是这些分享的详细介绍:

精彩分享 1

在全球网络环境下,用户体验的稳定性与系统可靠性紧密相关。网络延迟多变、成本计算复杂、部署节点选择困难等问题,直接影响用户对线上服务的感知。

我们很荣幸邀请到腾讯 IEG 技术运营部 SRE 总监杨军,他负责腾讯游戏 SRE 团队能力建设,全球 SRE 技术服务体系建设,全球玩家用户体验监测与优化,注重实打实的落地方案。他将以《全球网络环境下的用户体验优化实践》为题,分享腾讯游戏 SRE 团队如何利用 AIOps 能力,通过数据工程建立用户体验评价体系,从而优化全球网络环境下的用户体验。

在本次演讲中,杨军将深入解析全球网络的复杂性,腾讯游戏在全球网络优化中的智能选择场景,并通过数据工程验证优化效果。同时,他还将分享该方案在非游戏业务中的应用实践,以及对未来的展望。

通过杨军的分享,你将了解 SRE 团队在全球网络环境下的优化策略,学习如何利用数据模拟和验证来提升用户体验,进而将这些经验应用于互联网行业的其他场景。

精彩分享 2

线上故障管理是企业稳定性保障的核心之一,但如何构建一套完整的故障应急体系?谁来负责线上稳定性?应急过程如何评价?这些问题长期困扰着技术团队。

我们有幸邀请到蚂蚁集团 SRE 技术专家刘凯宁,他有着丰富的业务稳定性保障经验,曾深度参与过容量、资源、压测、限流、预案、监控、应急、变更、资金安全、容灾演练等领域的业务布防和能力建设。他将以《蚂蚁故障应急全流程体系构建及应用实践》为题,分享蚂蚁集团在应急管理上的深入探索。

刘凯宁将通过真实的故障案例,介绍蚂蚁集团在故障应急中的组织阵型、平台能力和评价体系,详细分析故障的全生命周期管理,并展示 AIOps 和大模型在应急定位中的应用实践。通过这次分享,你将了解如何定义和分类故障、构建应急体系,并探索 AI 大模型在应急领域的落地应用,为企业线上稳定性保障提供新的思路和实践经验。

精彩分享 3

随着 AI 技术的发展,AIOps 已成为 IT 企业提升运维效率的重要手段,但落地过程中往往面临数据质量和平台架构的挑战。

携程云原生研发总监周昕毅将带来《AI 驱动下的可观测平台架构升级实践》的主题分享,周昕毅拥有 15 年以上云平台研发和运维管理相关工作经验。目前负责携程云 IAAS 基础设施的研发和运维管理、大数据基础平台和可观测性平台建设。

他将分享携程在内部可观测平台架构升级中的工程实践,涵盖 Metrics 和 Logging 数据治理,以及 AI 工具在平台运维效率提升中的应用。周昕毅将详细介绍携程在监控和日志数据的治理过程,如何通过架构升级助力 AIOps 落地,并通过实际案例展示 AI 工具如何提升平台运维工作效率。

通过他的分享,你将学习到如何保障可观测性数据的质量,为 AIOps 提供坚实的数据基础,从而更好地应对系统监控和问题排查中的挑战。

精彩分享 4

在成本优化和效能提升的背景下,如何确保企业服务的高可用性和业务连续性成为一大挑战。哔哩哔哩基础架构部平台工程负责人刘昊,他目前专注于技术风险领域的工程化落地,在应急响应、变更防控、混沌工程、风险治理和运维数据资产等方面有丰富经验,他将在《B 站轻量级容灾演练体系构建与业务实践》演讲中,分享 B 站在容灾演练体系构建中的探索与应用,助力业务多活、大促保障和研发质量交付。

刘昊将带大家了解 B 站在新形式下的稳定性挑战,以及如何通过轻量级容灾演练体系,从组织搭建、运营机制到产品能力,逐步实现稳定性保障的目标。他还将结合实际业务场景,展示如何通过容灾演练确保业务的高可用性。通过此次分享,你将了解 B 站的容灾演练体系设计思路和实践经验,为其他企业提供稳定性保障的新思路。

活动推荐

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理  17310043226 咨询。

InfoQ
为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
 最新文章