【作者】彭华盛,10年+的金融领域运维工作,期间负责参与运维组织、流程、工具建设,包括重大业务系统与数据中心工程性项目实施,标准化工作流程构建,平台工具体系的规划与研发、数字化转型研究与实施相关等,对金融领域的运维有较全面理解。
一、背景
二、运维人员能力画像的构成
岗位能力通常分为硬技能和软技能。硬技能指完成工作所需的特定知识和技能,这些技能容易量化,可通过学习和培训在一定时间内获得。而软技能较为抽象,体现在解决问题的方式上,难以量化,往往需要个人的悟性和洞察力。运维岗位因工作场景的多样性,对硬技能的需求尤为广泛,通常在某个领域具备专家级的硬能力,比如在数据库领域、中间件领域、网络领域,或企业特定业务线或某个重要业务系统的应用逻辑与架构等。然而,由于技术发展迅速,即使是领域专家也需不断更新技能,以适应行业变化。例如,在小型机盛行的时代,掌握IBM AIX技能的人才极为抢手,但随着技术演进,这些人才已经转型。同样,数据库、中间件等通用技术平台发展,新系统的上线,以及新的管理决策变革等,也会影响对人才能力的新要求。
SRE理念的推广为运维人员的能力发展提供了新的方向。它强调运维人员需具备软件工程的知识和技能,从软件工程的角度深入理解系统架构和应用逻辑。这种视角可能为企业运维决策者在团队转型上提供了指导。在 《从大厂招聘岗位“窥探”行业SRE发展趋势》中,也能看到一些关于大厂对于SRE能力要求:
更加强调以业务价值导向的稳定性保障
聚焦稳定性保障的架构韧性与非功能性需求
聚焦主动性的事前风险防范
聚焦高效应急
聚焦变更风险管控,提前介入软件设计
聚焦利用自动化提升软件交付速度与安全操作
聚焦IT资产效能管理,降低成本
然而,尽管众多企业正致力于将传统运维岗位转变为SRE岗位,但现有人力资源的能力限制使得完全模仿Google或行业领先企业对SRE人员的要求变得具有挑战性。企业需要进行多方面的探索和创新。在本文中,我将尝试梳理并阐述当前运维岗位所需的三个关键能力要素:
融入企业内部管理机制,具备软件生命周期的全局观
建立可扩展性的知识体系,具有极强的适应性学习力
具备综合性的软技能,应对复杂多变化的运维场景问题
三、 融入企业内部管理机制,具备软件生命周期的全局观
提升企业内部的影响力。当前,尽管行业里充斥着各种前沿的管理理念和技术平台,但企业在转型时还需量体裁衣,结合自身的优势和内部管理机制,挑选出最适合自己的发展路径。对于运维岗位的能力要求,每个组织都应该根据自身的实际情况来设定标准,而不是盲目追求领先的运维模式。另外,由于运维组织常被视为成本中心,要扩大运维在企业内部的影响力,获得其他部门的认可,需要聚焦解决企业内部实际的问题。积极主动参与到企业内部的软件生命周期管理,加强跨团队的协作,有助于提升运维的影响力。
向左持续优化。运维很多工作场景对时效性要求极高,且单个岗位需要负责的系统、应用、服务、主机等数量在持续的扩大,运维岗位需要寻求一种变革方法去解决这个要求更高、工作量更大,但人员规模保持基本不变的挑战。以往,很多运维组织通过引入各种运维平台来提升运维效率与质量,但只能缓解痛点,不能根治。运维融入软件生命周期能够确保运维团队从设计之初就考虑到可维护性、可扩展性和安全性等因素,从而在软件部署后能够更有效地进行故障排查、性能调优、安全加固和版本升级等工作。这种软件生命周期管理思维不仅有助于减少运维风险,提高系统的稳定性和可用性,还能促进开发、测试和运维团队之间的紧密协作。即,运维需要具备跨部门的协作,以及软件工程师思维、产品设计思维等能力,与开发、测试、产品等部门保持密切沟通,共同推动系统的持续优化和改进。通过融入软件生命周期的全局观,运维人员能够更全面地了解业务需求和技术架构,为系统的稳定运行提供有力保障。
向右提升效能。我在上一篇关于《运维左移》时提到关于运维的四个价值“加强稳定性保障、提升用户体验、提升资产效能、支撑业务创新”。向右提升效能,重点是推动运维人员在“用户体验、资产效能、业务创新”方面的意识与能力培养与学习。比如,负责终端业务系统的SRE是否可以推动终端菜单访问、APP首页一二级菜单访问、客户反馈问题等性能与体验信息的分析?团队内各职能线的人员是否有成本优化意识与容量评估的能力?
四、 建立可扩展性的知识体系,具有极强的适应性学习力
在快速变化的技术环境下,运维人员需要具备强大的学习力和适应能力,不断学习新技术、新理念和新方法,以应对不断变化的运维挑战。一方面,企业内部的通用技术平台、应用系统的技术架构升级、新的业务逻辑迭代、管理上新的工作要求,以及行业新技术的变革等层出不穷,运维团队作为稳定性保障的最终责任部门,运维人员需要关注技术的安全性和稳定性,确保新技术在引入过程中不会对系统造成负面影响。另一方面,站在一线技术工程师角度,新技术的更迭会导致个人擅长且受重视的能力作用下降,站在职业生涯角度看,运维人员需要了解新技术对企业业务的影响和潜在价值,以便及时将新技术应用到企业的IT系统中。
建立主动学习的知识体系。面对信息爆炸、干扰事项多、琐事多、没有连续的时间等挑战,组织或个人都都需要建立知识体系,把碎片化的信息有规则的串联在一起,形成我们看问题、理解问题的思维模式。比如《运维数字化转型》书中提到的“组织、流程、平台、场景”为一起的平台化体系模式是组织层面的一种知识体系;对于职能团队的应用、基础、网络、DBA、通用平台等职能团队也有其技术层面的知识体系。知识体系能够形成适合自己的套路,将外部新知识点最适当的系统化、结构化的组成在一起,形成可扩展性的能力提升模型。
五、具备综合性的软技能,应对复杂多变化的运维场景问题
在复杂多变的IT环境中,运维人员不仅需要具备过硬的技术能力,还需要拥有 综合性的问题分析、临断决策、项目管理、情绪管理、沟通协作等软能力。
问题分析能力:运维岗位有很多被动性的问题需要解决,比如在故障处理中,需要运维人员具备良好逻辑思维、结构化思维,能够有条理的进行问题的定位、根因分析、影响评估、多事件影响面的排序等;在问题解除后的复盘,需要能够从过程分析、根因定位、风险防范、技术手段、流程机制等角度进行评估。
临断决策能力:临断决策能力是在紧急情况下快速做出决策的能力,这对于保障系统的稳定运行至关重要。在紧急情况下,运维需要迅速做出决策并采取相应的行动,以确保系统的稳定性和业务的连续性。虽新技术正在推动技术平台代替专家经验和灵光一现的作用,但是现实中还有很多场景下需要运维专家临时决断的能力。临断决策能力与咨询分析师、解决方案专家、架构师顾问等不断,其需要扎根于企业内部的扎实专业能力的积累,才能提出一个快速而有效的解决方案。
项目管理能力:由于运维需要,则有助于他们更好地规划和管理运维项目,确保项目按时按质完成,项目管理能力有助于运维人员更好地规划和管理运维项目,确保项目按时按质完成。另外,项目管理能力还要求运维人员具备组织研发、测试、架构、业务、厂商等角色解决线上问题的协调能力。
软件工程能力:SRE强调运维人员要深入到系统逻辑中,并具备利用技术平台解决琐事的能力。软件工程是当前运维人员需要持续提升的能力,其有助于运维人员更好地理解软件开发流程和质量保障方法,为系统的稳定运行提供更好的支持。
情绪管理能力:运维人员琐事比较多,缺少连续性的思考时间,且这种现场在技术骨干中更加明显。同时,运维还具有其他影响情绪的工作,比如生产故障对时效性要求高,变更发布时间窗口是在晚上,流程管控比较严格,值班时间长注意力高度紧张等。所以,运维人员需要具备情绪管理能力,在突发事件下要有较强的搞压能力。
服务能力:IT服务管理是很多企业运维组织的管理模式,其要求运维以“服务”方式交付,运维需要具备将工作抽象为服务,并建立SLO与SLI。另外,服务能力也要注有 责任心,运维要始终围绕系统的可靠性,主动想尽办法推动各种工作的落实。
六、小结
随着信息技术的不断发展和变化,运维人员的角色和能力要求也在不断变化。通过培养具备全流程的全局观、适应性的学习力和综合性的软技能,运维人员可以更好地适应技术环境的变化和企业的需求,为企业的IT系统稳定运行和业务发展提供有力保障。
欢迎点击文末阅读原文到社区阅读和讨论交流 觉得本文有用,请转发或点击“在看”,让更多同行看到
资料/文章推荐:
https://www.talkwithtrend.com/Topic/4549
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场