【摘要】对不同类型、不同品牌、不同架构的存储实施全面整体的管理是企业运维质效的重要方面,本文揭示了目前企业实施存储全面管理体系过程中存在的问题,并对构建存储全面一体化管理的建设路径以及建设价值进行分析,希望能为企业建设全面的存储管理体系提供参考。
【作者】珺祎,某国有银行系统架构师
企业数字化转型背景下,对内部运维一体化、自动化、智能化的建设要求也相应提高。其中,对不同类型、不同品牌、不同架构的存储实施全面整体的管理是企业运维质效的重要方面,是保障业务稳定运行、确保企业数字化转型顺利的重要一环。本文首先通过对目前企业实施存储全面管理体系过程中存在的问题进行说明,继而对构建存储全面整体的管理体系建设以及建设的价值进行分析,从而为企业进行全面的存储管理体系提供理论指导。
随着分布式存储、超融合、云原生等技术的不断加速应用,IT架构日益复杂化,引入的存储管理平台和工具越来越多,传统存储的管理模式已经无法适应企业运维转型的创新发展。在此背景下,实施全面整体的存储管理体系建设,实现存储的统一监控、容量管理、故障管理、灾难恢复管理、性能管理能力,从而提高整体生产系统的运维效率,是运维团队面临的挑战。下面以作者所在金融机构为例,列举当前存储全面管理存在的几点问题:1. 新型分布式架构的引入,需要和传统集中式模式有机组合随着业务发展,企业用户对业务的规模、灵活性、扩展性都提出了更高的要求。金融机构传统的“小型机+SAN存储”模式无法满足业务发展。与此同时,在存储领域中,超融合、分布式、全闪存等新一代存储快速增长并已经成为业界主流,“分布式存储+超融合”正在逐步推广应用。面对不同技术栈、不同架构的存储,大部分情况下需要按照不同品牌和类型进行管理,无法有效和当前传统SAN存储形成统一管理。面对集中式和分布式存储共存的现状,当某些业务出现访问超时等问题,通常需要网络、存储、数据库多条线同时定位,特别是对于偶发性的超时类问题,交易过程涉及的应用系统多、路径长,需要从存储层面和其他硬件层智能化联合运维,这就对各存储系统间数据互通、基础设施的快速交付、敏捷投产上线和高效转化产出提出了新的诉求。3. 存储的多架构模式存在散、乱情况,高可用性仍有待提升在分布式存储和微服务架构下,应用和技术组件类型和数量繁多,运维颗粒度更加细微,架构关联关系复杂。生产事件精准定位和快速恢复的难度增大,给筑牢安全生产底线带来了巨大挑战。同时,日趋严格的监管形势也对数据中心的业务连续性管理和网络安全防护能力都对存储的整体管理提出了更高要求。
针对上述三方面痛点问题,探索如何从存储的统一监控、容量和性能管理、灾难恢复管理方面,实施全面统一的管理,提升企业内部运维智能化。1.以CMDB为原型,打造多源统一的存储整体监控体系当前阶段,企业内部大多都是集中式和分布式存储并存的现状,在监控体系中,全面适配分布式池化存储存在一定困难,与此同时,考虑到各类系统的高可用性,分布式存储系统还处在持续进化的过程中,稳定性和可靠性还需要进一步完善。所以,现阶段传统存储所支撑的“稳态”业务和以分布式存储为代表的存储架构所支撑的新型“敏态”业务将互为区分、相互融合的共生局面。针对线上业务迅猛发展,业务新老架构并行的情况,以企业内部存储的配置管理库(CMDB)资源作为关系数据、从全局角度,构建可视化、标签化的存储系统全貌特征,从传统集中式存储、分布式存储、虚拟化及私有云等环境中实时、完整获取监控数据,从而解析建立实时统一的存储管理视图,展现出存储的架构模式、依赖关系、运行质量、发生的告警,实现对不同存储的容量性能实施全面监控、实时故障告警、快速的故障定位。在传统存储容量和性能指标管理体系中,往往采用人工经验的固定阈值方式,通过事后预警来达到运维目标,使得业务系统故障持续时间相对较长。但是对业务敏捷交付、运维灵活性和可持续性而言,这种监控方式无法提供快速高效的故障诊断能力。尤其是目前分布式存储的架构中,通常是将SSD固态盘通过软件定义方式整合为存储池,而SSD固态盘为存储系统提供了数倍于传统HDD磁盘的高I/O性能,通过智能化异常指标的检测和趋势预测机制,通过存储基线算法、指标预测算法,实现指标监控智能化管理及事前预测监控,并从各种不同的数据维度进行汇聚分析,从而构建高可用、高容量、可扩展、云适配、接口标准、管理便利的容量及性能管理体系。对于核心生产系统中的账务类交易,尤其是在线数据库所运行的存储环境,建设同等规模备份存储集群,应用数据实时在存储集群中同步,保持备份存储与当前应用系统所在存储的数据同步。一旦主存储出现故障,在规定的RTO时间内迅速切换至双活存储,保障热点数据的一致性。对于某些数据仓库、数据湖类的离线数据应用,建设同等或较小规模集群,主集群数据定期同步至备份集群。主集群出现故障,使用定期备份数据,在规定的RTO时间以内恢复数据和业务。对于某些异构类和不同品牌的存储,不建设备份集群,以低成本方式将数据通过CDP工具,以文件形式备份到不同存储中,集群故障后,修复或新建集群,在规定的RTO时间恢复数据和业务。不同企业可根据自身不同应用及组件使用情况,选择不同的备份策略。一般建议使用温备/热备为主,冷备为辅的策略选择。对于账务类等支撑高并发实时查询的场景,使用热备方案实现实时/准实时同步;对于数据仓库等应用对应的数据,使用温备,一旦需要进行故障切换,可满足业务所需的T+1数据支持,不对业务造成损失和影响。而涉及跨存储平台、跨业务区域的场景,则采取数据冷备的方式定期进行数据备份,最大程度降低数据损失。
通过对存储全面一体化的管理,同时将存储纳入企业一体化运维管理中,通过对运维数据进行统一的管理来实现运维系统和工具的大数据整合,缩短问题发现和处置的时间,使运维的工作效率得到提升,提升业务价值,为企业创造更多的价值,实现安全高效有序的可持续发展。
觉得本文有用,请转发、点赞或点击“在看”,让更多同行看到
欢迎关注社区 “存储”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Channel/179
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
*本公众号所发布内容仅代表作者观点,不代表社区立场