十年历程:某三甲医院网络系统的三次改造

科技   2024-10-23 07:35   北京  
【摘要】医院信息系统的稳定运行依赖于稳定可靠的网络环境,在网络系统维护中,需持续梳理系统隐患并提出改造方案,方能为医院诊疗服务的正常开展保驾护航。在过去十多年间,某医院网络系统建设历经了从构建核心、汇聚与接入三个层级以实现院区网络覆盖,到精细化划分楼宇网络和服务器网络进行 VLAN 隔离,再到如今优化网络系统稳定性、将网关下放至汇聚层并建立汇聚层环形组网连接以提升网络系统健壮性的发展过程。本文将医院院区网络系统的这一改造历程进行梳理和总结,希望能够为同行提供有价值的参考。

【作者】Conling(笔名),某医院信息科基础设施组运维工程师。负责规划建设医院网络系统,网络安全防护架构,数据中心虚拟化集群,容灾备份等。


引言
从国家八五重点科技攻关项目实施以来,医院信息化建设发展快速,信息功能越发全面。医院内部网络系统主要服务于医院自建信息系统,其覆盖范围也逐步扩大,成为医院基础建设必不可少的一环。
医院网络系统从无到有,再到现在的规范化管理,是医院积极开展以评促建的成果。《全国医院信息化建设标准与规范》、《电子病历系统应用水平分级评价标准》、《医院信息互联互通标准化成熟度测评方案》、《医院智慧服务分级评估标准体系》、《医院智慧管理分级评估标准体系》等标准对网络系统提出了规范建设指导意见,从机房物理安全到网络系统划分网络区域进行网络隔离,以及网络系统关键节点冗余建设与资源预留,配合现场测评环节,有效推动了医院信息网络系统的高质量发展。

我院内部网络采用三套独立网络建设方案,其中医院内网、外网、设备网相互独立组网,内网与外网之间采用网闸进行隔离,少有与设备网交互的网络需求。在网络系统升级改造过程中,于2014年对门诊楼最老的一批网络设备进行了升级替换,基本建立了核心、汇聚与接入的三层网络架构,但是未明确划分VLAN区域界限,这会导致某一VLAN内部的网络广播风暴问题扩散到全院,引起网络宕机。2019年医院新大楼完成启用后,开始主动改造院区内部网络系统,对汇聚节点进行冗余化升级替换、光纤链路补全聚合组,全网生成树统一配置并启用边缘端口。2022年注重加强网络系统可用性保障,骨干光纤链路环形组网,避免因骨干链路或节点发生单点故障引起多楼宇发生网络故障。


第一阶段:医院网络系统的初期建设

在2014年的医院网络改造项目中,内网核心改采用交换机堆叠的方式,提升网络核心的可用性。相对于采用VRRP虚拟路由器冗余协议进行网关冗余,堆叠的方式具有维护简单,集中管理的优势。VRRP需要检查协商状态并确保接口VLAN放行配置无误;大范围应用后,管理难度较大;同时VRRP网关切换后可能会发生客户端网卡不正常刷新ARP表的故障,需要重新激活网卡刷新ARP表解决;在发生网络环路的故障时,VRRP的协商交互报文无法正常工作,进一步增大网络故障解决难度。VRRP的优势在于每个节点独立工作,相对于堆叠方式的一个主控管理多个交换接口板,设备性能能够充分释放,在设备版本升级时,可以逐台停机进行,无需停止整个冗余组,再就是VRRP组成员型号版本兼容性要求低,不需要是相同型号产品也可以组建冗余组。数据中心场景下,M-LAG跨设备链路聚合技术也是因为这些优势得以推广。

但在这次改造项目后,依然因为一些问题的发生导致网络系统宕机。一是未重视生成树管理,H3C交换机的STP功能默认使用MSTP方式,在新增交换机我们配置了多实例,老旧交换机与临时增加的交换机却未修改STP配置,默认采用实例0管理所有VLAN,造成生成树防环机制失效,且生成树无法正常协商工作。二是门诊楼内使用VLAN1配置多个网段的子网地址接通了整个楼的内网,按业务类型划分网段而非楼宇楼层,导致出现VLAN网段跨楼宇使用的情况,三是多条骨干链路Trunk模式接口允许所有VLAN通过,一系列操作的后果是只要发生网络环路就会导致全院网络系统宕机。网络宕机导致患者挂号、就诊、缴费等环节出现严重延误,影响了医院的正常运转和患者的就医体验,产生的影响非常恶劣。

在未引入专业网络系统管理员之前,针对网络环路最有效的处理办法就是采用拔线法,拔掉哪条骨干线路后网络恢复了,就可以判断环路发生在哪个区域,这个办法现在也非常适合小型局域网使用,特别适合监控网络的故障排查。引入网络运维工程师后,可通过交换机的接口流量数据判断异常流量的源头。

后续为了提升网络系统的稳定性,避免出现院区级别的网络瘫痪事件发生,对多处级联的网络系统进行了网络规划整治。主要动作有:

  • 新增和改造的楼宇一定采用全新规划的VLAN与网段,采用三层网络动态路由协议OSPF互联的方式完成网络连接,避免二层网络透传;

  • 执行网络改造计划,缩小现有VLAN的使用区域,将业务VLAN的使用从多个楼宇缩小到单个楼宇内。

在执行网络改造计划时,我们首先对现有 VLAN 的使用情况进行了全面梳理,然后制定了详细的缩小使用区域方案。通过与各科室的沟通协调,顺利将业务 VLAN 的使用从多个楼宇缩小到单个楼宇内,网络使用范围降低,提升了终端维护效率,也降低了网络故障的风险。

三层网络路由通讯经过多年的验证,稳定性不成问题,唯一的缺点是在削减了核心交换机性能压力的同时,无法通过核心交换机学习到区域终端的真实MAC地址,导致一些流量审计工具与准入系统的信息存在错误。虽然这些设备可以通过SNMP协议读取相关网关交换机的ARP表,但受到交换机产品与SNMP协议的性能影响,读取效率会有下降,且交换机SNMP协议还需要配合网络监控系统交互,会出现信息延迟的现象。


第二阶段:规范建设医院网络系统

2018年前后,在引入专业的网络运维工程师后,基本可以有效的降低宕机事件的故障停机事件与发生频率,网络拓扑可视化透明化成为常态。在这一阶段,《中华人民共和国网络安全法》正式施行,《信息安全技术网络安全等级保护基本要求》2.0版本生效,网络安全防护的建设受到高度重视,从网络到信息系统运行以及数据保护等层面的全方位网络信息安全建设,使网络安全防护架构脱胎于网络系统拓扑图成为重要的核心架构。

在此阶段,我们也同样进行了网络安全架构设计与安全策略落实,与网络路由系统相关的主要有三点:

  • 出口防火墙采用双机部署,使用前置的专线接入交换机连接运营商线路,通过链路聚合组+Trunk+VLAN方式,将不同线路的流量连接到两台防火墙;

  • 采用物理隔离的网闸系统作为内网与外网进行信息交互的通道;

  • 内网加入核心防火墙,采用旁路部署策略路由引流的方式进行网内流量过滤清洗;

  • 互联网出口区多台安全设备采用策略路由引流方式部署,降低网络安全设备负载压力,提升网络系统可用性。

在互联网出口与专线接入点部署防火墙进行NAT配置属于常规操作,这里主要说明一下对防火墙设备双机工作的优化。出口防火墙是网络系统中的核心节点,关系到医疗系统的缴费、预约挂号与互联网医院等系统。运营商线路只会给我们提供1个接口连接,使用双机部署的防火墙当主节点宕机时,需要人工切换线路接口到备机完成设备与线路的切换,这个流程操作下来,RTO时间一般不会短于10分钟。对于双机部署的防火墙,我们考虑将运营商线路从防火墙上摘除,连接到防火墙外面的专线交换机上,使用交换机的万兆线路连接到两台防火墙设备,每个运营商线路使用不同的VLAN相互隔离,在防火墙不再使用物理接口标识专线,而是使用VLANIF接口。这样操作以后,当防火墙进行故障切换,线路上无需进行任何改动。

在内外网核心中间部署网闸隔离相对来说是一个标准做法,网闸设备在网络传输层实现了TCP/UDP端口级别的代理通讯,明确网闸进出口的配置后一般不会有特殊问题,可以将网闸视为只允许白名单通讯的双向NAT防火墙设备。但在引入网闸后,网络安全审计设备就集体犯了难,内网大量安全风险事件的源头都是网闸,外网区大量的被攻击目标也是网闸,很难梳理有效的攻击路径,目前我们只能依靠网闸上的端口资产信息来匹配流量访问的真实业务系统信息。本文提出这个问题,也希望各位同仁分享更为行之有效的办法,还望不吝留言。

旁路引流部署核心防火墙与透明串接防火墙在核心与汇聚交换机中间是当时争议很大的一个技术问题。旁路部署方式的优点在于灵活上线与下线,防火墙升级维护时,网络系统毫无感知;防火墙宕机可无感停用策略路由自动切换回路由转发;不需要考虑物理接口数量,只需要配备高性能接口满足核心交换机流量转发吞吐即可。采用串联部署时,需要对每条物理线路单独进行透明传输,改造难度大,需要调整核心与汇聚的线路连接到防火墙再到目的设备;对设备性能要求较高,以防防火墙性能低下导致网络系统转发速度降低;接口数量占用多,每个线路要改造到防火墙上进出接口成对使用;防火墙bypass功能无法完全保证设备异常时网络系统正常转发,经测试在防火墙开关机时,bypass功能有一定的失效事件无法转发数据包。

在互联网出口区域通常需要配备防火墙、上网行为管理等设备,我们还配备了WAF、防毒墙系统,面对众多安全设备的网络通信需求,简单的做法是做成一个串联系统,每个设备都经过所有的出口流量,很浪费设备性能,且单个设备故障导致整个互联网出口网络瘫痪,故障维修难度大。其中上网行为管理只面向访问互联网的用户流量,用户流量需要经过防火墙区访问业务专线时无需阻断;WAF面向互联网侧用户与内部前置机服务器的交互,无需处理普通用户访问互联网的交互流量。

图1:流量分类分析

为了解决以上问题,我们梳理了网络通讯需求,仅终端用户流量就分类成了用户访问内部服务器、用户访问互联网、用户访问业务专线等网络访问需求,采用同样的方式对服务器流量、互联网侧返回或主动访问的流量都进行了ACL分类标记。在外网核心交换机连接网络安全设备的接口使用多条策略路由匹配ACL强制转发的方式,严格控制流量在相关接口的转发方向,形成安全设备旁路部署模式,实现精准引流转发。具体内容较复杂,可查看拓扑图了解。

图2:终端用户流量分析
图3:服务器流量分析

图4:互联网流量分析

第三阶段:个性化调优医院网络系统

时间来到2022年前后,我们开始注重防患于未然,发现问题及时整改,一切以业务可用性为主。当网络系统的配置相对完善以后,事故的发生往往来自于人为因素。施工挖断光缆、某个楼宇电力故障维修、桌面终端网络线路乱接等因素引起了多次业务停机。

为了规避单点故障导致的大范围网络停机,我们大胆尝试了楼宇汇聚层环形组网的想法。在初期的网络系统中,环路是网络系统宕机可能性最高的原因。在网络系统被深度管理,生成树真正成为了有效的防环机制后,环路就可以成为高可用性的一个保障手段。这样做的优势可想而知,楼宇拥有备用网络线路可以访问数据中心机房。但也存在一些已知缺点:

  • VLAN 在主、备线路均要放行,和传统组网模式有明显差异,在环网范围特别大、涉及到多个楼宇时,容易在备用路径遗漏VLAN,造成网络切换后部分网段不通。

  • 生成树收敛难度增大,更怕受到其他生成树的冲击。在终端层面如果发生了某个交换机上同时连接了内网与外网的交换机,会造成优先级低的生成树根节点重新收敛,全网交换机端口生成树学习状态15秒。

为了提升网络运行效率与稳定性,进而对接口级的配置应用于交换机上,生成树边缘端口配置与根端口保护配置、DHCP Snooping配置等。

最后是在组建汇聚层环网的同时,在院区内多处使用OSPF动态路由,降低网络路由配置难度,减少二层网络的覆盖范围。这样做同样提升了网络故障的排查效率,网络故障后,查看到目标网段消失,且相邻两边节点都出现接口DOWN的告警,可以快速的定位出原因大概率是对应的汇聚机房断电导致。

网络系统监控的定制化可以有效地提升故障发现和故障定位的能力。我院在监控系统的维护中,从基本的网络设备监控、拓扑图展示,到逐步增加每条专线线路的对端IP状态监测,关键外部系统的可用性监测,可以在故障发生的第一时间做出故障点判断,确认是单条专线故障还是某个运营商专项故障,或者是外部系统故障。


经验总结

初期规划经验欠缺,引入专业网络工程师较迟

在医院网络系统初期建设中,未明确划分 VLAN 区域界限,出现 VLAN 网段跨楼宇使用的情况,以及多条骨干链路 Trunk 模式接口允许所有 VLAN 通过,导致网络环路的广播风暴问题大范围扩散,引发全院网络宕机。

生成树管理不到位

网络系统前期未重视生成树管理,新旧交换机 STP 配置不一致,甚至在不同区域使用不同的防环策略,造成生成树防环机制失效无法正常协商工作。这表明在网络建设过程中,对关键技术的管理和配置需要更加严谨和统一。

未注重人为因素影响

施工挖断光缆、楼宇电力故障维修、桌面终端网络线路乱接等人为因素引起多次业务停机。这提醒我们在网络建设和管理中,需要加强对人为因素的控制,并且从网络系统技术层面加以实现,这样即使发生人为意外事件也不至于引起大范围故障。


未来展望

医院内部网络系统的建设是一个不断发展和完善的过程,需要持续关注技术发展和业务需求,积极优化网络系统,才能摘掉“业务异常一定是网络出现问题”的帽子。目前我们正在引入SDN网络系统,已进行到系统策略部署与调优工作阶段,有大量的终端兼容测试与身份认证测试工作需要在正式上线前进行,同时响应政策要求,SDN系统内IPv6网络系统也在推进部署。

总之,医院内部网络系统的建设任重道远,但通过不断努力和创新,必能为医疗事业的发展做出更大的贡献。

点击文末阅读原文,可以到原文下留言交流

觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区  “网络”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Channel/785

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章