网络维护或网络运维可以分为两类:日常维护和故障排除。它是为了预防问题发生,尽量减少突发的故障。
为了确保网络的高效与安全,定期的网络设备日常维护检查显得尤为重要。本文整理了一份详细的《网络设备日常维护检查单Checklist》,旨在帮助系统性地进行设备检查,预防潜在问题,提升网络性能。
不同网络设备的Checklist可以参考相应的产品技术文档,下图是Checklist的整体结构,包括:设备环境检查、设备基本信息检查、设备运行检查、接口信息检查、业务检查等。
1.设备环境检查
设备运行环境正常是保证设备正常运行的前提,然而实际工作的时候,当有故障发生,并不会第一时间检查设备环境,因为设备环境相比较其他的因素来说,更加的稳定和不容易发生故障。
# Checklist01:设备环境检查表
检查项 | 方法/工具 | 评估标准和说明 |
---|---|---|
设备摆放位置 | 观察 | 设备应放在通风、干燥的环境中,且放置位置牢固、平整。设备周围不得有杂物堆积。 |
机房温度状况 | 观察/温度计 | 通常要求机房长期工作环境温度:0~45℃ ;短期工作环境温度:-5~55℃ 。 |
机房湿度状况 | 观察/湿度计 | 通常机房的长期工作环境相对湿度应在5%RH~85%RH 之间,不结露;短期工作环境相对湿度应在0%RH~95%RH 之间,不结霜。 |
机房内空调运行是否正常 | 观察/空调 | 空调可持续稳定运行,使机房的温度和湿度保持在设备规定范围内。 |
清洁状况 | 观察 | 所有项目都应干净整洁无明显尘土附着。注意防尘网的清洁状况,及时清洗或更换,以免影响机柜门及风扇框的通风、散热。 |
散热情况 | 观察 | 设备正常工作时,要求保持风扇正常运转(清理风扇期间除外),自关闭风扇会引起设备温度升高,并可能损坏单板。不要在设备子架上通风口处放置杂物,还应定期清理风扇的防尘网。 |
线缆布放 | 观察 | 电源线与业务线缆分开布放。电源线布放整齐、有序。业务线缆布放整齐、有序。 线缆标签清晰、准确,符合规范。 |
接地方式及接地电阻是否符合要求 | 观察 | 一般要求机房的工作地、保护地、建筑防雷地分开设置,因机房条件限制,可采用联合接地。尤其对于户外使用的设备,设备接地非常重要,如果未接地容易造成富击损坏。 |
供电系统是否正常 | 观察/电压表 | 要求供电系统运行稳定。直流额定电压范围为-48VDC~-60V 。交流额定电压范围为100V~240V 。 |
2.设备基本信息检查
设备基本信息检查包括软件版本检查、License检查、设备存储空间等信息。
# Checklist02:设备基本信息检查表
检查项 | 方法 | 评估标准 |
---|---|---|
设备运行的版本 | display version | 单板PCB 版本号、软件版本号与要求相符。 |
检查软件包 | display startup | 检查下述系统文件名是否正确: 当前启动大包名;下次启动大包名;备份大包名;配置、许可文件、补丁、当前启动文件名和下次启动文件名。 |
License信息 | display license display license state | 查看GTL License 文件名、版本及配置项是否符合要求,确认是否需要升级。 Masterboard license state 项为Normal 。Masterboard license state 项为Demo 或Trial 时,确认License 在有效期内。 |
检查补丁信息 | display patch-information | 补丁文件必须与实际要求一致,建议加载华为公司发布的该产品版本对应的最新的补丁文件。 补丁必须已经生效,即补丁的总数量和正在运行的补丁数量一致。 |
检查系统时间 | displayclock | 系统时间需要与网络管理服务器的时间保持一致(误差不超过5分钟)。 |
检查Flash/SD卡/CF卡空间 | dir flash、 dir slave#cfcard | Flash/SD卡/CF 卡里的文件都必须是有用的,否则请在用户视图下执行delete/unreserved 命令删除。 |
信息中心 | display info-center | InformationCenter 项为enabled 。 |
检查配置正确性 | display current-configuration | 通过查看当前生效的配置参数,验证设备配置是否正确。 |
检查debug 开关 | display debugging | 设备正常运行时debug 开关应该全部关闭。 |
检查配置是否保存 | compare configuration | 当前的配置和下次启动的配置文件内容一致。 |
3.设备运行状态检查
在进行设备运行状态检查时,重点关注设备硬件的运行状态,如板卡、电源、风扇、温度、CPU、内存等。一般设备上都 设置了告警灯,通常硬件故障都会导致告警灯亮(具体状态因产品而异)。因此,也可以通过现场观察发现设备运行异常 状态。
对于板卡、电源、风扇等部件的运行状态,应遵照厂商的相关指导进行判断,有必要时联系厂商进行指导。如果确认为硬 件故障,可以联系供应商处理(由于不同项目、不同设备的维保方案不同,有的硬件故障可直接联系厂商更换,有的则需 要联系供应商协助处理)。
# Checklist03:设备运行状态检查表
检查项 | 检查方法 | 评估标准 |
---|---|---|
单板运行状态 | display device | 重点关注单板在位信息及状态信息是否正常。 单板 Online 为Present ;单板Power 为PowerOn ;单板 Register 为Registered ;单板Alarm 为Normal 。 |
设备复位情况 | display reset-reason、display reboot-info | 通过查看复位信息(包括复位时间、复位原因),确认无非正常复位。 |
设备温度 | display temperature、display environment | 各模块当前的温度应该在上下限之间。 |
风扇状态 | display fan | Present 项为YES 表示正常。 |
电源状态 | display power | State 项为Supply 表示正常。 |
FTP网络服务端口 | display ftp-server | 不使用的FTP网络服务端口要关闭。 |
告警信息 | display alarm all | 无告警信息。如果有告警,需要记录,对于严重以上告警需并立即分析并处理。 |
CPU状态 | display cpu-usage | 各模块的CPU 占用率正常。如果CPU 占用率如果超过**80%**,建议重点关注。 |
内存占用率 | display memory-usage | 内存占用情况正常,如果Memory Using PercentageIs 超过**60%**时需要关注。 |
日志信息 | display logbuffer、display trapbuffer | 不存在异常信息。 |
主用板/备用板的备份状态 | display switchover state | 主备板同时存在时,要同时有主备板的显示状态信息。倒换完成,设备开始正常工作后,主用板需要显示为realtime or routine backup 表示正常。 |
4.设备接口内容检查
网络设备通过接口来交换数据报文。因此,接口的信息非常重要。接口状态异常会影响到网络的功能。
接口如果出现大量错包,并且在短时间内不断增加,通常是由于链路(包括物理接口)的问题造成的。
# Checklist04:设备接口内容检查表
检查项 | 检查方法 | 评估标准 |
---|---|---|
接口错包 | display interface | 业务运行时,要检查接口有无错包,包括CRC 错包等。 |
接口协商模式 | display interface | 接口协商模式正确,两边接口要一致,不能有半双工模式。 |
接口配置 | display current-configuration interface | 接口的配置项合理,如接口双工模式、协商模式、速率、环回配置等。 |
接口状态 | display interface brief | 接口的Up/Down 状态满足规划要求。接口的收发流量是否过大?(**长期超过70%**) |
PoE供电 | display poepower-state interfaceinterface-type interface-number | PoE 供电状态正常,PortpowerON/OFF 为ON 的接口,其Port power status 为 Delivering-power |
5.业务运行状态检查
业务运行状态主要是指网络协议的运行状态。
# Checklist05:业务运行状态检查表
检查项 | 检查方法 | 评估标准 |
---|---|---|
MAC地址表信息 | display mac-address | MAC 地址表信息正确 |
VLAN信息 | display vlan | 查看所有VLAN 的基本信息 |
路由表信息 | display ip routing-table | 具有默认路由或者其他精确路由,便于故障时候可以远程定位 对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异) |
OSPF邻居状态 IS-IS邻居状态 BGP邻居状态 | display ospf peer display isis peer display bgp peer | OSPF 邻居状态:邻居状态State 为Ful 或者2-Way IS-IS 邻居状态:邻居状态State 为Up BGP 邻居状态:邻居状态State 为Established |
VRRP状态 | display vrrp display vrrp statistics | 备份组中的设备的VRRP 状态State 不能同时为Master |
MSTP状态 | display stp brief | 指定端口和根端口的STPState 为FORWARDING |
# CHECKLIST总表