网络设备日常维护检查单Checklist

科技   2024-12-25 14:01   河北  

网络维护或网络运维可以分为两类:日常维护故障排除。它是为了预防问题发生,尽量减少突发的故障。

为了确保网络的高效与安全,定期的网络设备日常维护检查显得尤为重要。本文整理了一份详细的《网络设备日常维护检查单Checklist》,旨在帮助系统性地进行设备检查,预防潜在问题,提升网络性能。

不同网络设备的Checklist可以参考相应的产品技术文档,下图是Checklist的整体结构,包括:设备环境检查、设备基本信息检查、设备运行检查、接口信息检查、业务检查等。

1.设备环境检查

设备运行环境正常是保证设备正常运行的前提,然而实际工作的时候,当有故障发生,并不会第一时间检查设备环境,因为设备环境相比较其他的因素来说,更加的稳定和不容易发生故障。

# Checklist01:设备环境检查表

检查项方法/工具评估标准和说明
设备摆放位置观察设备应放在通风、干燥的环境中,且放置位置牢固、平整。设备周围不得有杂物堆积。
机房温度状况观察/温度计通常要求机房长期工作环境温度:0~45℃;短期工作环境温度:-5~55℃
机房湿度状况观察/湿度计通常机房的长期工作环境相对湿度应在5%RH~85%RH之间,不结露;短期工作环境相对湿度应在0%RH~95%RH之间,不结霜。
机房内空调运行是否正常观察/空调空调可持续稳定运行,使机房的温度和湿度保持在设备规定范围内。
清洁状况观察所有项目都应干净整洁无明显尘土附着。注意防尘网的清洁状况,及时清洗或更换,以免影响机柜门及风扇框的通风、散热。
散热情况观察设备正常工作时,要求保持风扇正常运转(清理风扇期间除外),自关闭风扇会引起设备温度升高,并可能损坏单板。不要在设备子架上通风口处放置杂物,还应定期清理风扇的防尘网。
线缆布放观察电源线与业务线缆分开布放。电源线布放整齐、有序。业务线缆布放整齐、有序。    线缆标签清晰、准确,符合规范。
接地方式及接地电阻是否符合要求观察一般要求机房的工作地、保护地、建筑防雷地分开设置,因机房条件限制,可采用联合接地。尤其对于户外使用的设备,设备接地非常重要,如果未接地容易造成富击损坏。
供电系统是否正常观察/电压表要求供电系统运行稳定。直流额定电压范围为-48VDC~-60V。交流额定电压范围为100V~240V

2.设备基本信息检查

设备基本信息检查包括软件版本检查、License检查、设备存储空间等信息。

# Checklist02:设备基本信息检查表

检查项方法评估标准
设备运行的版本display version单板PCB版本号、软件版本号与要求相符。
检查软件包display startup检查下述系统文件名是否正确:
当前启动大包名;下次启动大包名;备份大包名;配置、许可文件、补丁、当前启动文件名和下次启动文件名。
License信息display  license
display license state
查看GTL License文件名、版本及配置项是否符合要求,确认是否需要升级。    Masterboard license state项为NormalMasterboard license state项为DemoTrial时,确认License在有效期内。
检查补丁信息display  patch-information补丁文件必须与实际要求一致,建议加载华为公司发布的该产品版本对应的最新的补丁文件。
补丁必须已经生效,即补丁的总数量和正在运行的补丁数量一致。
检查系统时间displayclock系统时间需要与网络管理服务器的时间保持一致(误差不超过5分钟)。
检查Flash/SD卡/CF卡空间dir  flash、
dir slave#cfcard
Flash/SD卡/CF卡里的文件都必须是有用的,否则请在用户视图下执行delete/unreserved命令删除。
信息中心display info-centerInformationCenter项为enabled
检查配置正确性display  current-configuration通过查看当前生效的配置参数,验证设备配置是否正确。
检查debug开关display  debugging设备正常运行时debug开关应该全部关闭。
检查配置是否保存compare configuration当前的配置和下次启动的配置文件内容一致。

3.设备运行状态检查

在进行设备运行状态检查时,重点关注设备硬件的运行状态,如板卡、电源、风扇、温度、CPU、内存等。一般设备上都 设置了告警灯,通常硬件故障都会导致告警灯亮(具体状态因产品而异)。因此,也可以通过现场观察发现设备运行异常 状态。

对于板卡、电源、风扇等部件的运行状态,应遵照厂商的相关指导进行判断,有必要时联系厂商进行指导。如果确认为硬 件故障,可以联系供应商处理(由于不同项目、不同设备的维保方案不同,有的硬件故障可直接联系厂商更换,有的则需 要联系供应商协助处理)。

# Checklist03:设备运行状态检查表

检查项检查方法评估标准
单板运行状态display device重点关注单板在位信息及状态信息是否正常。
单板OnlinePresent;单板PowerPowerOn
单板RegisterRegistered;单板AlarmNormal
设备复位情况display  reset-reason、display reboot-info通过查看复位信息(包括复位时间、复位原因),确认无非正常复位。
设备温度display  temperature、display environment各模块当前的温度应该在上下限之间。
风扇状态display fanPresent项为YES表示正常。
电源状态display powerState项为Supply表示正常。
FTP网络服务端口display  ftp-server不使用的FTP网络服务端口要关闭。
告警信息display alarm all无告警信息。如果有告警,需要记录,对于严重以上告警需并立即分析并处理。
CPU状态display  cpu-usage各模块的CPU占用率正常。如果CPU占用率如果超过**80%**,建议重点关注。
内存占用率display  memory-usage内存占用情况正常,如果Memory Using PercentageIs超过**60%**时需要关注。
日志信息display logbuffer、display trapbuffer不存在异常信息。
主用板/备用板的备份状态display switchover  state主备板同时存在时,要同时有主备板的显示状态信息。倒换完成,设备开始正常工作后,主用板需要显示为realtime or routine backup表示正常。

4.设备接口内容检查

网络设备通过接口来交换数据报文。因此,接口的信息非常重要。接口状态异常会影响到网络的功能。

接口如果出现大量错包,并且在短时间内不断增加,通常是由于链路(包括物理接口)的问题造成的。

# Checklist04:设备接口内容检查表

检查项检查方法评估标准
接口错包display interface业务运行时,要检查接口有无错包,包括CRC错包等。
接口协商模式display  interface接口协商模式正确,两边接口要一致,不能有半双工模式。
接口配置display  current-configuration interface接口的配置项合理,如接口双工模式、协商模式、速率、环回配置等。
接口状态display interface  brief接口的Up/Down状态满足规划要求。接口的收发流量是否过大?(**长期超过70%**)
PoE供电display  poepower-state interfaceinterface-type interface-numberPoE供电状态正常,PortpowerON/OFFON的接口,其Port power statusDelivering-power

5.业务运行状态检查

业务运行状态主要是指网络协议的运行状态。

# Checklist05:业务运行状态检查表

检查项检查方法评估标准
MAC地址表信息display mac-addressMAC地址表信息正确
VLAN信息display  vlan查看所有VLAN的基本信息
路由表信息display ip routing-table具有默认路由或者其他精确路由,便于故障时候可以远程定位     对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异)
OSPF邻居状态
IS-IS邻居状态
BGP邻居状态
display  ospf peer     display isis peer     display bgp peerOSPF邻居状态:邻居状态StateFul或者2-Way  
IS-IS邻居状态:邻居状态StateUp
BGP邻居状态:邻居状态StateEstablished
VRRP状态display  vrrp
display vrrp statistics
备份组中的设备的VRRP状态State不能同时为Master
MSTP状态display  stp brief指定端口和根端口的STPStateFORWARDING

# CHECKLIST总表

Python运维实践
Python运维实践,专注于互联网技术的总结与交流,内容涉及Python自动化运维、Django框架、园区网络技术、linux云计算、系统架构及网络空间安全等知识的实践与分享。
 最新文章