故障处理系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。
1、故障处理步骤
该处理流程是网络维护人员所能够采用的排错模型中的一种
网络故障解决的处理流程是可以变化的,但故障处理有序化的思维模式是不可变化的
2、下面我们以一个故障处理的实例来学习如何应用这些步骤。
1)网络拓扑
用户网段广播包过多造成该网段的服务器FTP业务传输速度慢
该案例组网如上:某校园网的三个局域网,其中10.11.56.0为一个用户网段,10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。
2)故障现象描述
要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象
用户反映“日志服务器与备份服务器间备份发生问题。”这就是一个不完整不清晰的故障现象描述。因为这个描述没有讲述清楚下列问题:
这个问题是连续出现,还是间断出现的?
是完全不能备份,还是备份的速度慢(即性能下降)?
哪个或哪些局域网服务器受到影响,地址是什么?
正确的故障现象描述是:在网络的高峰期,日志服务器10.11.56.11到集中备份服务器10.15.254.253之间进行备份时,FTP传输速度很慢,大约是0.6Mbps。
3)搜集相关信息
搜集有助于查找故障原因的详细信息:
向受影响的用户、网络人员或其他关键人员提出问题;
根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关display和debug命令等;
测试性能与网络正常情况下的记录进行比较。
如上述案例,可以向用户提问或自行收集下列相关信息:
网络结构或配置是否最近修改过,即问题出现是否与网络变化有关?
是否有用户访问受影响的服务器时没有问题?
在非高峰期日志服务器和备份服务器间FTP传输速度是多少?
通过该步骤,我们收集到了下面一些相关信息:
最近10.11.56.0网段的客户机不断在增加;
129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps,与日志服务器间进行FTP传输时速度慢,只有0.6Mbps;
在非高峰期日志服务器和备份服务器间FTP传输速度正常,大约为6Mbps;
4)经验判断和理论分析
利用前两个步骤收集到的数据,并根据自己以往的故障处理经验和所掌握的的知识,确定一个排错范围。通过范围的划分,就只需注意某一故障或与故障情况相关的那一部分产品、介质和主机。
如上述案例,我们现在能够确定是一个网络性能下降问题。那么,是网段10.11.56.0的性能问题?是中间网络的性能问题?还是10.15.0.0网段的性能问题呢?
根据129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps这一事实,我们可以排除掉10.15.0.0网段的性能问题。
5)各种可能原因列表
该步骤列出根据经验判断和理论分析后总结的各种可能原因。
如上述案例,可能原因如下:
网段10.11.56.0的性能问题,其原因可能为 :
日志服务器A的性能问题
10.11.56.0网络的网关性能问题
10.11.56.0网络本身的性能问题
中间网络性能问题,主要是到网络10.15.0.0的路由不是最佳路由
6)对每种原因逐个实施排错方案
根据所列出的可能原因制定故障排查计划,分析最有可能的原因,确定一次只对一个变量进行操作,这种方法使你能够重现某一故障的解决办法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢?
7)循环排查过程
可能原因1:网络10.11.56.0到网络10.15.0.0的路由不是最佳路由。
制定的方案:在10.11.56.0网段的网关上使用“tracert 10.15.245.253”命令,发现探测报文返回时长仅为10ms,表明该可能原因并不是造成故障的原因。我们进入循环排错过程。
可能原因2:日志服务器A的性能问题。
制定的方案:测试同一网段的主机C和日志服务器间的FTP传输速度,是6Mbps,正常。可见问题与服务器A无关。
可能原因3:10.11.56.0网络的网关性能问题。
制定的方案:测试主机C和备份服务器B间FTP传输速度是7Mbps,正常。排除了网关因素,因为B、C在不同网段上而速度正常。
可能原因4:10.11.56.0网络本身的性能问题。
制定的方案:在网段10.11.56.0的以太网交换机上使用命令“show mac”,输出如下
在网段10.15.0.0上的以太网交换机上使用命令“show mac”输出如下:
由此得知,网段10.11.56.0上广播包和单播包比例为1:3,确实太大了。
再次询问用户该网段主要运行的业务是什么,而得出了故障最终原因如下:10.11.56.0是普通用户网段,由于业务原因每个用户需要发送大量广播包和多播包,随着近期越来越多的用户接入该网络,在这个网段上的服务器需要花费更多的资源来处理越来越多的广播和多播包,因此其服务的传输速度自然减慢。
这是一个网络布局不恰当的问题,需要重新安排服务器的位置,将服务器移动10.15.0.0网段后,故障解决。