给大家分享一次故障排查的事。这个案例是比较早遇到过的。一个五层楼的办公楼,分为办公网和业务网共两套网。五层办公楼中全是PC电脑和业务终端,没有服务器SERVER。业务网使用路由器使用OSPF协议通过运营商的专线与其他分支进行网络通讯和数据传输。路由器下联交换机,业务网的交换机并不多,数量很少。但办公网的机构没有使用路由器,而是使用TRUNK二层协议与数据中心的办公网核心交换机进行互联,互联是通过ISP的裸光纤专线。办公楼与数据中心不在一个物理位置上,这样办公楼与数据中心的办公网使用了一个地址段192.168.1.X,统共253个IP地址。整个五层的办公楼的业务是以办公网为主的,只有一楼全是业务网!。数据中心的业务网和办公网是物理隔离的,办公楼的业务网和办公网也是物理隔离的。大概的架构就是这样的。
网络架构简单,为了省钱没有设置路由器作为网络转发,全靠二层设备,五层办公楼的小机房就在楼顶,各个楼层也没有接入交换机,全是通过各个楼层办公室的信息点直接接入到五楼办公网交换机上的,同时,因为用户数量多,各个办公室串节了大量的HUB和8口小交换机。五楼的路由器甩出一条网线直接到一楼办理业务的区域,那个区域有一台48口的交换机,连接一楼所有做业务的电脑。这样的架构风险还是非常大的。
有一次就发生问题了,一楼的业务部门打电话告诉我,说他们一楼所有人的电脑进行业务处理的时候,非常慢,业务系统的登录界面有时候能打开,有时候根本就打不开,所以业务根本没法办理,接完电话后,又接到其他楼层打来的电话,说办公网的业务系统时好时坏。当时自己认为是办公楼的路由器和交换机都出现了问题,我带了路由器和交换机的备件赶往办公楼。其实这种概率非常小,应该在二层方面考虑才对。在赶往现场的路上我还专门让ISP进行排查,ISP回复说远程链路没有出现过告警和信号衰减的情况,我让ISP的工程师也赶去现场,去检查局端专线接入站点的情况。我到了现场后先到一楼放置设备的位置看了下,一楼放置两台交换机,一台业务网的,一台是办公网的,交换机端口的工作指示灯闪的很厉害,我当时就想到了可能是广播风暴,当时这个办公楼打电话报故障人特别多,感觉自己也有些慌了。自己跑到五楼机房上,想查找楼上安装和使用HUB的接入点,五楼机房上的交换机也同样快速的闪着工作指示灯。由于我前期把安装了HUB的接入线缆都粘贴了标签,因此就开始在五楼小机房的办公交换机上拔网线,凡是有HUB的办公室接入线缆全拔掉了,但交换机上的工作指示灯毅然快速的闪动着,看来问题不在楼上,而是在楼下!我又急急忙忙来到一楼,此时收到ISP工程师的电话,他们ISP局端专线接入站点没有问题。我跑到一楼交换机旁边,因为那几年手里的工具只有测线仪,也不会使用WIRESHARK等抓包软件,更没有网络故障定位仪,只好用最笨的方法,一根网线一根网线的从交换机拔掉,我认为是办公网的中出现广播风暴,但是业务网的交换机工作指示灯也在快速闪烁,我这才意识到有可能两个交换机串一起了,造成环路了,但一想也不对呀,串在一起怎么可能引发环路呢?而且两网是物理隔离的。我就在办公的接入交换机上拔一根网线,看一眼工作指示灯,因为一楼业务用的电脑很多,办公网电脑只有五六台,很快办公网交换机上的网线全部拔除,但业务网接入交换机的灯仍然闪烁的很快,交换机和交换机之间没有串联或者环路的连接!!我把办公网交换机上的线缆全部还原回去,又开始一根一根地拔掉了所有业务网交换机上的网线,至到找到那个引发故障的网线。我用测线仪找到跟网线的物理位置,结果找到这台电脑的网线还接在一个八口的HUB上,而且这个HUB上还插着一个办公网的网线。。。。。,电脑上网卡坏了,不停地发送广播包,这个网卡接在HUB上,而HUB上被人吴插了办公网的网线,从而造成两个网串节在一起,导致整个五层楼的办公楼的网络都被影响了。
如果有网络探测仪器,或者使用WIRESHARK抓包软件,故障可以能被更快准确速地判断出来。如果合理划分IP子网,并配合使用桌面管控软件,再从管理上严格控制网线的私自接入,就不会发生这种事情了。发生这次故障的时间比较久了,当时的设备,还有管理方式都是比较落后,拿出来与大家分享,权当回忆吧。
写的不好,大家不要见笑,我就是为了来拿台历的。。。。