liux:西安市第55中学中控大面积离线故障分析报告

西安市第55中学中控大面积离线故障分析报告

一、 故障背景

2018年5月13日,我司接到陕西安顺公司反馈如下问题,并与2018年5月16日到达现场处理,安顺公司反馈内容如下:

2018年3月19日

九年级3班时钟乱跳重启中控恢复正常。

2018年3月27日

协助艾工排查时钟乱跳、空调控制器掉线问题。由于时钟乱跳的偶发性当天并未见到乱跳现象。只对掉线空调控制器故障做了处理。并将服务器版本从R4.4.5升级到R5.0.5,中控固件升级到4.6.4,面板升级到4.6.3,空调控制器升级4.3.19。

2018年4月15日

与段金林对所有设备进行故障排查(中控、时钟、空调控制器)对掉线空调控制器进行重新连接重新学码除七年级6班教室后面插板坏未连接其余全部连接可使用。

柏老师反映七年级1、3班,八8班,九年级1、8班,高一1、5、6班,高二3、4班,高三5、6班出现控制面板按开关键无任何反应死机现象,与艾工及徐工沟通判断为面板与中控接口协议问题,处理方法:将七、八、九三个年级面板固件降级为4.1.1观察是否还有死机现象。

2018年4月23日

柏老师反映中控大面积开机无反应及时钟乱跳严重影响教学。到现场后中控软件显示所有设备掉线初步怀疑交换机故障。与学校柏老师沟通后了解到学校老师上网正常,因学校老师办公电脑网络与中控在同交换机,故排除交换机有问题。在总控室用sniff搜索发现可以搜到中控设备,并且在中控软件上中控显示在线,但随后关闭sniff后中控又陆续全部掉线。将此现象拍视频发给艾工并与艾工沟通怀疑为网络风暴或网络环路。将此结果反馈柏老师,柏老师在学校网络监测软件监测并未发现异常且学校老师办公电脑可以正常上网认为网络无问题是设备问题。此时故障无法解决处理上报黄总,下午技术经理袁小松赶来共同查找问题,发现将中控网线拔掉中控面板按开机可以正常开机使用,在此基础上还是有个别中控需要断电重启后才能正常开机。为了让老师可以尽快使用设备正常教学故将所有设备网线拔掉。

2018年4月26日

柏老师反应高二2班按中控面板无反应,老师自行断电重启后可以使用。

2018年5月9日

学校决定上报灞桥教育局后拟做出退货决定。

二、 故障归纳

1、时钟乱闪 2、中控大面积面板按键失灵

三、故障定位

1、发现局域网内有大量的服务器发出的udp组播报文(该报文用于向中控对时、向中控发送开关机等命令), 正常情况下,5.0版本的服务器是每12秒向所有中控下发一次对时报文,中控将报文中的时间和时钟时间对比,如果超过2s时差,立即进行校准时间。但目前网络环境中的对时报文每秒有50次左右,也就是说服务器发出的报文被大量打环复制。

2、将服务器对时服务终止,udp风暴继续。

3、将服务器网线拔掉。udp风暴任然继续。

4、说明目前网络风暴中的UDP对时报文,并非由服务器实时发出,而是服务器之前发出的报文(甚至是一个小时前)不断的在局域网中循环,中控收到这些大量的已经过去式的udp对时报文,就对时钟进行校准时间,比如19点30分,中控收到了广播风暴中的19:19分的对时报文,就会立马把时钟校准到19:19分,这就是时钟跳闪,不准的原因。

5、由于中控网口要在1s内处理大量的对时信息,预计1s内要启用50次左右的对时校准报文,导致中控内耗巨大,无法给开门狗“喂食”,进而导致中控反复重启,重启的过程中,操作面板无法与中控通信,也就会导致面板失灵。

三、锁定环路发起设备

通过分析报文,组播风暴发出者的网卡名称:Tp-LinkT_1e:13:1C ,MAC地址为:50:FA:84:1E:13:1C。

经过推测,很有可能是一个TP-Link的交换机或者无线路由器发生环路导致

四、环路排查

1、拔掉汇聚交换机24口网线,网络风暴消失。

2、经过排查汇聚交换机的24口网线对端为1楼楼层接入交换机。

3、将1楼楼层接入交换机所接网线逐个拔插,发现拔掉通往阅览室的网线后环路消失。

根据上述3点可以推断,环路源就在阅览室,且在阅览室的一台TP-Link的交换机上面。

五、锁定环路发起设备

进入图书阅览室后,发现阅览室有一台接入交换机,这台接入交换的出口就是1楼楼层交换机,阅览室内的2台办公电脑及20台上机电脑最终汇聚到该交换机,网络拓扑如下:

六、结论

借阅室TP-Link无线路由器接了2根来自借阅室交换机的网线,形成环网,最终形成网络组播风暴。

1、网络组播风暴,导致中控不断给时钟对时(已经过去式的报文),造成时钟乱闪。

2、网络组播风暴,导致中控1S内处理大量的对时信息,预计1s内要对比50次左右的对时校准报文,导致中控内耗巨大,无法给开门狗“喂食”,进而导致中控反复重启,重启的过程中,操作面板无法与中控通信,导致面板失灵。

解除无线路由器环网后,上述故障解除。

liux/西安市第55中学中控大面积离线故障分析报告.txt · 最后更改: 2025/09/08 22:51 (外部编辑)