问题描述 某日客户反馈工行总行至一网点大客户业务丢包,PING包包长15000字节,丢包率在1%以上。 网络拓扑 工行总行站点使用HUAWEIOSN1500设备,其他站点为OSN3500,版本为18.50P01 总行OSN1500通过EGS4单板和工行总行迈普路由器对接,EGS4单板配置EVPL汇聚各个网点的业务,每个网点带宽为2*VC12,中间链路为HUAWEISDH设备,组网方式为MSP、SNCP,终端链路使用R厂家3500E设备通过STM-1/4光口和HUAWEI设备对接,网点配置R厂家3107等盒式设备通过FE电口和网点迈普路由器对接,连接关系如下: 工行总行迈普路由器—(EGS4)工行OSN1500(SL16)—传输L—传输C—传输E(SLQ1)—(STM-1)R厂家3500E(STM-1)—R厂家3107(FE)—网点迈普路由器 其中工行OSN1500设备位于工行总行,传输L位于本地网子网,传输C和传输E位于城域网子网,R厂家3500E设备和传输E设备在同一机房,R厂家3107位于网点。 无异常告警信息。
处理过程 1、链路误码导致丢包 2、对接路由器端口故障 3、带宽不足 4、R厂家网点设备或汇聚EGS4单板故障 5、以太网封装对接问题 6、其他网络配置
根因 HUAWEIOSN1500设备时钟配置不同步
解决方案 1、通过网管查询性能,并未发现链路存在误码,而且同一路由其他业务正常,排除误码原因导致丢包。 2、配置一条路由相同、两端使用不同以太网端口的业务进行测试,丢包率依然在1%以上,可以排除工行路由器故障。 3、增加带宽到4*VC12,经过测试丢包率依然在1%以上,故可以排除带宽不足原因导致的丢包。 4、调整EGS4单板以太网配置,和其他正常运行的业务对调绑定时隙和VC trunk,经过测试依然丢包,使用同型号设备替换R厂家营业网点设备,经过测试依然丢包,初步怀疑设备对接不匹配问题。 5、在和R厂家对接的传输E设备上增加EFS4以太网单板,测试EFS4和R厂家设备对接情况,分别配置1口到工行总行的EPL业务,2口到R厂家设备的EPL业务,采用分段测试,测试结果为2段都没有丢包现象,根据表面现象初步判断使用EFS4和R厂家对接没问题,使用EGS4对接存在丢包,但是由于EGS4单板之前已经对调过VC trunk,而且其他营业网点也配置同样设备型号,又可以反向证明设备对接不存在问题。 6、由于之前该客户网络发生过R厂家设备时钟模块批次问题导致的故障,客户要求R厂家研发现场支撑问题分析,并且从总部带来一台其他型号设备,使用新设备替换后经过测试没有丢包,此时可确定R厂家新、老设备处理对接数据时存在差异,为了彻底定位根因,配置一条从传输L至传输E的VC12级别的业务,下在传输E设备一空闲光口,R厂家研发使用仪表对该光口进行测试,发现有指针调整,测试10分钟调整计数为1000,R厂家研发答复该数值已经超出R厂家老设备处理能力,所以会导致设备丢包,另外在传输E站点查询该条业务15分钟性能值,指针调整计数为1300多块左右,所以证实存在指针调整。由于跨子网的业务比较少,而且其他业务只是从城域网穿通,所以未受影响。 7、查询HUAWEI设备时钟配置,传输L设备位于本地网,时钟源为BITS外时钟,传输C和传输E设备位于城域网,时钟源为传输C内部时钟,两个子网的时钟源级别不一致,更改时钟配置,使传输C和传输E跟踪传输L,通过仪表测试指针调整结束,重新测试原始业务,测试6个小时未发现丢包,最终丢包问题解决。
建议与总结 基于分不同子网管理的传输网络,一般只关注同一子网的时钟配置,没有成环、互跟、有保护即可,但是子网间的时钟级别往往被忽视,此案例就是不同子网时钟级别不同导致的业务丢包,建议每个子网都配置BITS时钟源,即可实现每个网元跟踪相同级别时钟源。
|