深圳鼎为网络科,一家从事华为Optix OSN3500,Optix OSN2500,Optix OSN1500设备销售的公司,致力于对超长距离及多业务数据传送网络需求的客户提供质量有保证的传输设备,本公司整机及单板型号齐全,价格合理,期待新老客户来电咨询!

你的位置:首页 > 新闻动态 > SDH技术

OSN7500 ECC子网过大导致多个网元主控上报chip_abn告警

发布时间:2018-12-2 23:08:31浏览次数:资料来源:www.szdingwei.net

问题描述

某局现网同一环上有5个OSN7500设备GSCC上报chip_abn告警,告警参数:0x01 0x00 0x01 0x01 0xff;主机软件:5.21.16.13。每次持续十几秒至2分钟之内不等,间隔十几分钟上报。更换主控后(与原主控板版本一致),新换上去的主控板又产生了chip_abn告警。


处理过程

1、经过统计上报该告警的网元主控板使用的温度芯片DS18S20为同一批次,因此更换其中一个网元的主控板(版本一样,但不是同批次生产),但新更换的主控板很快又产生了chip_abn告警,排除批次温度芯片故障因素

2、通过对上报chip_abn告警网元主控的工作温度进行采集,发现其工作温度分别为16.5,19,28.5,30,28且查看现场环境未发现异常因素,因此排除环境因素

3、由于所用的版本5.21.16.13为主流发货版本,且其他地方都没有上报此告警,独只有该局的上报告警,因此排除软件版本问题

4、换下的单板在实验室一直没有重现故障,最后通过研发分析,联系到该局这几个站点同时有ECC的Qufull丢包现象,而ECC丢包是因大数据量DCC通信引起的,而CPU的ECC处理肯定时全负荷运行,ECC数据处理占用大量的CPU资源。研发在实验室用SmartBits来对网管以太网口进行大数据量的冲击,模拟DCC大数据量通信,CPU全负荷处理通信数据,然后对此进行验证,现象重现。

5、因此定位为子网过大,导致产生大流量的ECC通信和额外开销,抢占了温度巡检的这样的低优先级任务,造成软件模拟温度芯片DS18S20的时序不准,从而检测到错误的温度值,导致chip_abn告警上报

6、划分ecc子网,观察发现告警消失,故障解决


根因

ECC子网过大导致多个OSN7500网元主控上报chip_abn告警


解决方案

重新划分ecc子网,建议不超过64


本章相关技术资料SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售


销售Optix OSN7500_产品报价_销售厂家_产品特性_产品描述_深圳鼎为网络科技SDH传输设备销售有限公司
供应Optix OSN7500_故障处理_安装调测_技术指标_技术参数_深圳鼎为网络科技SDH传输设备销售有限公司