华为SDH传输设备单板温度查询的问题
问题描述
中国北方某局点OSN1500多块单板上报TEMP_OVER告警,结合告警参数和设备工作环境的问题,断定该告警是单板温度过低而引起的,下面讨论一下NG-SDH设备的温度检测机理以及遇到的一些问题。
现网版本:5.36.18.50
告警信息
TEMP_OVER
处理过程
查看当前告警中TEMP_OVER告警参数如下:
2929679 12 TEMP_OVER MJ start 2011-12-01 04:52:16 None 0x01 0x00 0x01 0x02 0xff
3000350 80 TEMP_OVER MJ start 2011-12-24 04:59:15 None 0x01 0x00 0x01 0x02 0xff
结合当前OSN1500产品手册(V100R008C02)中,对于SDH类单板,由参数4表示单板工作温度越限的类型,对于交叉类单板,由参数1表示单板工作温度越限的类型,其中0x01表示单板工作温度越上限,0x02表示单板工作温度越下限。那么对于三合一板应该看参数1,工作温度上限越限,显然和实际情况相反,查询的当前单板的温度cfg-get-bdtemp:80,单板当前问题为-2°C。
BOARD-TEMP
BID TEMP-NOW
80 -20
Total records :1
所以产品手册中工作温度越限类型看参数1是错误的,经过研发确认,对于交叉类TEMP_OVER告警参数只需要看参数4,参数1为固定值,OSN3500(V100R008)和OSN7500(V100R008)对于参数的解释也是有误的,其他版本比如R11的产品文档在告警参数解释上有变动,只需要关注参数1。
2、NG-SDH设备温度上报的机制,单板内部有温度芯片,可以实时检测单板的温度,其他单板和主控板是通过背板通信的方式,将实时温度上报给主机,主机结合当前网元的所有单板上报温度中的最大值,记录到温度性能事件里面,所以只有主控板才能查询到单板温度的性能事件(bdtempmax,bdtempmin,bdtempcur),其他单板查询出来的是激光器的温度,该温度比单板问题高。
3、同一单板的不同版本对于温度查询支持情况是不同的,例如SSN2PQ1 VER.C(含温度芯片)和SSN2PQ1S VER.C(不含温度芯片),前者属于早期的版本,后者是降成本的产物,所以前者支持温度查询和温度告警的上报,后者不支持该功能。具体情况可以通过cfg-get-bdtemp:bid,根据返回的结果来判断该单板是否含温度芯片。
4、温度告警是单板内温度芯片查询单板实时温度,和温度告警门限值进行比较,如果越限就上报TEMP_OVER告警。当然告警门限值可以通过命令行修改:cfg-set-bdtempth:Bid, temphighgate, templowgate;门限值是有范围限制的,比如上门限在60-80,一些数据单板(SSN1EAS1/SSN1EAS2/SSN1EMS4/SSN1EGS4)是80,其他单板是70,缺省值是65。一般不建议将温度门限设置超过70。
根因
无
建议与总结
一般情况下TEMP_OVER是因为温度过高而上报的告警,但是也有温度过低上报该告警的情况,为了消除此告警,请尽量保证设备工作环境的温度处于正常条件(0~45度之间)。
- 上一篇:Optix OSN2500网元恢复root默认用户和密码 2018-5-22
- 下一篇:OSN1500B MSTP业务ping时延过大 2018-5-21