基于大数据分析的通信网络告警优化策略应用

粤移监控不业余2019-03-14 16:49:13

摘要:针对当前通信网络中告警量大、有效性低的问题,本文基于海量告警的大数据分析基础上,研究了通信告警原理、上报机制、及智能关联特性等内容,设计了告警优化整体模型,制定了告警屏蔽、告警抑制、告警智能关联压缩的策略,并通过部署实际网络验证了该模型和策略的有效性。


1、引言

通信网络规模增长迅速,据相关数据显示某省15年LTE基站数已突破10万,加上其他如传输、宽带等设备,网络规模庞大;而且,当前通信网络拓扑关系复杂,同一根源故障将会影响多个网元,并产生大量告警。这将导致:第一、有效信息被海量垃圾告警湮没;其次,产生的告警信息冗余度大,增加重复筛选甄别工作量;第三,单条告警作为一个信息孤岛,不能反映告警之间的逻辑关系,无法满足快速故障定位的要求。因此,面对上述挑战,除了不断提高监控人员业务素质及监控系统智能化水平之外,从源头上扼制告警风暴、提高告警有效性成为当前告警监控的关键环节。

2、告警定义及分类

告警是对某个特定事件的通知,通常由被管资源的实际状态与期望值之间的差异或具有特定功能的某个被管资源终止提供服务引起。根据文献[1],可从多个维度对告警进行分类,对告警的归类有益于系统考虑告警共性并制定相应的优化策略。根据通信网络特点,本文从影响面维度将告警分为无需关注告警、闪断震荡类告警、关联告警等3类。

(1)无需关注告警::一般不影响业务使用,对用户无感知,维护优先级低、恢复时间要求不高。

(2)闪断振荡类告警:具有时间相关性的告警,闪断告警由时间短且持续闪断故障引起,生存期和静默时间都很短且反复出现,而振荡告警除了具有持续时间短、反复出现外还表现出一定时间内(振荡周期)大量爆发的特点。

(3)关联告警:具有空间相关性的告警,即由同一故障引起的在不同网元上产生的告警。

3、告警优化策略

通信告警优化主要在网元设备侧、厂家网管侧和综合网管侧三个层级实施,如图1所示。在设备侧通过研究告警触发机制和上报机制实施优化;在厂家网管侧设计跨网元的细粒度的告警关联机制;在综合网管侧对多源异构告警进行标准化处理,并进行跨专业、跨厂家的告警优化。考虑到集中管理分布处理的原则,本文选择前移优化策略,落地设备侧和厂家网管侧,将优化后的新告警通过北向接口上报至综合网管统一呈现和管理。

                 
          图1 告警优化实施节点

针对上述告警分类,本文设计了一种基于告警屏蔽、告警抑制和告警关联的统一告警处理优化模型。整体框架如图2所示。


图2 告警优化整体模型

(1)告警屏蔽:针对无需关注告警,通过充分评估后,直接屏蔽产生的告警。

屏蔽规则较为简单,在厂家网管侧关闭目标告警上报北向的通道即可,此方案能保证“不对网元上报真实性产生任何人为影响”,减少垃圾告警上报同时降低综合网管的负荷。若在网元侧屏蔽,告警产生后即被丢弃无法在日志中记录,日后无法查看;若在综合网管侧通过过滤器屏蔽则是治标不治本,没有从根本上减少上报北向的告警量,加重网管系统分析量。由于告警直接被屏蔽,所以无法在综合网管上获取该告警任何信息,因此对于重要故障的告警、业务类告警、软硬件类告警不建议采用该方案。

(2)告警抑制:针对闪断振荡类告警,对持续时间短的闪断告警采用延迟抑制,对反复振荡的告警采用振荡抑制。

闪断告警可理解成根据延迟时间窗口判决是否执行告警抑制的规则,可在厂家网管侧实施。如图3所示,通过设置延时门限Td对告警进行抑制,当异常事件持续时长小于Td时,不产生告警;否则,上报含有异常信息的告警。


图3 闪断告警产生与恢复原理

振荡抑制原理为统计一定时间窗口(振荡周期)内某监控对象的某个闪断告警数量,若数量未达到预设振荡门限则以闪断抑制方式丢弃,若数量达到门限则产生一个与原始告警不同的衍生告警,称为振荡告警,而原始告警不上报。振荡告警的恢复同样是统计振荡恢复周期内的告警数量,若数量低于恢复门限,则告警消除,即振荡告警的恢复至少需经过一个振荡恢复周期,图4中灰色部分即为震荡告警的生命期。震荡告警与频闪告警的区别在于它将暂态的告警整合为一个具有统计意义的告警输出,而不是简单的丢弃暂态告警,其产生需要设置三个值,即闪断告警涉及的延时门限Td、震荡周期T和震荡门限Counts。

图4 震荡告警产生与恢复原理

规则设置举例:统计某某地市网络2015年1月-6月某告警时长数据得到时长累积分布图,如图5所示能清楚地呈现该告警在线时长的区间分比, 5秒内消除的告警占比已经达到90.44%。从实际网络安全性考虑,将采样时间值(延时门限t)设置为5秒,理论上压缩该类告警90%左右。


图5 告警时长累积分布图

(3)智能关联:通过分析网络拓扑、主从告警、伴随告警等确定告警根源,提炼关键信息,抑制冗余告警,只上报根源告警或者衍生告警,其原理如图6所示。

假设网络由节点1、节点2、节点3、节点4构成,空间上4个节点之间的连接关系用图中红色和蓝色的连线表示。在节点1发生故障的场景下,与此相关联的其他节点会受到影响,对端节点2,节点3,节点4也可能会产生表征节点1故障的告警。若节点1产生告警上报网管,则其他关联节点将产生伴随告警,产生冗余告警信息;若节点1无告警产生上报网管,则直接从节点1无法判断业务受损情况,而其他节点的单一伴随告警可能无法准确表征网络中的实际故障,需要人为整合网元间的相关性和告警时间的一致性等关键信息协助定位故障对象,通过智能关联只上报节点1故障导致的告警即可。


图6 智能关联示意图

关联规则举例:某设备厂家LTE基站“SCTP链路故障告警”日均告警量偏大,原因是某一基站出现SCTP链路故障后,与其相连的其他基站也会上报SCTP链路故障告警,若故障基站连接网元较多,则会出现告警风暴风险。若将根源告警站点衍生新告警“同类告警数量超出门限”,同时抑制其他站点“SCTP链路故障告警”,并将根源告警站点的关键信息如IP地址、业务类型、对端网元等体现在衍生告警正文中,即可压缩过滤大量“SCTP链路故障告警”。

4、策略应用效果

以某省实际网络告警为大数据分析基础,部署上述的告警优化策略,获得了良好的告警降量效果,提升了告警对生产实际的价值。

(1)屏蔽与抑制效果

图7为某省分批对某厂家部署告警屏蔽和告警抑制规则后的告警趋势图。告警优化规则部署分三个阶段,试点阶段主要开启对垃圾告警的屏蔽规则,第二阶段针对某个频闪告警实施抑制方案,第三阶段则针对2类频闪告警实施抑制,截至30周时该厂家的日均告警相对优化前已下降56.8%,告警优化降量效果明显。


图7 实施告警屏蔽与抑制效果图

(2)智能关联效果

按照告警智能关联基本原则优化某省某厂家无线侧告警,并将优化前后的告警量、告警占比及每条告警对原告警量的降量贡献度数据如表1所示。可以看出,基于网络空间结构作出智能关联优化后,告警量降幅较大,特别是对于某些日均量巨大(如“SCTP链路故障告警”)告警来说,降量效果相当明显,对于减轻网管系统压力、一线人员告警监控效率都有很大的提升价值。

表1 智能关联前后告警量对比情况



5、结论

随着通信业务的综合发展、网络制式的逐步升级,网络规模相比几年前已增长多倍,随之带来的网络告警量已不可同日而语。考虑如何减轻网管监控系统压力,在海量告警中寻找有效告警以助于快速定位故障,成为目前通信网络提高告警有效性研究的热点。本文以实际网络出发,根据大数据分析结果提出的告警优化策略可以大大压缩告警,提高告警监控和故障定位效率,提升网络质量和客户感知。尽管这些优化提升策略在实际网络中已取得了不小成就,但仍需相关技术人员不断深化告警有效性探索和研究,高效发挥告警作为故障和维护之间的桥梁作用。

参考文献

[1]      刘莹, 刘俊勇, 张建明,等. 电网调度中的智能告警分类[J]. 电力自动化设备, 2009, 29(12):48-54.

[2]     SterrittR;Bustard D;McCrea A Autonomic computing correlation for fault managementsystem evolution 2003

供稿:接入网组梅坚

编辑:黄容 


更多信息,欢迎扫描以下二维码关注我们的公众号:粤移监控不业余




Copyright © 古田计算器虚拟社区@2017