一、监控告警系统的数据检测现状
现有的监控告警系统大部分采用人工设定规则或阈值的方式来实现。
在某些情况下,这些方法确实简单有效,但在中大型业务系统中,我们往往会面临更多的KPI数量,更复杂的KPI间的关联关系,以及更多样性的KPI型态(如下图所示:恒值型、周期型、持续波动型等)。
面对这样的场景,若继续采用人工设定规则或阈值的方法进行检测,不仅会消耗大量的时间成本,而且容易导致告警的误报和漏报。
在引入具体检测方案之前,让我们先来了解指标异常检测。
二、单指标检测和多指标检测
在运维领域,指标异常检测根据不同场景和应用需求,可以分为单指标异常检测和多指标异常检测。
1.单指标异常检测
●检测原理:关注的是某个KPI的值是否异常。例如:KPI突变、抖动等。
●异常场景:单指标异常主要是KPI值突然发生了较大变化。例如:CPU使用率突然增加、内存突然降低等。
●检测方法:在工业界,单指标异常检测主要有基于统计学和预测的两种方法。