告警策略

    目前平台支持以下事项的监控:

    • API 网关实例 CPU 使用率异常
    • API 网关实例内存使用率异常
    • 注册中心实例 CPU 使用率异常
    • 注册中心实例内存使用率异常

    机器

    • 机器时钟一致性异常
    • 机器磁盘
    • 磁盘 Inode 异常
    • 机器磁盘 IO
    • 机器 Load 5
    • 网盘
    • 网盘容量使用量异常
    • 机器宕机

    扩展中间件

    • MySQL SLAVE DELAY ALERT
    • MySQL SLAVE SYNC ALERT

    平台中间件

    • 平台中间件 Cassandra GC 次数异常
    • 平台中间件 Cassandra GC 耗时异常
    • 平台中间件实例 CPU 状态
    • 平台中间件异常退出
    • 平台中间件实例内存状态
    • 平台中间件实例 Ready 状态异常
    • 平台中间件 Elasticsearch GC 次数异常
    • 平台中间件 Elasticsearch GC 耗时异常
    • 平台中间件 Kafka GC 次数异常
    • 平台中间件 Kafka GC 耗时异常
    • 平台中间件 Kafka 消费堆积
    • 平台组件异常退出
    • 平台组件实例内存状态
    • 平台组件实例 Ready 状态异常
    • 平台组件 Flink 任务 checkpoint 延迟异常
    • 平台组件 Flink 吞吐量异常
    • 平台组件网盘不可用
    • 平台组件日志存储保护器状态变化

    Kubernetes

    • Kubernetes 组件实例 CPU 状态
    • Kubernetes 组件异常退出
    • Kubernetes 组件实例内存状态
    • Kubernetes 组件实例 Ready 状态异常
    • Kubernetes 节点异常

    项目中间件

    • Elasticsearch 实例 CPU 使用率异常
    • Elasticsearch 实例内存使用率异常
    • MySQL 实例 CPU 使用率异常
    • MySQL 实例内存使用率异常
    • MySQL 实例主从同步异常
    • Redis 实例内存使用率异常

    创建告警策略

    进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,指定需检测的集群、告警规则、沉默周期、选择群组等。

    告警名称

    创建告警策略时,需填写策略名称以作区分,策略名称不可重复。

    选择告警集群时,集群列表通过组织 ID 获取,集群可多选。

    告警规则

    选择告警规则时,可为监控项配置多条告警规则,满足其中任一条件即可触发告警。您可通过以下两种方式选择:

    • 选择 类型模板

      点击后将添加所选模版中的所有告警规则。例如,选择机器模版,告警规则将添加所有机器告警规则如下:

    • 点击后将随机添加一条告警规则,如需修改,可通过下拉列表自定义选择,列表中包含所有类型模版的告警规则。

      告警策略 - 图3

    沉默周期

    为避免告警发送过于频繁,您可以选择设置沉默周期,即设置相同规则所触发的告警相隔时间。目前支持的沉默周期为 5 分钟、10 分钟、15 分钟、30 分钟、60 分钟和 3 小时。

    沉默周期策略

    沉默周期策略需与沉默周期配合使用,目前平台支持以下两种沉默周期策略:

    • 翻倍:若您设置了 5 分钟的沉默周期,且沉默周期策略为翻倍,则相同规则所触发的告警间隔时间将翻倍,例如 5 分钟、10 分钟、20 分钟,以此递增。