配置常用的机器告警

    进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,平台已内置多种告警策略,您可以通过 类型模板 选择使用。

    您也可以根据实际情况,自定义配置告警规则,选择合适的阀值及相关聚合函数。

    对于机器节点,您需要着重关注其资源的使用情况、节点状态等。

    配置常用的机器告警 - 图2

    CPU

    CPU 使用率将衡量一段时间内 CPU 在用户进程、内核进程以及中断处理中的占比。高 CPU 不等同于故障,但若 CPU 使用率长时间保持高位,则需多加关注了。

    一般情况下,5 分钟内 CPU 使用率不应高于 95%。

    在机器层面,您只需关注内存使用率,它表示机器整体的内存资源使用情况。

    一般情况下,内存使用率不应高于 80%。

    磁盘

    磁盘作为物理资源,同样会影响用户进程。例如,磁盘满后数据库应用将不可写入,Inode 满后将无法创建新文件等。

    平均负载指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,即平均活跃进程数,和 CPU 使用率无直接关联。

    您也可以将其理解为系统的整体繁忙程度,负载越大则系统越繁忙,各类资源相对紧缺。默认情况下阀值设置为 20,您可以根据实际节点的 CPU 个数进行调整。

    一般情况下,单个 CPU 的平均负载不应高于 70%。

    集群组件

    除关注机器节点的情况外,您还需要关注系统组件的状况。多数情况下,Erda 运行在 Kubernetes 集群上,因此,下文将以 Kuberntes 集群为例进行说明。

    状态

    Kubernetes 系统组件的状态尤为重要。平台将采集组件退出的事件、实例是否满足逾期个数等信息,因此建议您开启 Kubernetes 的相关告警策略。

    组件实例的资源使用情况将影响组件稳定性,例如内存不足导致 OOM,CPU 不足导致处理缓慢、卡死等。平台提供的默认配置相对保守,您也可以根据实际情况调整阈值。