TiFlash 报警规则

    本文介绍了 TiFlash 集群的报警规则。

    • 规则描述:

      出现 schema apply 错误时报警。

    • 处理方法:

      可能是逻辑问题,联系 TiFlash 开发人员。

    • 报警规则:

    • 规则描述:

      apply 时间超过 20 秒的概率超过 99% 时报警。

    • 报警规则:

      histogram_quantile(0.99, sum(rate(tiflash_raft_read_index_duration_seconds_bucket[1m])) BY (le, instance)) > 3

    • 规则描述:

      read index 时间超过 3 秒的概率超过 99% 时报警。

    • 处理方法:

      可能 TiKV 集群分裂/迁移频繁,导致频繁重试,可以查看 TiKV 集群状态确认。

    • 报警规则:

      histogram_quantile(0.99, sum(rate(tiflash_raft_wait_index_duration_seconds_bucket[1m])) BY (le, instance)) > 2

    • 处理方法: