DM 监控指标

    在 Grafana dashboard 中,DM 默认名称为 。

    task 状态

    metric 名称 说明 告警说明 告警级别
    task state 同步子任务的状态 当子任务状态处于 paused 超过 10 分钟时 critical

    Dump/Load unit

    下面 metrics 仅在 task-modefull 或者 模式下会有值。

    metric 名称 说明 告警说明 告警级别
    load progress load unit 导入过程的进度百分比,值变化范围为:0% - 100% N/A N/A
    data file size load unit 导入的全量数据中数据文件(内含 INSERT INTO 语句)的总大小 N/A N/A
    dump process exits with error dump unit 在 DM-worker 内部遇到错误并且退出了 立即告警 critical
    load process exits with error load unit 在 DM-worker 内部遇到错误并且退出了 立即告警 critical
    table count load unit 导入的全量数据中 table 的数量总和 N/A N/A
    data file count load unit 导入的全量数据中数据文件(内含 INSERT INTO 语句)的数量总和 N/A N/A
    latency of execute transaction load unit 在执行事务的时延,单位:秒 N/A N/A
    latency of query load unit 执行 query 的耗时,单位:秒 N/A N/A

    Instance

    在 Grafana dashboard 中,instance 的默认名称为 。

    Relay log

    metric 名称 说明 告警说明 告警级别
    storage capacity relay log 占有的磁盘的总容量 N/A N/A
    storage remain relay log 占有的磁盘的剩余可用容量 小于 10G 的时候需要告警 critical
    process exits with error relay log 在 DM-worker 内部遇到错误并且退出了 立即告警 critical
    relay log data corruption relay log 文件损坏的个数 立即告警 emergency
    fail to read binlog from master relay 从上游的 MySQL 读取 binlog 时遇到的错误数 立即告警 critical
    fail to write relay log relay 写 binlog 到磁盘时遇到的错误数 立即告警 critical
    binlog file index relay log 最大的文件序列号。如 value = 1 表示 relay-log.000001 N/A N/A
    binlog file gap between master and relay relay 与上游 master 相比落后的 binlog file 个数 落后 binlog file 个数超过 1 个(不含 1 个)且持续 10 分钟时 critical
    binlog pos relay log 最新文件的写入 offset N/A N/A
    read binlog duration relay log 从上游的 MySQL 读取 binlog 的时延,单位:秒 N/A N/A
    write relay log duration relay log 每次写 binlog 到磁盘的时延,单位:秒 N/A N/A
    binlog size relay log 写到磁盘的单条 binlog 的大小 N/A N/A