DM 监控指标
在 Grafana dashboard 中,DM 默认名称为 。
task 状态
metric 名称 | 说明 | 告警说明 | 告警级别 |
---|---|---|---|
task state | 同步子任务的状态 | 当子任务状态处于 paused 超过 10 分钟时 | critical |
Dump/Load unit
下面 metrics 仅在 task-mode
为 full
或者 模式下会有值。
metric 名称 | 说明 | 告警说明 | 告警级别 |
---|---|---|---|
load progress | load unit 导入过程的进度百分比,值变化范围为:0% - 100% | N/A | N/A |
data file size | load unit 导入的全量数据中数据文件(内含 INSERT INTO 语句)的总大小 |
N/A | N/A |
dump process exits with error | dump unit 在 DM-worker 内部遇到错误并且退出了 | 立即告警 | critical |
load process exits with error | load unit 在 DM-worker 内部遇到错误并且退出了 | 立即告警 | critical |
table count | load unit 导入的全量数据中 table 的数量总和 | N/A | N/A |
data file count | load unit 导入的全量数据中数据文件(内含 INSERT INTO 语句)的数量总和 |
N/A | N/A |
latency of execute transaction | load unit 在执行事务的时延,单位:秒 | N/A | N/A |
latency of query | load unit 执行 query 的耗时,单位:秒 | N/A | N/A |
Instance
在 Grafana dashboard 中,instance 的默认名称为 。
Relay log
metric 名称 | 说明 | 告警说明 | 告警级别 |
---|---|---|---|
storage capacity | relay log 占有的磁盘的总容量 | N/A | N/A |
storage remain | relay log 占有的磁盘的剩余可用容量 | 小于 10G 的时候需要告警 | critical |
process exits with error | relay log 在 DM-worker 内部遇到错误并且退出了 | 立即告警 | critical |
relay log data corruption | relay log 文件损坏的个数 | 立即告警 | emergency |
fail to read binlog from master | relay 从上游的 MySQL 读取 binlog 时遇到的错误数 | 立即告警 | critical |
fail to write relay log | relay 写 binlog 到磁盘时遇到的错误数 | 立即告警 | critical |
binlog file index | relay log 最大的文件序列号。如 value = 1 表示 relay-log.000001 | N/A | N/A |
binlog file gap between master and relay | relay 与上游 master 相比落后的 binlog file 个数 | 落后 binlog file 个数超过 1 个(不含 1 个)且持续 10 分钟时 | critical |
binlog pos | relay log 最新文件的写入 offset | N/A | N/A |
read binlog duration | relay log 从上游的 MySQL 读取 binlog 的时延,单位:秒 | N/A | N/A |
write relay log duration | relay log 每次写 binlog 到磁盘的时延,单位:秒 | N/A | N/A |
binlog size | relay log 写到磁盘的单条 binlog 的大小 | N/A | N/A |