使用 Grafana 监控 TiDB 的最佳实践

    Prometheus 是一个拥有多维度数据模型和灵活查询语句的时序数据库。Grafana 是一个开源的 metric 分析及可视化系统。

    从 TiDB 2.1.3 版本开始,监控可以支持 pull,这是一个非常好的调整,它有以下几个优点:

    • 如果 Prometheus 需要迁移,无需重启整个 TiDB 集群。调整前,因为组件要调整 push 的目标地址,迁移 Prometheus 需要重启整个集群。
    • 支持部署 2 套独立的 Grafana + Prometheus 的监控平台(非 HA),防止监控的单点。

    TiDB 的 3 个核心组件(TiDB server、TiKV server 和 PD server)可以通过 HTTP 接口来获取 metric 数据。这些 metric 均是从程序代码中上传的,默认端口如下:

    下面以 TiDB server 为例,展示如何通过 HTTP 接口查看一个语句的 QPS 数据:

    这些数据会存储在 Prometheus 中,然后在 Grafana 上进行展示。在面板上点击鼠标右键会出现 Edit 按钮(或直接按 E 键),如下图所示:

    Metrics 面板的编辑入口

    点击 Edit 按钮之后,在 Metrics 面板上可以看到利用该 metric 的 query 表达式。面板上一些细节的含义如下:

    • rate[1m]:表示 1 分钟的增长速率,只能用于 counter 类型的数据。
    • sum:表示 value 求和。
    • by type:表示将求和后的数据按 metric 原始值中的 type 进行分组。
    • Legend format:表示指标名称的格式。
    • Resolution:默认打点步长是 15s,Resolution 表示是否将多个样本数据合并成一个点。

    Metrics 面板中的表达式如下:

    Prometheus 支持很多表达式与函数,更多表达式请参考 Prometheus 官网页面

    本小节介绍高效利用 Grafana 监控分析 TiDB 指标的七个技巧。

    在一节的示例中,数据是按照 type 进行分组的。如果你想知道是否还能按其它维度分组,并快速查看还有哪些维度,可采用以下技巧:在 query 的表达式上只保留指标名称,不做任何计算,Legend format 也留空。这样就能显示出原始的 metric 数据。比如,下图能看到有 3 个维度(instancejob 和 ):

    编辑表达式并查看所有维度

    然后调整表达式,在原有的 type 后面加上 instance 这个维度,在 Legend format 处增加 {{instance}},就可以看到每个 TiDB server 上执行的不同类型 SQL 语句的 QPS 了。如下图所示:

    技巧 2:调整 Y 轴标尺的计算方式

    以 Query Duration 指标为例,默认的比例尺采用 2 的对数计算,显示上会将差距缩小。为了观察到明显的变化,可以将比例尺改为线性,从下面两张图中可以看到显示上的区别,明显发现那个时刻有个 SQL 语句运行较慢。

    当然也不是所有场景都适合用线性,比如观察 1 个月的性能趋势,用线性可能就会有很多噪点,不好观察。

    标尺默认的比例尺为 2 的对数:

    将标尺的比例尺调整为线性:

    调整标尺的比例尺为线性

    小贴士

    结合技巧 1,会发现这里还有一个 sql_type 的维度,可以立刻分析出是 SELECT 慢还是 UPDATE 慢;并且可以分析出是哪个 instance 上的语句慢。

    有时已经用了线性比例尺,却还是看不出变化趋势。比如下图中,在扩容后想观察 Store size 的实时变化效果,但由于基数较大,观察不到微弱的变化。这时可以将 Y 轴最小值从 0 改为 ,将上部放大。观察下面两张图的区别,可以看出数据已开始迁移了。

    基线默认为 0

    基线默认为 0

    将基线调整为 auto

    技巧 4:标尺联动

    Settings 面板中,有一个 Graph Tooltip 设置项,默认使用 Default

    下面将图形展示工具分别调整为 Shared crosshairShared Tooltip 看看效果。可以看到标尺能联动展示了,方便排查问题时确认 2 个指标的关联性。

    将图形展示工具调整为 Shared crosshair

    调整图形展示工具为 Shared crosshair

    将图形展示工具调整为 Shared Tooltip

    PD 的 dashboard 只展示当前 leader 的 metric 信息,而有时想看历史上 PD leader 当时的状况,但是 instance 下拉列表中已不存在这个成员了。此时,可以手动输入 ip:2379 来查看当时的数据。

    查看历史 metric 信息

    技巧 6:巧用 Avg 函数

    通常默认图例中只有 MaxCurrent 函数。当指标波动较大时,可以增加 Avg 等其它汇总函数的图例,来看一段时间的整体趋势。

    增加 等汇总函数:

    然后查看整体趋势:

    增加 Avg 函数查看整体趋势

    Grafana 通过 Prometheus 的接口获取数据,你也可以用该接口来获取数据,这个用法还可以衍生出许多功能:

    • 自动获取集群规模、状态等信息。
    • 将重要的指标进行定期健康巡检。

    Prometheus 的 API 接口如下: