HTAP 快速上手指南

    在试用前,你需要对 TiDB 面向在线事务处理的行存储引擎 与面向实时分析场景的列存储引擎 TiFlash 有一些基本了解:

    • HTAP 存储引擎:行存 (Row-store) 与列存 (columnar-store) 同时存在,自动同步,保持强一致性。行存为在线事务处理 OLTP 提供优化,列存则为在线分析处理 OLAP 提供性能优化。
    • HTAP 数据一致性:作为一个分布式事务型的键值数据库,TiKV 提供了满足 ACID 约束的分布式事务接口,并通过 协议保证了多副本数据一致性以及高可用。TiFlash 通过 Multi-Raft Learner 协议实时从 TiKV 复制数据,确保与 TiKV 之间的数据强一致。
    • HTAP 数据隔离性:TiKV、TiFlash 可按需部署在不同的机器,解决 HTAP 资源隔离的问题。
    • MPP 计算引擎:从 v5.0 版本起,TiFlash 引入了分布式计算框架 MPP,允许节点之间的数据交换并提供高性能、高吞吐的 SQL 算法,可以大幅度缩短分析查询的执行时间。

    本文的步骤以 TPC-H 数据集为例,通过其中一个查询场景来体验 TiDB HTAP 的便捷性和高性能。TPC-H 是业界较为流行的决策支持(Desision Support)业务 Benchmark。它包含大数据量下,一个业务决策分析系统所需要响应的不同类型高复杂度的即席查询。如果需要体验 TPC-H 完整的 22 条 SQL,可以访问 或者阅读 TPC-H 官网说明了解如何生成查询语句以及数据。

    在试用 TiDB HTAP 功能前,请按照 中的步骤准备 TiDB 本地测试环境,执行以下命令启动 TiDB 集群:

    通过以下步骤,将生成一个 数据集用于体验 TiDB HTAP 功能。如果你对 TPC-H 感兴趣,可查看其规格说明

    1. 使用以下命令安装数据生成工具:

      1. tiup install bench
    2. 使用以下命令生成数据:

      1. tiup bench tpch --sf=1 prepare

      当命令行输出 Finished 时,表示数据生成完毕。

    3. 运行以下 SQL 语句查看生成的数据:

      从输出中可以看到,一共生成了八张表,最大的一张表数据量有 600 万行(由于数据是工具随机生成,所以实际的数据生成量以 SQL 实际查询到的值为准)。

      1. +---------------+----------------+-----------+------------+---------+
      2. | Table Name | Number of Rows | Data Size | Index Size | Total |
      3. +---------------+----------------+-----------+------------+---------+
      4. | test.nation | 25 | 0.0000G | 0.0000G | 0.0000G |
      5. | test.region | 5 | 0.0000G | 0.0000G | 0.0000G |
      6. | test.part | 200000 | 0.0245G | 0.0000G | 0.0245G |
      7. | test.supplier | 10000 | 0.0014G | 0.0000G | 0.0014G |
      8. | test.partsupp | 800000 | 0.1174G | 0.0119G | 0.1293G |
      9. | test.customer | 150000 | 0.0242G | 0.0000G | 0.0242G |
      10. | test.orders | 1514336 | 0.1673G | 0.0000G | 0.1673G |
      11. | test.lineitem | 6001215 | 0.7756G | 0.0894G | 0.8651G |
      12. 8 rows in set (0.06 sec)

      这是一个商业订购系统的数据库。其中,test.nation 表是国家信息、test.region 表是地区信息、test.part 表是零件信息、test.supplier 表是供货商信息、test.partsupp 表是供货商的零件信息、test.customer 表是消费者信息、test.orders 表是订单信息、test.lineitem 表是在线商品的信息。

    执行以下 SQL 语句,你可以体验当只使用行存(大多数数据库)时 TiDB 的表现:

    1. SELECT
    2. l_orderkey,
    3. l_extendedprice * (1 - l_discount)
    4. ) AS revenue,
    5. o_orderdate,
    6. o_shippriority
    7. FROM
    8. customer,
    9. orders,
    10. lineitem
    11. WHERE
    12. c_mktsegment = 'BUILDING'
    13. AND c_custkey = o_custkey
    14. AND l_orderkey = o_orderkey
    15. AND o_orderdate < DATE '1996-01-01'
    16. AND l_shipdate > DATE '1996-02-01'
    17. GROUP BY
    18. l_orderkey,
    19. o_orderdate,
    20. o_shippriority
    21. ORDER BY
    22. revenue DESC,
    23. o_orderdate
    24. limit 10;

    TiFlash 部署完成后并不会自动同步 TiKV 数据,你可以在 MySQL 客户端向 TiDB 发送以下 DDL 命令指定需要同步到 TiFlash 的表。指定后,TiDB 将创建对应的 TiFlash 副本。

    如需查询 TiFlash 表的同步状态,请使用以下 SQL 语句:

    1. SELECT * FROM information_schema.tiflash_replica WHERE TABLE_SCHEMA = 'test' and TABLE_NAME = 'customer';
    2. SELECT * FROM information_schema.tiflash_replica WHERE TABLE_SCHEMA = 'test' and TABLE_NAME = 'orders';

    以上查询结果中:

    • 字段表示该表的 TiFlash 副本是否可用。1 代表可用,0 代表不可用。副本状态变为可用之后就不再改变,如果通过 DDL 命令修改副本数则会重新计算同步进度。
    • PROGRESS 字段代表同步进度,在 0.0~1.0 之间,1 代表至少 1 个副本已经完成同步。

    再次执行第 3 步中的 SQL 语句,你可以感受 TiDB HTAP 的表现。

    对于创建了 TiFlash 副本的表,TiDB 优化器会自动根据代价估算选择是否使用 TiFlash 副本。如需查看实际是否选择了 TiFlash 副本,可以使用 descexplain analyze 语句,例如:

    1. explain analyze SELECT
    2. l_orderkey,
    3. SUM(
    4. l_extendedprice * (1 - l_discount)
    5. ) AS revenue,
    6. o_orderdate,
    7. o_shippriority
    8. FROM
    9. customer,
    10. orders,
    11. lineitem
    12. WHERE
    13. c_mktsegment = 'BUILDING'
    14. AND c_custkey = o_custkey
    15. AND l_orderkey = o_orderkey
    16. AND o_orderdate < DATE '1996-01-01'
    17. AND l_shipdate > DATE '1996-02-01'
    18. GROUP BY
    19. l_orderkey,
    20. o_orderdate,
    21. o_shippriority
    22. ORDER BY
    23. revenue DESC,
    24. limit 10;

    如果结果中出现 ExchangeSender 和 ExchangeReceiver 算子,表明 MPP 已生效。

    此外,你也可以指定整个查询的各个计算部分都只使用 TiFlash 引擎,详情请参阅。

    你可以对比两次的查询结果和查询性能。