Physical Import Mode 简介
使用前请务必自行阅读必要条件及限制。
Physical Import Mode 对应的后端模式为 。
在导入数据之前,
tidb-lightning
会自动将 TiKV 节点切换为“导入模式” (import mode),优化写入效率并停止自动压缩。tidb-lightning
会根据 TiDB 集群的版本决定是否停止全局调度。- 当 TiDB 集群版本 >= v6.1.0 且 TiDB Lightning 版本 >= v6.2.0 时,
tidb-lightning
在向 TiKV 导入数据时,只会暂停目标表数据范围所在 region 的调度,并在目标表导入完成后恢复调度。 - 当 TiDB 集群版本 < v6.1.0 或 TiDB Lightning 版本 < v6.2.0 时,
tidb-lightning
会暂停全局调度。
- 当 TiDB 集群版本 >= v6.1.0 且 TiDB Lightning 版本 >= v6.2.0 时,
每张表都会被分割为多个连续的区块,这样来自大表 (200 GB+) 的数据就可以多个并发导入。
tidb-lightning
会为每一个区块准备一个“引擎文件 (engine file)”来处理键值对。tidb-lightning
会并发读取 SQL dump,将数据源转换成与 TiDB 相同编码的键值对,然后将这些键值对排序写入本地临时存储文件中。当一个引擎文件数据写入完毕时, 便开始对目标 TiKV 集群数据进行分裂和调度,然后导入数据到 TiKV 集群。
引擎文件包含两种:数据引擎与索引引擎,各自又对应两种键值对:行数据和次级索引。通常行数据在数据源里是完全有序的,而次级索引是无序的。因此,数据引擎文件在对应区块写入完成后会被立即上传,而所有的索引引擎文件只有在整张表所有区块编码完成后才会执行导入。
-
表的自增 ID 是通过行数的上界估计值得到的,与表的数据文件总大小成正比。因此,最后的自增 ID 通常比实际行数大得多。这属于正常现象,因为在 TiDB 中自增 ID 不一定是连续分配的。
在所有步骤完毕后,
tidb-lightning
自动将 TiKV 切换回“普通模式” (normal mode),并恢复可能被暂停的全局调度,此后 TiDB 集群可以正常对外提供服务。
必要条件及限制
操作系统:建议使用新的、纯净版 CentOS 7 实例,你可以在本地虚拟化一台主机,或在供应商提供的平台上部署一台小型的云虚拟主机。TiDB Lightning 运行过程中,默认会占满 CPU,建议单独部署在一台主机上。如果条件不允许,你可以将 TiDB Lightning 和其他组件(比如 tikv-server
)部署在同一台机器上,然后设置 region-concurrency
配置项的值为逻辑 CPU 数的 75%,以限制 TiDB Lightning 对 CPU 资源的使用。
内存和 CPU:
建议使用 32 核以上的 CPU 和 64 GiB 以上内存以获得更好的性能。
注意
导入大量数据时,一个并发对内存的占用在 2 GiB 左右,也就是说总内存占用最大可达到 region-concurrency * 2 GiB。 默认与逻辑 CPU 的数量相同。如果内存的大小(GiB)小于逻辑 CPU 数量的两倍或运行时出现 OOM,需要手动调低 region-concurrency
参数以避免 TiDB Lightning OOM。
网络:建议使用 10 Gbps 以太网卡。
- TiDB Lightning 版本 ≥ 4.0.3。
- TiDB 集群版本 ≥ v4.0.0。
- 如果目标 TiDB 集群是 v3.x 或以下的版本,需要使用 Importer-backend 来完成数据的导入。在这个模式下,
tidb-lightning
需要将解析的键值对通过 gRPC 发送给tikv-importer
并由tikv-importer
完成数据的导入。
请勿直接使用 Physical Import Mode 向已经投入生产的 TiDB 集群导入数据,这将对在线业务产生严重影响。如需向生产集群导入数据,请参考。
使用多个 TiDB Lightning 向同一目标导入时,请勿混用不同的 backend,即不可同时使用 Physical Import Mode 和 Logical Import Mode 导入同一 TiDB 集群。
在导入数据的过程中,请勿在目标表进行写操作,否则会导致导入失败或数据不一致。导入期间也不建议进行读操作,因为读取的数据可能不一致。请在导入操作完成后再进行读写操作。
单个 Lightning 进程导入单表不应超过 10 TB。使用并行导入时,Lightning 实例不应超过 10 个。
TiDB Lightning 与 TiFlash 一起使用时需要注意:
- 无论是否已为一张表创建 TiFlash 副本,你都可以使用 TiDB Lightning 导入数据至该表。但该场景下,TiDB Lightning 导入数据耗费的时间更长,具体取决于 TiDB Lightning 部署机器的网卡带宽、TiFlash 节点的 CPU 及磁盘负载及 TiFlash 副本数等因素。
TiDB Lightning 字符集相关的注意事项:
- TiDB Lightning 在 v5.4.0 之前不支持导入
charset=GBK
的表。
- TiDB Lightning 在 v5.4.0 之前不支持导入
-
- TiCDC 无法捕获 Physical Import Mode 插入的数据。