子查询相关的优化
通常会遇到如下情况的子查询:
NOT IN (SELECT ... FROM ...)
NOT EXISTS (SELECT ... FROM ...)
IN (SELECT ... FROM ..)
EXISTS (SELECT ... FROM ...)
有时,子查询中包含了非子查询中的列,如 select * from t where t.a in (select * from t2 where t.b=t2.b)
中,子查询中的 t.b
不是子查询中的列,而是从子查询外面引入的列。这种子查询通常会被称为关联子查询
,外部引入的列会被称为关联列
,关联子查询相关的优化参见关联子查询去关联。本文主要关注不涉及关联列的子查询。
子查询默认会以中提到的 semi join
作为默认的执行方式,同时对于一些特殊的子查询,TiDB 会做一些逻辑上的替换使得查询可以获得更好的执行性能。
t.id < all(select s.id from s)
会被改写为t.id < min(s.id) and if(sum(s.id is null) != 0, null, true)
。t.id < any (select s.id from s)
会被改写为t.id < max(s.id) or if(sum(s.id is null) != 0, null, false)
。
对于这种情况,当子查询中不同值的个数只有一种的话,那只要和这个值对比就即可。如果子查询中不同值的个数多于 1 个,那么必然会有不相等的情况出现。因此这样的子查询可以采取如下的改写手段:
select * from t where t.id != any (select s.id from s)
会被改写为select t.* from t, (select s.id, count(distinct s.id) as cnt_distinct from s) where (t.id != s.id or cnt_distinct > 1)
对于这种情况,当子查询中不同值的个数多于一种的话,那么这个表达式的结果必然为假。因此这样的子查询在 TiDB 中会改写为如下的形式:
select * from t where t.id = all (select s.id from s)
会被改写为
对于这种情况,会将其 IN
的子查询改写为 SELECT ... FROM ... GROUP ...
的形式,然后将 IN
改写为普通的 JOIN
的形式。如 select * from t1 where t1.a in (select t2.a from t2)
会被改写为 select t1.* from t1, (select distinct(a) a from t2) t2 where t1.a = t2.a
的形式。同时这里的 DISTINCT
可以在 t2.a
具有 UNIQUE
属性时被自动消去。
当前对于这种场景的子查询,当它不是关联子查询时,TiDB 会在优化阶段提前展开它,将其直接替换为一个结果集直接判断结果。如下图中,EXISTS
会提前在优化阶段被执行为 TRUE
,从而不会在最终的执行结果中看到它。
在上述优化中,优化器会自动优化语句执行。除以上情况外,你也可以在语句中添加 hint 进一步改写语句。
如果不使用 SEMI_JOIN_REWRITE
进行改写,Semi Join 在选择 Hash Join 的执行方式时,只能够使用子查询构建哈希表,因此在子查询比外查询结果集大时,执行速度可能会不及预期。Semi Join 在选择 Index Join 的执行方式时,只能够使用外查询作为驱动表,因此在子查询比外查询结果集小时,执行速度可能会不及预期。