当前位置：编程学习网 >>数据库 > mysql教程 > > mysql优化面试题_MySQL如何优化DISTINCT

mysql优化面试题_MySQL如何优化DISTINCT

【www.gdgbn.com--mysql教程】

在许多情况下结合order by的distinct需要一个临时表。

请注意因为distinct可能使用group by，必须清楚mysql教程如何使用所选定列的一部分的order by或having子句中的列。mysql 扩展了 group by的用途，因此你可以使用select 列表中不出现在group by语句中的列或运算。这代表 "对该组的任何可能值 "。你可以通过避免排序和对不必要项分组的办法得到它更好的性能。例如，在下列问询中，你无须对customer.name 进行分组：

mysql> select order.custid, customer.name, max(payments)

-> from order,customer

-> where order.custid = customer.custid

-> group by order.custid;

在标准sql中, 你必须将 customer.name添加到 group by子句中。在mysql中, 假如你不在ansi模式中运行，则这个名字就是多余的。

假如你从 group by 部分省略的列在该组中不是唯一的，那么不要使用这个功能! 你会得到非预测性结果。

在有些情况下,你可以使用min()和max() 获取一个特殊的列值，即使他不是唯一的。下面给出了来自包含排序列中最小值的列中的值：

substr(min(concat(rpad(sort,6," "),column)),7)

see 3.6.4节，"拥有某个字段的组间最大值的行".

注意，假如你正在尝试遵循标准 sql, 你不能使用group by或 order by子句中的表达式。你可以通过使用表达式的别名绕过这一限制：

mysql> select id,floor(value/100) as val

-> from tbl_name

-> group by id, val order by val;

然而, mysql允许你使用group by 及 order by 子句中的表达式。例如：

mysql> select id, floor(value/100) from tbl_name order by rand();
，"具有隐含字段的group by"。

在大多数情况下，distinct子句可以视为group by的特殊情况。例如，下面的两个查询是等效的：

select distinct c1, c2, c3 from t1 where c1 > const; select c1, c2, c3 from t1 where c1 > const group by c1, c2, c3;由于这个等效性，适用于group by查询的优化也适用于有distinct子句的查询。这样，关于distinct查询的优化的更详细的情况，

，"mysql如何优化group by"。
满足group by子句的最一般的方法是扫描整个表并创建一个新的临时表，表中每个组的所有行应为连续的，然后使用该临时表来找到组并应用累积函数(如果有)。在某些情况中，mysql能够做得更好，通过索引访问而不用创建临时表。

为group by使用索引的最重要的前提条件是所有group by列引用同一索引的属性，并且索引按顺序保存其关键字(例如，这是b-树索引，而不是hash索引)。是否用索引访问来代替临时表的使用还取决于在查询中使用了哪部分索引、为该部分指定的条件，以及选择的累积函数。

有两种方法通过索引访问执行group by查询，如下面的章节所描述。在第1个方法中，组合操作结合所有范围判断式使用(如果有)。第2个方法首先执行范围扫描，然后组合结果元组。

7.2.13.1. 松散索引扫描
使用索引时最有效的途径是直接搜索组域。通过该访问方法，mysql使用某些关键字排序的索引类型(例如，b-树)的属性。该属性允许使用索引中的查找组而不需要考虑满足所有where条件的索引中的所有关键字。既然该访问方法只考虑索引中的关键字的一小部分，它被称为松散索引扫描。如果没有where子句，松散索引扫描读取的关键字数量与组数量一样多，可以比所有关键字数小得多。如果where子句包含范围判断式(关于range联接类型的讨论参见7.2.1节，"explain语法（获取关于select的信息）")，松散索引扫描查找满足范围条件的每个组的第1个关键字，并且再次读取尽可能最少数量的关键字。在下面的条件下是可以的：

· 查询针对一个单表。

· group by包括索引的第1个连续部分(如果对于group by，查询有一个distinct子句，则所有显式属性指向索引开头)。

· 只使用累积函数(如果有)min()和max()，并且它们均指向相同的列。

· 索引的任何其它部分（除了那些来自查询中引用的group by）必须为常数(也就是说，必须按常量数量来引用它们)，但min()或max() 函数的参数例外。

此类查询的explain输出显示extra列的using indexforgroup-by。

下面的查询提供该类的几个例子，假定表t1(c1,c2,c3,c4)有一个索引idx(c1，c2，c3)：

select c1, c2 from t1 group by c1, c2;

select distinct c1, c2 from t1;

select c1, min(c2) from t1 group by c1;

select c1, c2 from t1 where c1 < const group by c1, c2;

select max(c3), min(c3), c1, c2 from t1 where c2 > const group by c1, c2;

select c2 from t1 where c1 < const group by c1, c2;

select c1, c2 from t1 where c3 = const group by c1, c2；

由于上述原因，不能用该快速选择方法执行下面的查询：

1. 除了min()或max()，还有其它累积函数，例如：

select c1, sum(c2) from t1 group by c1;2. group by子句中的域不引用索引开头，如下所示：

select c1,c2 from t1 group by c2, c3;3. 查询引用了group by部分后面的关键字的一部分，并且没有等于常量的等式，例如：

select c1,c3 from t1 group by c1, c2；7.2.13.2. 紧凑索引扫描
紧凑式索引扫描可以为索引扫描或一个范围索引扫描，取决于查询条件。

如果不满足松散索引扫描条件，group by查询仍然可以不用创建临时表。如果where子句中有范围条件，该方法只读取满足这些条件的关键字。否则，进行索引扫描。该方法读取由where子句定义的每个范围的所有关键字，或没有范围条件式扫描整个索引，我们将它定义为紧凑式索引扫描。请注意对于紧凑式索引扫描，只有找到了满足范围条件的所有关键字后才进行组合操作。

要想让该方法工作，对于引用group by关键字元素的前面、中间关键字元素的查询中的所有列，有一个常量等式条件即足够了。等式条件中的常量填充了搜索关键字中的"差距"，可以形成完整的索引前缀。这些索引前缀可以用于索引查找。如果需要排序group by结果，并且能够形成索引前缀的搜索关键字，mysql还可以避免额外的排序操作，因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。

上述的第一种方法不适合下面的查询，但第2种索引访问方法可以工作(假定我们已经提及了表t1的索引idx)：

· group by中有一个差距，但已经由条件c2 = "a"覆盖。

select c1，c2，c3 from t1 where c2 = "a" group by c1，c3;· group by不以关键字的第1个元素开始，但是有一个条件提供该元素的常量：

select c1，c2，c3 from t1 where c1 = "a" group by c2，c3;

结合limit row_count和distinct后，mysql发现唯一的row_count行后立即停止。

如果不使用查询中命名的所有表的列，mysql发现第1个匹配后立即停止扫描未使用的表。在下面的情况中，假定t1在t2之前使用(可以用explain检查)，发现t2中的第1行后，mysql不再(为t1中的任何行)读t2：

select distinct t1.a from t1, t2 where t1.a=t2.a;

本文来源：http://www.gdgbn.com/shujuku/29242/

上一篇： mysql下载_mysql concat() 字符连接函数

下一篇： [引起海陆变迁的主要原因]引起 MySQL server has gone away方法与原因

mysql优化面试题_MySQL如何优化DISTINCT

相关推荐

网友关注

热门标签

最新mysql教程

mysql教程热门文章