mysql 索引之哈希索引

dyjh
mysql 哈希索引
2021-10-02
87
1

哈希索引是mysql索引常用的数据结构之一，这里来为大家简单介绍下

哈希算法

哈希算法时间复杂度为O(1)，且不只存在于索引中，每个数据库应用中都存在该数据结构。

哈希表

哈希表也为散列表，又直接寻址改进而来。在哈希的方式下，一个元素k处于h(k)中，即利用哈希函数h，根据关键字k计算出槽的位置。函数h将关键字域映射到哈希表T[0...m-1]的槽位上

6944077 67cf8b3f27d37e47 - mysql 索引之哈希索引

上图中哈希函数h有可能将两个不同的关键字映射到相同的位置，这叫做碰撞，在数据库中一般采用链接法来解决。在链接法中，将散列到同一槽位的元素放在一个链表中，如下图所示：

6944077 3d3867c9a015f7a3 - mysql 索引之哈希索引

InnoDB和MyISAM存储引擎中的哈希算法

InnoDB中采用除法散列函数，冲突机制采用链接法。

innoDB中只存在自适应hash，由引擎自行维护，存储在缓冲池中，作为热点数据的优化机制。

(show variables like 'innodb_adaptive_hash_index'; 默认值 ON)

6c51125ad2ca6c4e51ddd5d391d5c833 - mysql 索引之哈希索引

MyISAM和InnoDB的数据结构实现

MyISAM(非聚簇索引 + 叶子节点存储磁盘地址 + 数据文件)

0ceebaed151679150af6188a5bb79ff0 - mysql 索引之哈希索引

BTree索引和哈希索引的区别

Hash索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以Hash索引的查询效率要远高于B-Tree索引。

可能很多人又有疑问了，既然Hash索引的效率要比B-Tree高很多，为什么大家不都用Hash索引而还要使用B-Tree索引呢?任何事物都是有两面性的，Hash索引也一样，虽然Hash索引效率高，但是Hash索引本身由于其特殊性也带来了很多限制和弊端，主要有以下这些：

Hash索引仅仅能满足"=","IN"和"<=>"查询，不能使用范围查询。哈希索引只支持等值比较查询，包括＝、 IN 、<=> (注意<>和＜＝＞是不同的操作）。也不支持任何范围查询，例如WHERE price > 100。　　
由于Hash索引比较的是进行Hash运算之后的Hash值，所以它只能用于等值的过滤，不能用于基于范围的过滤，因为经过相应的Hash算法处理之后的Hash值的大小关系，并不能保证和Hash运算前完全一样。
Hash索引无法被用来避免数据的排序操作。　　
由于Hash索引中存放的是经过Hash计算之后的Hash值，而且Hash值的大小关系并不一定和Hash运算前的键值完全一样，所以数据库无法利用索引的数据来避免任何排序运算;
Hash索引不能利用部分索引键查询。　　
对于组合索引，Hash索引在计算Hash值的时候是组合索引键合并后再一起计算Hash值，而不是单独计算Hash值，所以通过组合索引的前面一个或几个索引键进行查询的时候，Hash索引也无法被利用。
Hash索引在任何时候都不能避免表扫描。　　
前面已经知道，Hash索引是将索引键通过Hash运算之后，将 Hash运算结果的Hash值和所对应的行指针信息存放于一个Hash表中，由于不同索引键存在相同Hash值，所以即使取满足某个Hash键值的数据的记录条数，也无法从Hash索引中直接完成查询，还是要通过访问表中的实际数据进行相应的比较，并得到相应的结果。
Hash索引遇到大量Hash值相等的情况后性能并不一定就会比BTree索引高。　
对于选择性比较低的索引键，如果创建Hash索引，那么将会存在大量记录指针信息存于同一个Hash值相关联。这样要定位某一条记录时就会非常麻烦，会浪费多次表数据的访问，而造成整体性能低下。