哈希表原理及模拟实现
哈希表通过哈希函数将关键字映射到存储位置实现 O(1) 查找。讲解哈希概念、冲突处理(开放定址法线性探测、二次探测、链地址法)、负载因子控制及哈希函数设计(除法、乘法、全域散列)。包含 C++ 模板类模拟实现代码,涵盖插入、查找、删除、扩容逻辑,重点解决 key 类型转换及质数扩容问题。

哈希表通过哈希函数将关键字映射到存储位置实现 O(1) 查找。讲解哈希概念、冲突处理(开放定址法线性探测、二次探测、链地址法)、负载因子控制及哈希函数设计(除法、乘法、全域散列)。包含 C++ 模板类模拟实现代码,涵盖插入、查找、删除、扩容逻辑,重点解决 key 类型转换及质数扩容问题。

我们在前面一篇文章中已经了解到了 unordered_map/unordered_set 的内容,我们已经了解到了它的查找效率以及插入删除等效率都是 O(1) 的,如此低的效率,那它的底层肯定也是十分神奇的,我们赶紧来了解了解吧。
哈希到底是什么,它的主要作用又是干什么的,为什么它对于我们程序猿来说非常的重要,这一切的一切我们都得先从它的概念开始讲起。
哈希 (hash) 又称散列,是一种组织数据的方式。从译名来看,有散乱排列的意思。本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系,查找时通过这个哈希函数计算出 Key 存储的位置,进行快速查找。
注意: 与哈希相比,散列可以更好的表达出数据实际分布的样貌,而哈希只是翻译过来这么叫罢了。
我们想要实现哈希存储,就得想办法建立一个比较好的规则去映射我们的 Key 和存储位置之间的关系,而最简单的办法就是直接定制法。
当关键字的范围比较集中时,直接定址法就是非常简单高效的方法,比如一组关键字都在 [0 , 99] 之间,那么我们开一个 100 个数的数组,每个关键字的值直接就是存储位置的下标。再比如一组关键字值都在 [ a , z ] 的小写字母,那么我们开一个 26 个数的数组,每个关键字 ASCII 码 - a,ASCII 码就是存储位置的下标。也就是说直接定址法本质就是用关键字计算出一个绝对位置或者相对位置。
这种方法非常简单直观,此时如果我们想要去查找一个数字,我们直接就去映射的位置去找就行了,查找速度就是 O(1),想要插入一个值直接去判断它那个位置有没有插入过,没有就直接插入就行了,也是 O(1) 的效率,这就是我们为什么哈希表的效率是 O(1) 的原因,因为它在我们要它去增删查一个数据时,它能够通过它的映射原理锁定到一个具体的位置,直接在那个位置进行操作即可。
我们直接定址法这么简单好用,那我们哈希表的底层会不会就是用的直接定址法呢?答案肯定不是,因为直接定址法有着非常严重的缺陷。
直接定址法在关键字的范围比较分散时,就很浪费内存甚至内存不够用。假设我们只有数据范围是 [ 0 , 9999 ] 的 N 个值,我们要映射到一个 M 个空间的数组中 (一般情况下 M >= N) ,那么就要借助哈希函数 (hash function) hf,关键字 key 被放到数组的 h(key) 位置,这里要注意的是 h(key) 计算出的值必须在 [ 0 , M ) 之间。这里存在的一个问题就是,两个不同的 key 可能会映射到同一个位置去,这种问题我们叫做哈希冲突,或者哈希碰撞。
理想情况是找出一个好的哈希函数避免冲突,但是实际场景中,冲突是不可避免的,所以我们尽可能设计出优秀的哈希函数,减少冲突的次数,同时也要去设计出解决冲突的方案。
注意: 直接定址法不管数据是否集中,都只适用于整型,像浮点型、string 等这些类型是不适用的。
我们是没有办法写出一个完美的哈希函数使我们映射每一个值的时候都不会产生哈希冲突的,所以我们是一定要想办法设计出一个能够解决哈希冲突的方案。在此之前我们先来了解了解什么是负载因子。
假设哈希表中已经映射存储了 N 个值,哈希表的大小为 M,那么负载因子 = N / M,负载因子有些地方也翻译为载荷因子/装载因子等,他的英文为 load factor。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低;
在上一章节我们还了解到了 unordered_map/unordered_set 类定义时,第二个模板参数的作用是用来要求 Key 支持转换为整型的,那个时候大家可能不知道没事转化成整型的原因是什么,这里就来解释一下。
我们将关键字映射到数组中位置,一般是整数,好做映射计算,如果不是整数,我们要想办法转换成整数,这个细节我们后面代码实现中再进行细节展示。下面哈希函数部分我们讨论时,如果关键字不是整数,那么我们讨论的 Key 是关键字转换成的整数。就比如如果我们字符串想要实现哈希,我们就得把我们的字符串想办法变成整型,然后存储到对应下标的位置,就比如把每个字符的 ASCII 乘一个固定值,然后相加等操作。
一个好的哈希函数应该让 N 个关键字被等概率的均匀的散列分布到哈希表的 M 个空间中,但是实际中却很难做到,但是我们要尽量往这个方向去考量设计。
当使用除法散列法时,要尽量避免 M 为某些值,如 2 的幂,10 的幂等。如果是 2^x,那么 key % 2^x 本质相当于保留 key 的后 x 位,那么后 x 位相同的值,计算出的哈希值都是一样的,就冲突了。如:{ 63 , 31 } 看起来没有关联的值,如果 M 是 16,也就是 2^4,那么计算出的哈希值都是 15,因为 63 的二进制后 8 位是 00111111,31 的二进制后 8 位是 00011111。如果是 10^x,就更明显了,保留的都是 10 进值的后 x 位,如:{ 112 , 12312 },如果 M 是 100,也就是 10^2,那么计算出的哈希值都是 12。
实践中哈希表一般还是选择除法散列法作为哈希函数,当然哈希表无论选择什么哈希函数也避免不了冲突,那么插入数据时,如何解决冲突呢?主要有两种方法,开放定址法和链地址法。
在开放定址法中所有的元素都放到哈希表里,当一个关键字 key 用哈希函数计算出的位置冲突了,则按照某种规则找到一个没有存储数据的位置进行存储,开放定址法中负载因子一定是小于 1 的。这里的规则有三种:线性探测、二次探测、双重探测。
下面演示 { 19, 30, 5, 36, 13, 20, 21, 12 } 等这一组值映射到 M = 11 的表中。
此时通过我们的映射方式 % 11 能把它们对应到数组下标的位置分别是:
h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,h(13) = 2,h(20) = 9,h(21) = 10,h(12) = 1。
我们可以看到我们 19 和 30 哈希冲突了。
最终效果:
主要流程是,我的位置被占了,我就去占别人的位置。
下面演示 {19, 30, 52, 63, 11, 22} 等这一组值映射到 M = 11 的表中
h(19) = 8, h(30) = 8, h(52) = 8, h(63) = 8, h(11) = 0, h(22) = 0。
最终效果:
和线性探测的逻辑其实是差不多的,只不过是让它们变得更分散了。
开放定址法在实践中,不如下面讲的链地址法,因为开放定址法解决冲突不管使用哪种方法,占用的都是哈希表中的空间,始终存在互相影响的问题。所以开放定址法,我们简单选择线性探测实现即可。
我们在实现我们哈希表的基础框架前,我们得先搞明白我们的哈希表是如何查找我们的数据的。我们先来看看下面的图。
当我们想要查找 20 时哈希表的具体操作是这样的。
此时如果我们把 30 删除了,再去查找 20 就会出现问题。
为了避免此问题的发生这里需要给每个存储值的位置加一个状态标识,否则删除一些值以后,会影响后面冲突的值的查找。当我们给每个位置加一个状态标识 { EXIST , EMPTY , DELETE } ,删除 30 就可以不用删除值,而是把状态改为 DELETE ,那么查找 20 时是遇到 EMPTY 才能,就可以找到 20。
enum State { EXIST, EMPTY, DELETE };
template<class K, class V>
struct HashData {
pair<K, V> _kv;
State _state = EMPTY;
};
template<class K, class V>
class HashTable {
private:
vector<HashData<K, V>> _tables;
size_t _n = 0; // 表中存储数据个数
};
从这里我们就能看出来,哈希冲突越多,哈希效率就越低,因为要不停的往后找。
插入的基本框架就是按照流程去插入即可。
bool Insert(const pair<K, V>& kv) {
size_t hash0 = kv.first % _tables.size();
size_t hashi = hash0;
size_t i = 1;
while (_tables[hashi]._state == EXIST) {
// 线性探测
hashi = (hash0 + i) % _tables.size();
++i;
}
_tables[hashi]._kv = kv;
_tables[hashi]._state = EXIST;
++_n;
return true;
}
这个插入只是简单的实现,因为我们还得考虑扩容等问题。
如果有细心的小伙伴就会发现我们上面的插入其实是有一些问题的,就比如我们如果把我们数据插入满了,那我们的代码就会陷入死循环,我们想要避免这件事情发生就得扩容。 说到扩容我们就不得不提到上面的负载因子,它的值越大,我们哈希表的效率就越低下,所以我们扩容时就得看看我们的负载因子得满足什么条件时扩容。而这里我们哈希表负载因子控制在 0.7,当负载因子到 0.7 以后我们就需要扩容了。
if (_n * 10 / _tables.size() >= 7) // 把它被除数乘 10 倍就不用考虑浮点数问题了。
我们如果想按照 2 倍扩容,同时我们要保持哈希表大小是一个质数。此时我们可以再创建一个 vector,然后把数据插入我们的新 vector 中,再交换我们的 vector。
if (_n * 10 / _tables.size() >= 7) {
vector<pair<K, V>> newtables(_tables.size() * 2);
for (auto& data : _tables) {
if (data._state == EXIST) {
size_t hash0 = data._kv.first % newtables.size();
}
}
_tables.swap(newtables);
}
当然,这样写太挫了,我们可以用另外一种写法,函数复用。
if (_n * 10 / _tables.size() >= 7) {
// 这里利用类似深拷贝现代写法的思想插入后交换解决
HashTable<K, V, Hash> newHT;
newHT._tables.resize(_tables.size() * 2);
for (auto& data : _tables) {
if (data._state == EXIST) {
newHT.Insert(data);
}
}
_tables.swap(newHT._tables);
}
此举就相当于函数复用加递归,我们创建一个新的哈希表是这个的两倍,此时我们再调用插入时就不会再走我们 if 的逻辑了,因为条件不满足,此时就会直接去插入了。 上面的操作第一个是质数,2 倍后就不是质数了。那么如何解决呢,一种方案就是上面的除法散列中我们讲的 Java HashMap 的使用 2 的整数幂,但是计算时不能直接取模的改进方法。另外一种方案是 sgi 版本的哈希表使用的方法,给了一个近似 2 倍的质数表,每次去质数表获取扩容后的大小。
inline unsigned long __stl_next_prime(unsigned long n) {
// Note: assumes long is at least 32 bits.
static const int __stl_num_primes = 28;
static const unsigned long __stl_prime_list[__stl_num_primes] = {
53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317,
196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843,
50331653, 100663319, 201326611, 402653189, 805306457, 1610612741,
3221225473, 4294967291
};
const unsigned long* first = __stl_prime_list;
const unsigned long* last = __stl_prime_list + __stl_num_primes;
const unsigned long* pos = lower_bound(first, last, n);
return pos == last ? *(last - 1) : *pos;
}
这种方式列举了很多近似 2 倍的质数表,此时调用 lower_bound 函数,我们传过来一个数值,他会为我们找到比这个数值大于等于的那个数值返回,这样就可以让我们能够扩 2 倍且是素数了,当然,我们的哈希表是到不了最后的那一位的,最后一位想要扩那么大都 4G 了,比内存还大了,根本不可能,所以到 4294967291 就足够了
当 key 是 string/Date 等类型时,key 不能取模,那么我们需要给 HashTable 增加一个仿函数,这个仿函数支持把 key 转换成一个可以取模的整形,如果 key 可以转换为整形并且不容易冲突,那么这个仿函数就用默认参数即可,如果这个 key 不能转换为整形,我们就需要自己实现一个仿函数传给这个参数,实现这个仿函数的要求就是尽量把 key 的每值都参与到计算中,让不同的 key 转换出的整形值不同。string 做哈希表的 key 非常常见,所以我们可以考虑把 string 特化一下。
template<class K>
struct HashFunc {
size_t operator()(const K & key) {
return (size_t)key;
}
};
// 特化
template<>
struct HashFunc<string> {
// 字符串转换成整形,可以把字符 ascii 码相加即可
// 但是直接相加的话,类似"abcd"和"bcad"这样的字符串计算出是相同的
// 这里我们使用 BKDR 哈希的思路,用上次的计算结果去乘以一个质数,这个质数一般去 31, 131 等效果会比较好
size_t operator()(const string & key) {
size_t hash = 0;
for (auto e : key) {
hash *= 131;
hash += e;
}
return hash;
}
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable {
public:
private:
vector<HashData<K, V>> _tables;
size_t _n = 0; // 表中存储数据个数
};
template<class K>
struct HashFunc {
size_t operator()(const K& key) {
return (size_t)key;
}
};
template<>
struct HashFunc<string> {
size_t operator()(const string& key) {
size_t hash = 0;
for (auto e : key) {
hash *= 131;
hash += e;
}
return hash;
}
};
enum State { EXIST, EMPTY, DELETE };
template<class K, class V>
struct HashData {
pair<K, V> _kv;
State _state = EMPTY;
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable {
public:
inline unsigned long __stl_next_prime(unsigned long n) {
// Note: assumes long is at least 32 bits.
static const int __stl_num_primes = 28;
static const unsigned long __stl_prime_list[__stl_num_primes] = {
53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317,
196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843,
50331653, 100663319, 201326611, 402653189, 805306457, 1610612741,
3221225473, 4294967291
};
const unsigned long* first = __stl_prime_list;
const unsigned long* last = __stl_prime_list + __stl_num_primes;
const unsigned long* pos = lower_bound(first, last, n);
return pos == last ? *(last - 1) : *pos;
}
HashTable() {
_tables.resize(__stl_next_prime(0));
}
bool Insert(const pair<K, V>& kv) {
if (Find(kv.first)) return false; // 负载因子大于 0.7 就扩容
if (_n * 10 / _tables.size() >= 7) {
// 这里利用类似深拷贝现代写法的思想插入后交换解决
HashTable<K, V, Hash> newHT;
newHT._tables.resize(__stl_next_prime(_tables.size() + 1));
for (size_t i = 0; i < _tables.size(); i++) {
if (_tables[i]._state == EXIST) {
newHT.Insert(_tables[i]._kv);
}
}
_tables.swap(newHT._tables);
}
Hash hash;
size_t hash0 = hash(kv.first) % _tables.size();
size_t hashi = hash0;
size_t i = 1;
while (_tables[hashi]._state == EXIST) {
// 线性探测
hashi = (hash0 + i) % _tables.size();
// 二次探测就变成 +- i^2
++i;
}
_tables[hashi]._kv = kv;
_tables[hashi]._state = EXIST;
++_n;
return true;
}
HashData<K, V>* Find(const K& key) {
Hash hash;
size_t hash0 = hash(key) % _tables.size();
size_t hashi = hash0;
size_t i = 1;
while (_tables[hashi]._state != EMPTY) {
if (_tables[hashi]._state == EXIST && _tables[hashi]._kv.first == key) {
return &_tables[hashi];
}
// 线性探测
hashi = (hash0 + i) % _tables.size();
++i;
}
return nullptr;
}
bool Erase(const K& key) {
HashData<K, V>* ret = Find(key);
if (ret == nullptr) {
return false;
} else {
ret->_state = DELETE;
--_n;
return true;
}
}
private:
vector<HashData<K, V>> _tables;
size_t _n = 0; // 表中存储数据个数
};
开放定址法中所有的元素都放到哈希表里,链地址法中所有的数据不再直接存储在哈希表中,哈希表中存储一个指针,没有数据映射这个位置时,这个指针为空,有多个数据映射到这个位置时,我们把这些冲突的数据链接成一个链表,挂在哈希表这个位置下面,链地址法也叫做拉链法或者哈希桶。 下面演示 { 19, 30, 5, 36, 13, 20, 21, 12, 24, 96 } 等这一组值映射到 M = 11 的表中。
h(19) = 8, h(30) = 8, h(5) = 5, h(36) = 3, h(13) = 2, h(20) = 9, h(21) = 10, h(12) = 1, h(24) = 2, h(96) = 8。 链地址法的解决思路其实蛮简单粗暴的,但是要比开放定址法要好,我们新的数据直接连接在下标上,然后旧数据在连接到新数据后面就可以了。 最终效果:
开放定址法负载因子必须小于 1,链地址法的负载因子就没有限制了,可以大于 1。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低;STL 中 unordered_xxx 的最大负载因子基本控制在 1,大于 1 就扩容,我们下面实现也使用这个方式。
如果极端场景下,某个桶特别长怎么办?其实我们可以考虑使用全域散列法,这样就不容易被针对了。但是假设不是被针对了,用了全域散列法,但是偶然情况下,某个桶很长,查找效率很低怎么办?这里在 Java 8 的 HashMap 中当桶的长度超过一定阀值时就把链表转换成红黑树。一般情况下,不断扩容,单个桶很长的场景还是比较少的,下面我们实现就不搞这么复杂了,这个解决极端场景的思路,大家了解一下即可。
template<class K>
struct HashFunc {
size_t operator()(const K& key) {
return (size_t)key;
}
};
// 特化
template<>
struct HashFunc<string> {
size_t operator()(const string& key) {
size_t hash = 0;
for (auto e : key) {
hash *= 131;
hash += e;
}
return hash;
}
};
template<class K, class V>
struct HashNode {
pair<K, V> _kv;
HashNode<K, V>* _next;
HashNode(const pair<K, V>& kv) : _kv(kv), _next(nullptr) {}
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable {
typedef HashNode<K, V> Node;
inline unsigned long __stl_next_prime(unsigned long n) {
static const int __stl_num_primes = 28;
static const unsigned long __stl_prime_list[__stl_num_primes] = {
53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317,
196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843,
50331653, 100663319, 201326611, 402653189, 805306457, 1610612741,
3221225473, 4294967291
};
const unsigned long* first = __stl_prime_list;
const unsigned long* last = __stl_prime_list + __stl_num_primes;
const unsigned long* pos = lower_bound(first, last, n);
return pos == last ? *(last - 1) : *pos;
}
public:
HashTable() {
_tables.resize(__stl_next_prime(0), nullptr);
}
// 拷贝构造和赋值拷贝需要实现深拷贝,有兴趣的同学可以自行实现~
~HashTable() {
// 依次把每个桶释放
for (size_t i = 0; i < _tables.size(); i++) {
Node* cur = _tables[i];
while (cur) {
Node* next = cur->_next;
delete cur;
cur = next;
}
_tables[i] = nullptr;
}
}
bool Insert(const pair<K, V>& kv) {
Hash hs;
size_t hashi = hs(kv.first) % _tables.size();
// 负载因子==1 扩容
if (_n == _tables.size()) {
/*HashTable<K, V> newHT;
newHT._tables.resize(__stl_next_prime(_tables.size() + 1);
for (size_t i = 0; i < _tables.size(); i++) {
Node* cur = _tables[i];
while (cur) {
newHT.Insert(cur->_kv);
cur = cur->_next;
}
}
_tables.swap(newHT._tables);*/
// 这里如果使用上面的方法,扩容时创建新的结点,后面还要使用就结点,浪费了
// 下面的方法,直接移动旧表的结点到新表,效率更好
vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr);
for (size_t i = 0; i < _tables.size(); i++) {
Node* cur = _tables[i];
while (cur) {
Node* next = cur->_next;
// 旧表中节点,挪动新表重新映射的位置
size_t hashi = hs(cur->_kv.first) % newtables.size();
// 头插到新表
cur->_next = newtables[hashi];
newtables[hashi] = cur;
cur = next;
}
_tables[i] = nullptr;
}
_tables.swap(newtables);
}
// 头插
Node* newnode = new Node(kv);
newnode->_next = _tables[hashi];
_tables[hashi] = newnode;
++_n;
return true;
}
Node* Find(const K& key) {
Hash hs;
size_t hashi = hs(key) % _tables.size();
Node* cur = _tables[hashi];
while (cur) {
if (cur->_kv.first == key) {
return cur;
}
cur = cur->_next;
}
return nullptr;
}
bool Erase(const K& key) {
Hash hs;
size_t hashi = hs(key) % _tables.size();
Node* prev = nullptr;
Node* cur = _tables[hashi];
while (cur) {
if (cur->_kv.first == key) {
if (prev == nullptr) {
_tables[hashi] = cur->_next;
} else {
prev->_next = cur->_next;
}
delete cur;
--_n;
return true;
}
prev = cur;
cur = cur->_next;
}
return false;
}
private:
vector<Node*> _tables; // 指针数组
size_t _n = 0; // 表中存储数据个数
};
以上便是我们的哈希表的内容啦,学完本篇内容我们可以发现其实我们哈希表的内容和我们的数学是有很大的关系的,我们主要是要尽量克服哈希冲突的问题,这个和我们的数学是息息相关的,我们能够了解是怎么实现的即可,没有必要搞懂其背后的数学原理,当然如果你感兴趣也是可以去尝试一下的。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online
通过删除不必要的空白来缩小和压缩JSON。 在线工具,JSON 压缩在线工具,online