在此文章之前呢 我分享一下我学习C++中的STL源码的心得 最开始学习的是vector和string 这一部分实现起来比较简单 具体可以去看看我前面写的博客 然后就是stack和queue这部分序列式就是所谓的站和队列 这部分我没有以博客的形式呈现出来 具体大家可以去参考一下stack和queue的STL源码 然后就是学的list容器 这部分也比较简单 大家感兴趣可以去看看我写的博客 也是写到了的 然后就是deque双端队列这部分大家可以去参考侯捷老师的STL源码剖析shizhi 我下面也会给大家把图片和源代码给大家呈现出来 最后就是我们今天要讲解的map和set以及unordered_map和unordered_set以及我们的重点HashTable 那么我们就开始我们的今天的哈希的学习 注意今天这部分内容算是C++里面最难的内容 哈希表大概涉及了C++中的模板和泛型编程以及含函数和迭代器——所谓的smart poniter智能指针以及我们的继承多态和封装的知识








priority_queue是一个优先级队列 大概解释如下

#pragma once#include <iostream>using namespace std;#include <vector>// priority_queue--->堆namespace bite{template<class T>struct less{bool operator()(const T& left, const T& right){return left < right;}};template<class T>struct greater{bool operator()(const T& left, const T& right){return left > right;}};template<class T, class Container = std::vector<T>, class Compare = less<T>>class priority_queue{public:// 创造空的优先级队列priority_queue() : c() {}template<class Iterator>priority_queue(Iterator first, Iterator last): c(first, last){// 将c中的元素调整成堆的结构int count = c.size();int root = ((count - 2) >> 1);for (; root >= 0; root--)AdjustDown(root);}void push(const T& data){c.push_back(data);AdjustUP(c.size() - 1);}void pop(){if (empty())return;swap(c.front(), c.back());c.pop_back();AdjustDown(0);}size_t size()const{return c.size();}bool empty()const{return c.empty();}// 堆顶元素不允许修改,因为:堆顶元素修改可以会破坏堆的特性const T& top()const{return c.front();}private:// 向上调整void AdjustUP(int child){int parent = ((child - 1) >> 1);while (child){if (Compare()(c[parent], c[child])){swap(c[child], c[parent]);child = parent;parent = ((child - 1) >> 1);}else{return;}}}// 向下调整void AdjustDown(int parent){size_t child = parent * 2 + 1;while (child < c.size()){// 找以parent为根的较大的孩子if (child + 1 < c.size() && Compare()(c[child], c[child + 1]))child += 1;// 检测双亲是否满足情况if (Compare()(c[parent], c[child])){swap(c[child], c[parent]);parent = child;child = parent * 2 + 1;}elsereturn;}}private:Container c;};}void TestQueuePriority(){bite::priority_queue<int> q1;q1.push(5);q1.push(1);q1.push(4);q1.push(2);q1.push(3);q1.push(6);cout << q1.top() << endl;q1.pop();q1.pop();cout << q1.top() << endl;vector<int> v{ 5,1,4,2,3,6 };bite::priority_queue<int, vector<int>, bite::greater<int>> q2(v.begin(), v.end());cout << q2.top() << endl;q2.pop();q2.pop();cout << q2.top() << endl;}


deque被意为双端队列 这部分应该大家很好理解
我们对比我们的vector可以发现vector是单向开口的连续空间 deque是一种双向开口的连续性空间 所谓双向开口 就是我们可以在头尾两端分别做元素的插入和删除等操作 如上图所示
这个图大家应该比较好理解 大概意思就是通过中控数组去指向你想要的那部分缓冲区或者是空间 cur指向当前节点 first指向开始 last指向结束 在vector中我们是分为finish和end_of_storage两部分 finish是指向和first对应的结尾部分 end_of_storage是指向的你的空间大小
但是下面这个图片你可能会有点疑惑 那我们来看看吧
这里的cur和first还有我们的last和我们上述的是一个意思 map指向的还是一个中控数组 node是我们的节点的意思 node指向的是哪一个deque的buffer 我们就在哪个buffer里面进行我们的查找和删除等操作 但是这里注明的start个finish是一个迭代器 大概意思就是我们现在这里有一串数 我们首先要将迭代器进行typename实例化 让编译器知道他是一个迭代器 或者说是一个类型 这样我们就可以使用我们C++11中的基于范围的for循环了 来遍历了 通俗来讲 迭代器我们暂且可以理解成一个指针 后续我会单独对于迭代器这部分大的章节给大家写一篇博客详细讲解一下 这个图片相信大家一定是看明白了
下面我将stack和queue以及deque的底层代码给大家呈现出来 大家作为了解就可以了 和先前的vector序列是容器是大同小异的 deque有点难理解 但是还是建议大家看一看源码 知道这个容器的来龙去脉

unordered_map是存储<key, value>键值对的关联式容器,其允许通过keys快速的索引到与其对应的value在unordered_map中,键值通常用于惟一地标识元素,而映射值是一个对象,其内容与此键关联。键和映射值的类型可能不同在内部,unordered_map没有对<kye, value>按照任何特定的顺序排序, 为了能在常数范围内找到key所对应的value,unordered_map将相同哈希值的键值对放在相同的桶中unordered_map容器通过key访问单个元素要比map快,但它通常在遍历元素子集的范围迭代方面效率较低unordered_maps实现了直接访问操作符(operator[]),它允许使用key作为参数直接访问value它的迭代器至少是前向迭代器




顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(log_2 N),搜索的效率取决于搜索过程中元素的比较次数
如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一 一映射的关系,那么在查找时通过该函数可以很快找到该元素
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)
例如:数据集合{1,7,6,4,5,9};哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小

6.2 哈希冲突

对于两个数据元素的关键字k_i和 k_j(i != j),有k_i != k_j,但有:Hash(k_i) ==






取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B


设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址






选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数


假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法




闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢?

// 哈希表每个空间给个标记// EMPTY此位置空, EXIST此位置已经有元素, DELETE元素已经删除enum State{EMPTY, EXIST, DELETE};


void CheckCapacity(){    if(_size * 10 / _ht.capacity() >= 7)   {        HashTable<K, V, HF> newHt(GetNextPrime(ht.capacity));        for(size_t i = 0; i < _ht.capacity(); ++i)       {            if(_ht[i]._state == EXIST)                newHt.Insert(_ht[i]._val);       }                Swap(newHt);   }

2. 二次探测
为:H_i = (H_0 + i^2 )% m, 或者:H_i = (H_0 - i^2 )% m。其中:i = 1,2,3…, H_0是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小
3. 开散列概念

4. 只能存储key为整形的元素,其他类型怎么解决?

/// @brief BKDR Hash Function  /// @detail 本 算法由于在Brian Kernighan与Dennis Ritchie的《The C Programming Language》一书被展示而得 名,是一种简单快捷的hash算法,也是Java目前采用的字符串的Hash算法(累乘因子为31)。  template<class T>  size_t BKDRHash(const T *str)  {      register size_t hash = 0;      while (size_t ch = (size_t)*str++)      {                 hash = hash * 131 + ch;   // 也可以乘以31、131、1313、13131、131313..          // 有人说将乘法分解为位运算及加减法可以提高效率,如将上式表达为:hash = hash << 7 + hash << 1 + hash + ch;          // 但其实在Intel平台上,CPU内部对二者的处理效率都是差不多的,          // 我分别进行了100亿次的上述两种运算,发现二者时间差距基本为0(如果是Debug版,分解成位运算后的耗时还要高1/3);          // 在ARM这类RISC系统上没有测试过,由于ARM内部使用Booth's Algorithm来模拟32位整数乘法运算,它的效率与乘数有关:          // 当乘数8-31位都为1或0时,需要1个时钟周期          // 当乘数16-31位都为1或0时,需要2个时钟周期          // 当乘数24-31位都为1或0时,需要3个时钟周期          // 否则,需要4个时钟周期          // 因此,虽然我没有实际测试,但是我依然认为二者效率上差别不大              }      return hash;  }  /// @brief SDBM Hash Function  /// @detail 本算法是由于在开源项目SDBM(一种简单的数据库引擎)中被应用而得名,它与BKDRHash思想一致,只是种子不同而已。  template<class T>  size_t SDBMHash(const T *str)  {      register size_t hash = 0;      while (size_t ch = (size_t)*str++)      {          hash = 65599 * hash + ch;                 //hash = (size_t)ch + (hash << 6) + (hash << 16) - hash;      }      return hash;  }  /// @brief RS Hash Function  /// @detail 因Robert Sedgwicks在其《Algorithms in C》一书中展示而得名。  template<class T>  size_t RSHash(const T *str)  {      register size_t hash = 0;      size_t magic = 63689;         while (size_t ch = (size_t)*str++)      {          hash = hash * magic + ch;          magic *= 378551;      }      return hash;  }  




#pragma once#include<string>using namespace std;std::allocator//vector<int, std::alloc> iv;//_malloc_alloc_template;//malloc和free的封装//(size_t)_MAX_BYTES;template<typename K>class HashFunc{size_t operator()(const K& key){return (size_t)key;}};//特化template<>class HashFunc<std::string>{size_t operator()(const std::string & key){size_t hash = 0;for (const auto& e : key){hash += e;hash *= 131;}return hash;}};namespace Hash_Bucket{template<typename T>class HashNode{HashNode<T>* _next;T _data;HashNode(const T& data):_next(nullptr), _data(data){}};template<typename K, typename T, typename KeyOfT, typename Hash>class HashTable;template<typename K, typename T, typename KeyOfT, typename Hash>class __HashTableIterator{typedef HashNode<T> Node;typedef HashTable<K, T, KeyOfT, Hash> HT;typedef __HashTableIterator<K, T, KeyOfT, Hash> Self;Node* _node;HT* _ht;__HashTableIterator(const Node* node, const Ht* ht):_node(node), _ht(ht){}T& operator*(){Hash hs;KeyOfT kot;return hs(kot(_node->_data));}Self& operator++(){if (_node->_next){_node = _node->_next;}else{KeyOfT KOT;Hash hs;size_t hashi = hs(kot(_node->_data)) % _ht->_tables.size();hashi++;while (hashi < _ht->_tables.size()){if (_ht->_tables[hashi]){_node = _ht->_tables[hashi];break;}hashi++;}if (hashi == _ht->_tables.size()){_node = nullptr;}}return *this;}bool operator!=(const Self& s){return _node != s._node;}};template<typename K, typename T, typename KeyOfT, typename Hash>class HashTable{template<typename K, typename T, typename KeyOfT, typename Hash>friend struct __HashTableIterator;typedef HashNode<T> Node;public:typedef __HashTableIterator<K, T, KeyOfT, Hash> iterator;iterator begin(){for (size_t i = 0; i < _tables.size(); i++){if (_tables[i]){return iterator(_tables[i], this);}}return end();}iterator end(){return iterator(nullptr, this);}HashTable(){_tables.resize(10, nullptr);_n = 0;}~HashTable(){for (size_t i = 0; i < _tables.size(); i++){Node* current = _tables[i];while (current){Node* next = current->_next;delete cur;current = next;}_tables[i] = nullptr;}}bool Insert(const T& data){KeyOfT kot;if (Find(kot(data))){return false;}Hash hs;if (_n == _tables.size()){vector<Node*> NewTables(_tables.size() * 2, nullptr);for (size_t i = 0; i < _tables.size(); i++){Node* current = _tables[i];while (current){Node* next = current->_next;size_t hashi = hs(kot(current->_data)) % NewTables.size();current->_next = NewTables[hashi];NewTables[hashi] = current;current = next;}_tables[i] = nullptr;}_tables.swap(NewTables);}size_t hashi = hs(kot(data)) % _tables.size();Node* NewNode = new Node(data);NewNode->_next = _tables[hashi];_tables[hashi] = NewNode;++_n;return true;}Node* Find(const T& key){KeyOfT kot;Hash hs;size_t hashi = hs(kot(key)) % _tables.size();Node* current = _tables[hashi];while (current){if (kot(current->_data) == key){return current;}current = current->_next;}return nullptr;}bool Erase(const K& key){KeyOfT kot;Hash hs;size_t hashi = hs(kot(key)) % _tables.size();Node* prev = nullptr;Node* current = _tables[hashi];while (current){if (kot(current->_data) == key){if (prev){prev->_next = current->_next;}else{_tables[hashi] = current->_next;}delete current;--_n;return true;}prev = current;current = current->_next;}return false;}private:vector<Node*> _tables;size_t _n;};}
#pragma once#include"HashTable.hpp"namespace Bit{template<typename K, typename V, typename Hash = HashFunc<K>>class Unordered_Map{class MapKeyOfT{const K& operator()(const pair<K, V>& key){return key.first;}};public:typedef typename Hash_Bucket::HashTable<K, pair<const K, V>, MapKeyOfT, Hash>::iterator iterator;iterator begin(){return _ht.begin();}iterator end(){return _ht.end();}bool insert(const pair<K, V>& key){return _ht.Insert(key);}private:Hash_Bucket::HashTable<K, pair<const K, V>, MapKeyOfT, Hash> _ht;};}


// K:关键码类型// V: 不同容器V的类型不同,如果是unordered_map,V代表一个键值对,如果是unordered_set,V 为 K// KeyOfValue: 因为V的类型不同,通过value取key的方式就不同,详细见unordered_map/set的实现// HF: 哈希函数仿函数对象类型,哈希函数使用除留余数法,需要将Key转换为整形数字才能取模template<class K, class V, class KeyOfValue, class HF = DefHashF<T> >class HashBucket;
// 为了实现简单,在哈希桶的迭代器类中需要用到hashBucket本身,template<class K, class V, class KeyOfValue, class HF>class HashBucket;// 注意:因为哈希桶在底层是单链表结构,所以哈希桶的迭代器不需要--操作template <class K, class V, class KeyOfValue, class HF>

这部分内容算是C++里面最难的内容 哈希表大概涉及了C++中的模板和泛型编程以及含函数和迭代器——所谓的smart poniter智能指针以及我们的继承多态和封装的知识


由于本文章篇幅较长 我们将基于Hash和位图的海量数据处理面试题放于下一节讲解



