布隆过滤器 (Bloom Filter) 的底层原理与 C++ 代码实现

介绍布隆过滤器底层原理与 C++ 实现。该结构利用位图和多哈希函数实现高效概率存储，查询不存在必准，存在可误判。文章推导误判率公式并给出参数选择指南，提供基于 BKDRHash 等算法的 C++ 模板代码。同时讨论不支持删除原因、应用场景（缓存穿透、URL 去重）及性能对比。适用于海量数据判重场景。

宁静发布于 2026/3/22更新于 2026/4/182 浏览

前言

在上一篇文章中，我们见识了位图（Bitset）在处理海量整型数据时的恐怖统治力：仅需 500MB 内存就能处理 40 亿个整数的查找与去重。

但是，现实工程中我们遇到的往往不是纯数字。比如：

爬虫系统需要对 10 亿个 URL 进行去重。垃圾邮件过滤系统需要判断一个邮箱地址是否在千万级的黑名单中。数据库防止'缓存穿透'，需要快速判断一个查询条件（通常是字符串）是否存在。

URL 和邮箱都是字符串，位图只能存整型，如果用哈希把字符串转成整型存入位图，会遇到极其严重的哈希冲突（不同的字符串算出了同一个整型，导致误判）。

为了在极致压缩空间的同时，尽可能降低字符串映射带来的哈希冲突，1970 年，Burton Howard Bloom 提出了一个绝妙的数据结构——布隆过滤器（Bloom Filter）。

一、布隆过滤器的核心原理

1.1 基本概念

布隆过滤器的本质是：一个极长的位图（Bitset） + 多个相互独立的哈希函数。

空间效率极高：不存储元素本身，只存储映射标记查询结果概率性：判断不存在一定正确，判断存在可能误判

1.2 核心特性

特性	说明
假阳性（False Positive）	可能误判存在的元素为不存在（有概率）
假阴性（False Negative）	绝不误判不存在的元素为存在（100%准确）
删除操作	标准实现不支持删除

1.3 工作原理图解

1.3.1 插入元素过程

初始状态：位图全 0 [0][0][0][0][0][0][0][0][0][0]
插入"find"：
  哈希函数 1 → 位置 2
  哈希函数 2 → 位置 5
  哈希函数 3 → 位置 7
结果： [0][1][0][0][1][0][1][][][]
↑    ↑    ↑
h1= h2= h3=

期望误判率	m/n 比率	k 值（哈希函数个数）
10%	4.8	3
1%	9.6	4
0.1%	14.4	5
0.01%	19.2	6

场景	说明	示例
缓存穿透防护	过滤不存在数据的请求，保护数据库	Redis + 布隆过滤器
恶意 URL 检测	快速判断 URL 是否在黑名单中	浏览器安全功能
爬虫 URL 去重	避免重复爬取相同网页	搜索引擎爬虫
垃圾邮件过滤	快速判断发件人是否在黑名单	邮件系统
基因序列分析	DNA 序列快速匹配	生物信息学

指标	值
插入时间复杂度	O(k) k 为哈希函数个数
查询时间复杂度	O(k) k 为哈希函数个数
空间复杂度	m bits m 为位图长度
误判率	可控制在 1% 以下

优点	缺点
空间效率极高	存在误判率
插入查询 O(k) 快速	不支持删除
不存储元素本身（安全）	不能遍历元素
适合海量数据	需要预先估计数据量

布隆过滤器 (Bloom Filter) 的底层原理与 C++ 代码实现

前言

一、布隆过滤器的核心原理

1.1 基本概念

1.2 核心特性

1.3 工作原理图解

1.3.1 插入元素过程

更多推荐文章

相关免费在线工具

1.3.2 查询元素过程

二、误判率分析与参数选择

2.1 误判率公式

2.2 参数选择指南

三、C++ 完整实现

3.1 哈希函数设计

3.2 布隆过滤器模板类

四、布隆过滤器的进阶讨论

4.1 为什么不支持删除？

4.2 应用场景

4.3 性能分析

五、总结与思考

5.1 核心思想回顾

5.2 设计要点

5.3 优缺点对比

布隆过滤器 (Bloom Filter) 的底层原理与 C++ 代码实现

前言

一、布隆过滤器的核心原理

1.1 基本概念

1.2 核心特性

1.3 工作原理图解

1.3.1 插入元素过程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3.2 查询元素过程

二、误判率分析与参数选择

2.1 误判率公式

2.2 参数选择指南

三、C++ 完整实现

3.1 哈希函数设计

3.2 布隆过滤器模板类

四、布隆过滤器的进阶讨论

4.1 为什么不支持删除？

4.2 应用场景

4.3 性能分析

五、总结与思考

5.1 核心思想回顾

5.2 设计要点

5.3 优缺点对比