显然坊: 关于BloomFilter容量的研究

一、BloomFilter的原理

BloomFilter是一个时间和空间都非常高效的存储结构，它的基本用途是检查任意一个key（字符串）是不是在一个给定的集合（bit数组）里。基本原理是对于给定的key 计算一系列hash的值，将每一个hash的值作为索引到bit数组里去寻找相应的bit是不是为1。只有当一个key对于所有的hash值检索的结果都是1，这个key才被认为在BloomFilter集合里面；反之，只要有一个hash值检索的结果为0，则表明该key一定不在集合中。

BloomFilter有以下特性：

只能查询给定的key是否在给定的集合中，或者在该集合中有多少个key。但不能列举出这些key。
只能被用于检索某个key是否在给定的集合中，而不能判断这个key在集合中出现几次，也不能象hash表一样给每个key关联一个value。一些扩展算法，例如Bloomier Filter、Counting Bloom Filter等，可以用时间和空间代价换取这些特性。
无法删除。一旦一个key被加入Bloom Filter后，就无法将它从中删除。Counting Bloom Filter可以以时间和空间代价实现删除操作。
存在一定的可能性，BloomFilter对于不存在于集合中的key可能返回不正确的结果，即报告其存在于集合中。这个被称之为False Positive。但是，BloomFilter报告为不存在于集合中的key则一定不存在。即它的False Negative为0。

二、最优化参数

一个Bloom Filter有以下参数：