![动手学差分隐私](https://wfqqreader-1252317822.image.myqcloud.com/cover/136/49165136/b_49165136.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2.1 小分组问题
在很多情况下,我们需要将数据分组,并分别给出各个分组的聚合统计结果。举例来说,我们可能想知道取得不同学位的个体的平均年龄。
![](https://epubservercos.yuewen.com/35E70E/28900739603301906/epubprivate/OEBPS/Images/20_03.jpg?sign=1738971635-FOMPJFoOpeipERJoSzeORwCF2Cbc5dBb-0-8a833a53f2cb9ea6661d88463f4818f0)
一般认为,对数据进行聚合处理可以提升数据的隐私保护效果,因为很难识别出特定个体对聚合统计结果所带来的影响。但如果某个分组只包含一个个体呢?在这种情况下,聚合统计结果将准确泄露此个体的年龄,无法提供任何隐私保护。在我们的数据集中,大多数个体的邮政编码是唯一的。因此,如果我们计算不同邮政编码所属个体的平均年龄,则大多数“平均值”将直接泄露单一个体的年龄。
![](https://epubservercos.yuewen.com/35E70E/28900739603301906/epubprivate/OEBPS/Images/21_01.jpg?sign=1738971635-XwmFRguk2W7oyJ388Dx4PnQfQxSc4qOF-0-d49823ef79988450eafadac49889ac40)
例如,美国人口普查局以街区为粒度(见https://www.census.gov/newsroom/blogs/random-samplings/2011/07/what-are-census-blocks.html)发布聚合统计数据。有些人口普查区的人口众多,但有些人口普查区的人口为0。事实证明,聚合统计结果无法隐藏小分组的个体信息的情况相当普遍。
分组要达到多大,聚合统计结果才能隐藏个体信息?这个问题很难回答,因为只有知道数据本身和具体的攻击方法时,才能回答这个问题。因此,很难确信聚合统计结果真的能达到隐私保护的目的。然而,我们接下来将会看到,即使分组足够大,也可以实施相应的攻击,从聚合结果中获得个体信息。