Google宣布在云端资料仓储BigQuery添加差分隐私(Differential Privacy)技术,使得用户可以在各种应用中提升敏感资料的隐私安全性。 目前所有BigQuery版本都已经支持差分隐私,用户能够使用的聚合函数包括SUM、COUNT、AVG和PERCENTILE_CONT。

差分隐私是一个隐私安全的特征共享方法,通过仅分享数据库中的一些统计特征,而不公开特定实体信息,来达到保护隐私安全的目的。 差分隐私这项匿名化技术,能够应用在机器学习推理和共享数据用例上,包括广告、金融、医疗保健和教育行业应用,皆会使用差分隐私进行数据分析,并免暴露个人纪录。
Google在2019年发表将差分隐私技术应用在数据库的重要研究,其目标是希望差分隐私能够确保数据库查询的结果,不会泄漏数据库中任何个体的过多信息。 这项研究的重要性在于,过去差分隐私都仅停留在科学研究阶段,真正完整的差分隐私查询引擎很少,而Google的这项研究则将差分隐私带进实际应用中。
差分隐私用于实际系统之所以存在挑战,在于差分隐私系统常假设每个个体最多只与一条数据库记录相关联,但在数据库实际应用上并非如此,Google提出在数据库中进行差分隐私聚合的方法,这是一个通用且可扩展的方法,每个个体可以和任意行数的数据相关联。
Google在发表差分隐私论文的同时,也开源了自家核心产品中所使用的差分隐私函式库,包括Google的广告资料中心,以及COVID-19社区人流趋势报告,都使用了这个函式库。
现在Google进一步扩展自家产品对差分隐私的支持,利用差分隐私函式库,在BigQuery加入这项隐私保护功能,优点除了提升数据应用隐私保护之外,也能协助企业符合法遵要求,而且因为差分隐私与其他隐私保护技术相比,更能保留数据的统计特性和可用性,因此企业在保护用户隐私的同时,仍可以对资料进行分析,挖掘有价值的信息。
Google提到,之后他们还会在BigQuery资料无尘室(Clean Room)中整合差分隐私,使企业能够以更具隐私安全的方式共享敏感资料。