作者:京东科技 孙晓军

摘要

隐私调集求交(PSI)是安全多方核算(MPC)中的一种密码学技能,它答应参加核算的两边,在不获取对方额定信息(除交集外的其它信息)的根底上,核算出两边数据的交集。隐私调集求交在数据同享,广告转化率,联系人发现等范畴有着广泛的运用空间。本文对隐私调集求交的各项完结技能做了介绍和比照,对隐私调集求交的原理进行了剖析,并进一步阐述了隐私调集求交现在面对的挑战和开展远景。

【关键词】:隐私调集求交,安全多方核算,不经意传输

1 导言

隐私调集求交(PSI)是安全多方核算(MPC)中的一种密码学技能,它答应参加核算的两边,在不获取对方额定信息(除交集外的其它信息)的根底上,核算出两边数据的交集。跟着大数据,人工智能,云核算等技能的鼓起,企业和个人对隐私数据的维护越来越注重。隐私调集求交,作为安全多方核算中的关键技能,在近年来的理论研讨也得到了长足的开展。

在数字经济的很多安全威胁中,数据走漏已成为全球规模高发的安全事情之一,且这个趋势仍在持续。

  • 2018 年,Facebook 因向第三方公司歹意走漏其用户信息被判罚数十亿美元
  • 2019 年,字节跳动因搜集未成年人信息被罚款总计约 1 亿美元
  • 2020 年,我国电信 2 亿用户信息被贩卖,相关人员被判刑并处以罚款
  • 2021 年,亚马逊因违反数据隐私法规被处罚 8.88 亿美元

在这些数据安全问题中,有人为原因的故意走漏,也有技能缺陷导致的数据走漏。数据隐私问题,直接影响着企业的利益和信誉,乃至因而导致企业倒闭。

跟着我国在信息化和数字化的持续开展,很多具有灵敏性和私密性的个人和企业信息在互联网上传达。怎么安全地运用这些信息为企业和个人供给快捷的服务,一起又能保证信息不在传输进程中被走漏,对数字经济的健康开展,有着非常重要的效果和意义。
2021 年 6 月 10 日,十三届人大常委会第二十九次会议经过了《数据安全法》
2021 年 8 月 20 日,十三届人大常委会第三十次会议表决经过《中华人民共和国个人信息维护法》。
可以预见,对个人和企业隐私数据的维护,会被越来越多的企业和个人注重。咱们经过对隐私调集求交的现状和开展的总述,重点介绍隐私调集求交的技能原理,为树立企业和个人对隐私数据维护的注重和信任,供给理论依据,并对隐私调集求交的开展远景进行剖析,推进隐私核算的根底研讨和商业运用开展。

2 根底原语

2.1 安全模型

安全模型又被称为对手模型或敌手模型,被用来衡量一个协议的安全等级。依据模型的安全假设,一般把安全模型分为诚笃(honest),半诚笃(semi-honest)和歹意(malicious)三种。

  • 诚笃型对手会彻底依照密码学的协议履行,并且不会自动测验获取额定的信息。
  • 半诚笃型对手会彻底依照密码学的协议履行,但会尽或许测验从收到的信息中获取额定的信息。
  • 歹意模型不会严厉按协议履行,他们可以做任何事情来到达获取额定信息的目的。

迄今为止,隐私调集求交的协议,大多依据对手模型是半诚笃模型的前提下进行的研讨。对立歹意模型的协议,尽管供给了更好的安全保证,但一般具有较为低下的履行效率 [8]。尽管半诚笃模型不能对协议的两边供给彻底的安全维护,但依据半诚笃模型的协议的研讨,可以为对立歹意模型的协议,供给技能储备。并且依据对手模型为半诚笃模型的协议,可以经过配合诸如随机预言,惩罚性办法等多种技能手法,来到达挨近歹意模型下的协议的效果。

2.2 隐秘同享

隐秘同享(Secret Sharing,SS)是将一份原始隐秘信息,拆分红多份。再把多份数据,分给不同的用户持有。其间的任何一份数据,都不可以彻底恢复原始的隐秘信息。只要到达指定数量的用户,调集他们手中持有的隐秘,经过核算才干得出原始的隐秘信息。隐秘同享的关键在于隐秘的拆分方式和恢复办法。隐秘同享已经成为密码学中的一个重要分支,是信息安全和数据保密中的重要手法,被广泛运用于电子付出,密钥托管和隐私维护范畴。

2.3 同态加密

同态加密(Homomorphic Encryption,HE)是将数据加密后,对加密数据进行运算处理,之后对数据进行解密,解密成果等同于数据未进行加密,并进行相同的运算处理。现在,同态加密支撑的运算首要为加法运算和乘法运算。依照其支撑的运算程度,同态机密分为半同态加密(Partially Homomorphic Encryption, PHE)和全同态加密(Fully Homomorphic Encryption, FHE)。半同态加密在数据加密后只持加法运算或乘法运算中的一种,依据其支撑的运算的不同,又称为加法同态加密或乘法同态加密。半同态加密由于机制相对简略,相关于全同态加密技能,具有着更好的功能。全同态加密对加密后的数据支撑恣意次数的加法和乘法运算。

3 隐私调集求交的首要技能计划

3.1 朴素哈企求交技能

隐私集合求交(PSI)协议研究综述

图 1 朴素哈企求交法

朴素哈希(simple hashing)求交技能 [1] 的原理是运用哈希函数,把调集中的元素映射到一个均匀分布的空间。运用哈希函数的不可逆的性质,传输映射后的数据并进行比对求交。

朴素哈企求交法是一种非安全的求交办法。假如发送者 Alice 持有的数据集 X 的样本空间 较小(比如手机号码或特定的电子邮件等),那么 Bob 在接收数据后,可以进行对样本空间内的一切数据进行哈希核算来破解。即便要比对的数据具有足够大的样本空间,朴素哈企求交法也并非绝对安全,接收者 Bob 仍可以依据获取到的核算后的数据,判断 Alice 是否具有哪些特定的信息。

实践运用中,为了对立彩虹表进犯,朴素哈企求交法一般会在运行时通讯两边暂时洽谈一个随机的盐值,在哈希核算时运用对应的盐值进行加盐哈希核算。加盐朴素哈希的隐私调集求交一般进程为:

  1. 发送者 Alice 持有数据 X={x1, x2, …, xm}, 接收者 Bob 持有数据 Y={y1, y2, …, yn}
  2. Alice 和 Bob 运用相同的哈希函数 H
  3. Alice 生成随机盐值 Salt 并发送给 Bob
  4. Bob 运用 salt 对一切 Y 进行哈希核算 hyi= H(yi, salt)
  5. Alice 运用 Salt 对一切 X 进行哈希核算 hxi= H (xi, salt), 并发送 hxi 给 Bob
  6. Bob 核算 {hx1, hx2, …, hxm}∩{hy1, hy2, …, hyn} 的成果为 Alice 和 Bob 数据的交集

朴素哈企求交法,是现在 PSI 协议中,功能最优的协议。由于协议本身不具备安全求交才能,一般只能运用在特定问题下的非灵敏数据的求交场景。

3.2 姚氏混杂电路

姚氏混杂电路(Yao’s Garbled Circuits)[2] 协议由 1986 年由图灵奖取得者姚期智院士提出,用来解决著名的姚氏百万富翁问题。混杂电路运用布尔电路(与,或,非等)构建电路表,保证核算的进程中,两边的数据不被走漏。终究依据混杂电路的核算成果,以及混杂电路表,可以核算两边数据的核算成果。

隐私集合求交(PSI)协议研究综述

图 2 完好的姚氏电路 [2]

一个典型的姚氏混杂电路的核算进程分为混杂电路生成阶段,电路履行阶段和电路评价阶段。

  1. 混杂阶段,Alice 生成一个布尔混杂电路表,运用混杂电路表为每个布尔值生成密钥。Alice 对混杂电路的核算成果,运用布尔电路中对应的密钥进行加密,打乱顺序后和自己持有的数据 X 对应的密钥信息发送给 Bob。
  2. 履行阶段,Bob 依据自己持有的数据 Y,经过 OT 协议获取混杂电路表对应的密钥信息。Bob 运用自己持有的数据对应的密钥和 Alice 给的密钥对 Alice 发送过来的混杂电路的核算成果进行解密,其间,只要 Alice 和 Bob 持有的数据对应的混杂电路的数据,可以被正常解密。
  3. 评价阶段,Bob 发送解密后的值给 Alice,Alice 对照混杂电路核算成果,得出终究的核算成果。

隐私集合求交(PSI)协议研究综述

图 3 用于持平比较的混杂电路规划

混杂电路的规划不仅可以运用在隐私调集求交的数据持平的比较场景,也可以运用于安全的数据大小比较,含糊查询等场景。 依据混杂电路的计划相较于热门的依据不经意传输的计划在功能上处于下风,且相同依据半诚笃的对手模型,使得此计划现在在实践运用中运用较少。

3.3 依据同态加密

隐私集合求交(PSI)协议研究综述

图 4 依据全同态加密的隐私调集求交协议 [5]

2017 年,Hao Chen 等人,给出依据全同态加密(FHE)的隐私调集求交办法 [5]。依据同态加密的隐私调集求交办法首要是对数据进行同态加密,并运用加密后的数据和原始数据构建多项式并核算多项式的值。其首要进程为:

  1. 发送者 Alice 持有数据 X={x0, x1, …, xn-1}, 接收者 Bob 持有数据 Y={y0, y1, …, ym-1}
  2. Bob 生成同态加密密钥,并对调集中的一切数据进行全同态加密生成新的调集 C = {c0, c1, …, cm-1}
  3. Alice 生成随机一组随机数 R,并运用如下公式来核算多项式的值。
    隐私集合求交(PSI)协议研究综述
    Alice 将核算成果的数据集 {d0, d1, …, dn-1} 发送给 Bob
  4. Bob 对数据集进行解密,搜集一切解密成果为 0 的数据,便是数据集 X 与数据集 Y 的交集。

在交互进程中,Alice 收到的是同态加密后的数据,所以 Alice 不知道 Bob 的数据集 Y 的信息。Bob 收到的是经过多项式核算后的同态加密数据,假如解密后的成果为 0,Bob 知道对应的数据存在于 Alice 的数据集 X 中,不然解密后的数据关于 Bob 来说是一个随机数。

在上述进程中,Bob 对数据集 Y 内的一切数据进行同态加密,Alice 核算高阶多项式,和 Bob 对多项式核算成果进行解密是计划中对功能负面影响较大的行为。在 Chen 等人的办法中,针对这些问题进行了一些列的优化处理,其间包括运用布谷鸟哈希办法和批处理同态加密,下降协议的核算开支和通讯开支。运用分窗的办法来加快高阶多项式核算。

依据同态加密的隐私调集求交,只对一方的数据进行同态加密和解密,使得此计划合适两边的数据集大小差异较大的场景(n>>m)。

同态加密算法现在是一种低效的加密算法,全同态加密的密文长度一般非常大,使得现在依据同态加密的隐私调集求交计划在功能上不占有优势。
特别地,Chen 的依据全同态加密的隐私调集求交计划,只对接受者一侧履行同态加密,这使得算法合适运行在求交的调集差异较大的场景。

3.4 依据公钥加密

隐私集合求交(PSI)协议研究综述

图 5 RSA 盲签名协议 [7]

依据 RSA 的求交法 [6] 最早由 Meadows 等人于 1986 年提出,协议的首要思想是通讯的两边各自生成一个大素数,对数据进行乘方运算,并比对核算的成果。2010 年,Cristofaro 等人提出的依据 RSA 盲签名的隐私调集求交技能 [7],是现在功能最好的依据公钥加密的隐私调集求交技能。其一般进程为:

  1. 发送者 Alice (Server) 持有数据 S={s1, s2, …, sw}, 接收者 Bob 持有数据 C={c1, c2, …, cv}
  2. Alice 和 Bob 运用相同的哈希函数 H 和 H`,Bob 有持有 RSA 的私钥 (n, e),并将公钥 (n, d) 发送给 Alice
  3. 离线阶段:

3.1. Alice 运用公钥对每个 S 核算 hsj= H(sj), Ks:j= RSA(hsj), tj= H`(Ks:j)
3.2. Bob 生成随机数 Rc:i(Rc:i< n 且 gcd (Rc:i, n) = 1),并运用私钥对数据 C 核算 hci= H(ci), yi= hci* RSA(Rc:i)

  1. 在线阶段:

4.1. Bob 发送一切 yi给 Alice
4.2. Alice 运用私钥核算 yi’= RSA(yi)
4.3. Alice 发送一切 yi’ 和 tj 给 Bob
4.4. Bob 核算 Kc:i= (yi’/ Rc:i) mod n, ti’= H'(Kc:i)。之后核算 { t1′, t2′, …, tn’}∩{t1, t2, …, tw}, 输出的成果为 Bob 和 Alice 数据的交集

依据 RSA 的求交协议,比较典型的是 RSA 盲签名求交协议。RSA 盲签名求交协议是对依据 RSA 的求交协议(依据 RSA 的密钥交换办法)的改善办法,可以在对手是歹意模型时,安全核算数据的交集,并供给了更好的核算功能。算法分为离线阶段和在线阶段,其间离线阶段操作可以在数据预处理阶段完结。实践履行求交算法时,只对一方的数据履行一次 RSA 加密操作,相较于其它依据 RSA 的求交协议,具有更好的功能优势。RSA 盲签名算法的正确性依据如下公式 (留意原论文中的 Kc:i= yi’/ Rc:i, 实践应为 Kc:i= (yi’/ Rc:i) mod n, 作者在后续论文中有纠正):

隐私集合求交(PSI)协议研究综述

其原理是运用大数的离散对数没有有用的核算办法的特点,Alice 对 Bob 持有的伪随机数据进行签名,Bob 去除伪随机得到签名过的自己的数据,再和 Alice 端的签名数据做比照求交。

由于 RSA 核算复杂度较高,协议中 RSA 的核算次数会跟着数据量的增大呈线性增长,使得依据 RSA 的求交办法,在数据量较大时会产生功能问题。

由于 RSA 盲签名算法在运行时只对一端的数据进行 RSA 加密,使得在求交数据量级差距较大时,可以把数据量较小的一端作为 Client 端,这样可以取得非常大的功能优势。别的,RSA 算法的流程合适并行处理,便利运用并行核算来提高功能。

RSA 盲签名协议可以在歹意对手模型下,为隐私调集求交供给安全保证,但由于非对称加密的次数随比对的数量量的增加呈线性增长,所以无法处理海量数据的隐私调集求交场景。

3.5 依据不经意传输

隐私集合求交(PSI)协议研究综述

图 6 不经意传输

OT(Oblivious Transfer)是根底的密码学原语,中文译为不经意传输,茫然传输。OT 协议最早于 1981 年由 Michael O. Rabin 提出,协议由发送方和接收方两方参加,接收方恳求获取信息,发送方发送信息给接收方。在这个进程中,发送方对接收方的恳求信息一无所知,一起接收方也无法获取恳求的信息之外的额定信息。OT 协议首要运用有限的非对称加密技能,到达安全传输很多数据的功能

2014 年,Pinkas 等人提出了依据 OT 扩展协议的高效隐私调集求交计划 [8],该计划运用 OT 扩展,传输数据使得通讯双发取得一个伪随机函数,并运用此伪随机函数对两边持有的数据进行加密比对。计划首要分为三个阶段来履行,哈希阶段,隐秘传输阶段和求交阶段。在哈希阶段,通讯 Alice 和 Bob 把各自持有的数据经过哈希运算均匀分布在一个给定大小的地址空间内,并运用随机数填充空余的哈希方位。在隐秘传输阶段,Bob 依据自己持有数据的比特信息作为选择位,运用 OT 扩展安全地获取 Alice 持有相同比特方位上的伪随机生成数据。最后在求交阶段,Bob 解密伪随机数据,并和自己持有的而数据进行比较。

2016 年,Kolesnikov 运用批量 OT 扩展传输和布谷鸟哈希完结了更高效的隐私调集求交计划 [9],依据 OT 的隐私调集求交成为功能上最只是朴素哈企求交技能的隐私调集求交计划。2019 年,Pinkas 等人提出了依据稀少扩展的隐私调集求交计划 [10],计划首先把隐秘信息分红三份,这样在未获取到要求交的数据之前,可以提前随机生成两份隐秘信息,以便在离线阶段进行 OT 扩展传输,提前获取伪随机生成函数。在在线阶段,为了防止传输很多的隐秘信息,计划运用了多项式技能,把要传输的数据融入多项式,仅传递多项式的参数来替代传输很多数据。依据该计划的测验成果,在要比照的数据量巨大,或者带宽受限制场景下,此计划相较于现在最优的依据 OT 的隐私调集求交计划,供给了更好的功能优势。

尽管依据不经意传输的隐私调集求交技能仍然是运用非对称加密技能作为其完结原理,但不经意传输运用有限次非对称加密,来完结恣意数量的安全数据传输。依据不经意传输的隐私调集求交计划,是现在研讨最为活跃的隐私调集求交计划。

4 隐私调集求交远景展望

隐私调集求交作为安全多方核算的关键技能,自诞生以来,得到了企业,个人和机构的高度的重视,现在仍在快速开展中。近些年来,频频出台的隐私和信息维护的法律法规,促进了我国在隐私核算范畴相关的研讨和落地的高速开展。现在最为流行的隐私调集求交计划是依据不经意传输的隐私调集求交计划,对该计划的研讨是依据安全性和功能平衡后的一种考量,研讨的思路首要在减少非对称加密次数和通讯两边传输的数据量。

尽管隐私调集求交技能在最近这些年得到了长足的开展,但仍面对了诸多挑战,其间包括最流行的依据不经意传输协议的隐私调集求交计划是限制对手模型是半诚笃模型的前提下的安全求交协议。隐私调集求交技能作为根底运用技能,其功能仍有提高需求。现在的各种技能计划,短少规范的对立手法来证明其确真实实践运用中维护了数据安全。以及短少依据隐私调集求交的各种标杆性运用。

隐私核算在金融,政务,运营商,营销商,科研机构等对本身数据极为灵敏,且对 IT 智能化有激烈需求的职业和范畴,有着重要的位置。关于隐私调集求交技能在实践职业运用上的实践,需求重视的首要为题有:

  1. 安全性。隐私核算为提高体系安全性而生,作为隐私核算底层关键性技能之一的隐私调集求交,需求在安全性方面供给令业界服气的才能和证明方式。这决议了隐私调集求交的核心技能,需求供给可服气的论文和理论依据,且一般为大众认可的开源代码
  2. 权威认证。隐私核算对安全性要求极为灵敏,除了在算法方面有可信理论依据之外,还需求对应的权威机构认证。这包括安全性认证的权威机构,模拟破坏性进犯防御才能的权威机构等。
  3. 自动防御才能。在依据智能剖析或满意客户设定的阈值的前提下,假如在核算进程中,运用及时识别出通讯的参加方或许包括歹意进犯,应可以及时中止核算并记录断定进犯的相关数据。
  4. 可解释性。可解释性是更好的自动观测核算进程和维护的才能。包括核算进程的可视化,通讯数据抓取,事情审计才能等计划。
  5. 优异的功能。作为安全通讯的底层技能,隐私调集求交需求供给相对优异的功能,以便应对海量数据处理以及实时数据剖析的需求。这要求隐私调集求交算法的功能,应尽或许去迫临朴素哈企求交算法的功能。

隐私调集求交现在在国内已经有商业化运用落地,但仍短少标志性的成功商业运用作为标杆,使得隐私核算的商业化进程在需求和质疑中缓步前行。在当时的商场布景下,怎么保证往后的技能创新和运用可以在符合法律法规的前提下,安全高效地进行数据交互,将会是未来数据密集型体系的一个重要的支撑才能。关于持有很多灵敏数据的传统企业来说,也急需一种可靠的技能,既可以运用数据创造价值,又可以保证持有者的数据的隐私安全。

参考文献

[1] M. Raab and A. Steger. “Balls into bins” – a simple and tight analysis. In Randomization and Approximation Techniques in Computer Science (RANDOM’98), volume 1518 of LNCS, pages 159–170. Springer, 1998.

[2] A. C. Yao. How to generate and exchange secrets. In Foundations of Computer Science (FOCS’86), pages 162–167. IEEE, 1986.

[3] M. Bellare, V. Hoang, and P. Rogaway. Foundations of garbled circuits. In Proceedings of the 2012 ACM Conference on Computer and Communications Security, CCS’12, pages 784–796, 2012.

[5] Chen H, Laine K, Rindal P. Fast private set intersection from homomorphic encryption[C] //Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 1243-1255.

[6] Meadows C. A more efficient cryptographic matchmaking protocol for use in the absence of a continuously available third party[C]//1986 IEEE Symposium on Security and Privacy. IEEE, 1986: 134-134.

[7] E. De Cristofaro, G. Tsudik, Practical private set intersection protocols with linear complexity, in: International Conference on Financial Cryptography and Data Security, Springer, 2010: pp. 143–159.

[8] B. Pinkas, T. Schneider, and M. Zohner. Faster private set intersection based on OT extension. In USENIX Security Sympo sium, pages 797–812. USENIX, 2014.

[9] V. Kolesnikov, R. Kumaresan, M. Rosulek, and N. Trieu. Efficient batched oblivious
PRF with applications to private set intersection. In ACM CCS 2016, pages 818–829,
Vienna, Austria, October 24–28, 2016. ACM Press. 7

[10] B. Pinkas, M. Rosulek, N. Trieu, and A. Yanai. SpOT-light: Lightweight private set
intersection from sparse OT extension. In CRYPTO 2019, Part III, LNCS 11694,
pages 401–431, Santa Barbara, CA, USA, August 18–22, 2019. Springer, Heidelberg,
Germany. 7

[11] 申立艳,陈小军,时金桥,胡兰兰。隐私维护调集交集核算技能研讨总述 [J]. 核算机研讨与开展,2017,54 (10):2153-2169.

[12] 黄翠婷,张帆,孙小超,等。隐私调集求交技能的理论与金融实践总述 [J]. 信息通讯技能与方针,2021 (6):50-56. DOI:10.12267/j.issn.2096-5931.2021.06.006.

内容来源:京东云开发者社区[www.jdcloud.com/]