数据是AI发展的基础 ,而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。甚至即使是在同一个企业的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。 用户是原始数据的拥有者,在用户没有批准的情况下,企业间是不能交换数据的,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注。 针对以上提到的数据孤立和数据隐私的两难问题,多家机构和学者提出解决办法。即在满足数据隐私、安全和监管要求的前提下,设计一个模型框架,让人工智能系统能够更加高效、准确的共同使用各自的数据。 什么是联邦学习 联邦学习是一个机器学习框架,能有效帮助多个参与方在满足用户隐私保护、数据安全和政府法规的要求下、在不共享数据的基础上进行协作,是从技术上有效解决数据孤立问题。
系统架构 实施步骤 第一步:加密样本对齐。由于两家企业的用户群体并非完全重合,系统利用基于加密的用户样本对齐技术,在 A 和 B 不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户。以便联合这些用户的特征进行建模。 第二步:加密训练。在确定共有用户群体后,利用这些数据训练模型。 第三步:联合建模。 ① 协编辑 C 把公钥分发给 A 和 B,对训练过程中需要交换的数据进行加密。 ② A 和 B 之间以加密形式交互用于计算梯度的中间结果。 ③ A 和 B 分别基于加密的梯度值进行计算,同时 B 根据其标签数据计算损失,并把这些结果汇总给 C,C 通过汇总结果计算总梯度并将其解密。 ④ C 将解密后的梯度分别回传给 A 和 B,A 和 B 根据梯度更新各自模型的参数。 注:梯度是指计算的中间过程,或者中间结果。
|