Advances and Open Problems in Federated Learning 总结翻译

喜夏-厌秋 提交于 2019-12-28 05:24:58

摘要
联邦学习(FL)是一种机器学习设置,在这种设置中,许多客户(例如移动设备或整个组织)在中央服务 器(例如服务提供商)的协调下协作地训练模型,同时保持训练数据分散。FL体现了集中数据收集和最 小化的原则,可以减轻由于传统的、集中的机器学习和数据科学方法所带来的许多系统隐私风险和成 本。在FL研究爆炸性增长的推动下,本文讨论了近年来的进展,并提出了大量的开放问题和挑战。

1.引言

联邦学习(FL)是一种机器学习设置,在这种设置中,许多客户端(例如移动设备或整个组织)在中 央服务器(例如服务提供商)的协调下协作地训练模型,同时保持训练数据分散。它体现了集中收集和 最小化数据的原则,并且可以减轻传统的集中式机器学习带来的许多系统隐私风险和成本。这一领域 最近从研究和应用的角度都引起了极大的兴趣。本文描述了联邦学习设置的定义特征和挑战,强调了 重要的实践约束和注意事项,然后列举了一系列有价值的研究方向。这项工作的目标是突出具有重大 理论和实践意义的研究问题,并鼓励对可能产生重大现实影响的问题进行研究。
联邦学习这个术语是由McMahan等人在2016年提出的[289]:“我们把我们的方法称为联邦学 习,因为
学习任务是由一个松散的联邦参与设备(我们称之为客户端)来解决的,而这个联邦设备是由 一个中央服务器来协调的。
“一个不平衡的和非iid(恒等的和独立分布的)数据分区跨大量不可靠的设 备和有限的通信带宽被引入作为定义的挑战集。
重要的相关工作早于联邦学习的引入。许多研究团体(包括密码学、数据库和机器学习)长期追求 的一个目标是分析和学习分布在许多所有者中的数据,而不公开这些数据。计算加密数据的加密方法 从20世纪80年代早期开始发展[340,421],Agrawal和Srikant[15]和Vaidya等[390]是使用中央服 务器学习本地数据同时保护隐私的早期例子。相反,即使是在引入了联邦学习这个术语之后,我们也 没有发现任何一项工作可以直接解决FL所面临的全部挑战。因此,术语联邦学习为一组特征、约束 和挑战提供了方便的简写,这些特征、约束和挑战常常同时出现在分散数据上的应用ML问题中,而 隐私是最重要的。
本文起源于2019年6月17 - 18日在谷歌西雅图办公室举办的关于联邦学习和分析的研讨会。在 这两天的活动中,需要一篇广泛的论文来调查联邦学习领域中许多开放的挑战,这一点变得很明显。
讨论的许多问题的一个关键特性是它们本质上是跨学科的——解决它们可能不仅需要机器学 习,还需要分布式优化、密码学、安全、差分隐私、公平性、压缩感知、系统、信息论、统计等技 术。许多最棘手的问题都处在这些领域的交叉点上,因此我们认为,合作对正在取得的进展至关重 要。这项工作的目标之一是强调这些领域的技术可以潜在地组合在一起的方式,这既提出了有趣的可 能性,也提出了新的挑战。
自项联邦学习最初引入的重点是移动和边缘设备应用程序(289、287),对FL应用到其他应用程序 的兴趣大大增加,其中一些可能只涉及少量的相对可靠的客户,例如多个组织合作训练模型。我们将这 两个联邦学习设置分别称为“跨设备”和“跨竖井”。考虑到这些变化,我们建议对联邦学习进行更广泛 的定义:
联邦学习是一种机器学习设置,在中央服务器或服务提供商的协调下,多个实体(客户机)协作解决机器学习问题。每个客户的原始数据存储在本地,不进行交换或传输;相反,用于即时聚合的重点更新 用于实现学习目标。
有重点的更新是限制性的更新,以包含当前特定学习任务所需的最小信息; 在数据最小化服务 中,尽可能早地执行聚合。我们注意到这个定义将联邦学习与完全分散(点对点)学习技术区分开来, 如2.1节所述。
尽管保护隐私的数据分析已经被研究了50多年,但直到最近十年,解决方案才大规模被广泛采用(如[156,135])。跨设备联邦学习和联邦数据分析现在正应用于消费电子产品。谷歌在Gboard移动 键盘[323,196,420,98,329],以及Pixel手机的[18]功能和Android消息中广泛使用了联邦学习 [375]。虽然谷歌是跨设备语音识别的先驱,但现在人们对这种设置的兴趣更加广泛,例如:苹果在 ios13[27]中使用了跨设备语音识别,比如QuickType键盘和“嘿Siri”[28]语音分类器;医生。ai正在 为医学研究开发跨设备FL解决方案[130],Snips已经探索了跨设备FL用于热词检测[259]。
交叉竖井的应用也被提出或描述在许多领域,包括再保险的财务风险预测[407]、药物发现 [158]、电子健康记录挖掘[162]、医疗数据分割[19,121]和智能制造[305]。
对联邦学习技术的日益增长的需求导致了许多工具和框架的出现。其中包括TensorFlow联邦 [38]、联邦AI技术支持[34]、PySyft[342]、Leaf[35]、PaddleFL[36]和Clara训练框架[33];合并了 联邦学习的商业数据平台正在从成熟的技术公司和小型初创企业那里开发。
表1对比了跨设备和跨竖井联邦学习与传统单数据中心跨轴范围的分布式学习。这些特性建立了 许多实际的联邦学习系统通常必须满足的约束,因此既可以激发联邦学习中的开放挑战,又可以为其 提供信息。这些问题将在下面的章节中详细讨论。
这两个FL变体被称为代表性和重要的例子,但不同的FL设置可能有这些特征的不同组合。在本 文的其余部分,我们考虑跨设备FL设置,除非另有说明,尽管许多问题也适用于其他FL设置。第2节 专门讨论许多其他变体和应用程序中的一些。
接下来,我们将更详细地考虑跨设备联邦学习,重点关注典型的大规模技术部署所共有的实践 方面;Bonawitz等人[74]为特定的生产系统提供了更多的细节,包括对特定体系结构选择和注意事项的讨论。

跨设备联邦学习设置

本节采用应用的观点,与前一节不同,不尝试定义。相反,我们的目标是描述跨设备FL中的一 些实际问题,以及它们如何适应更广泛的机器学习开发和部署生态系统。他们希望为接下来的开放问 题提供有用的上下文和动机,并帮助研究人员估计在真实系统中部署特定新方法的简单程度。在考虑 FL训练过程之前,我们先画一个模型的生命周期草图。
在这里插入图片描述
表1. 数据中心中联邦学习设置与分布式学习的典型特征(如[131])。跨设备和跨竖井联邦学习是 FL领域的两个例子,但并不是详尽无遗的。FL的主要定义特性用粗体高亮显示,但是其他特性在决 定哪些技术适用时也很关键。
在这里插入图片描述
图1: 联邦学习系统中fl训练的模型和各种参与者的生命周期。在第4节中,从威胁模型的角度重新讨 论了这个图

联邦学习中模型的生命周期

在联邦学习过程中,模型的生命周期通常由为特定应用程序开发模型的模型工程师驱动。例如,自然 语言处理领域的专家可以开发用于虚拟键盘的下一个单词预测模型。图1显示了主要组件和参与者。 在高层,一个典型的工作流程是:

  1. 问题识别: 模型工程师识别出一个需要用FL解决的问题
  2. 客户端插装: 如果需要,客户端(例如在移动电话上运行的应用程序)被插装到本地存储(有时间和数 量限制)必要的培训数据。在许多情况下,应用程序已经存储了这些数据(例如,一个文本消息应用程 序必须存储文本消息,一个照片管理应用程序已经存储了照片)。然而,在某些情况下,可能需要维 护额外的数据或元数据,例如用户交互数据来为监督学习任务提供标签。
  3. 仿真原型(可选): 模型工程师可以在一个使用代理数据集的FL仿真中原型模型架构和测试学习超参 数。
  4. 联邦模型训练: 启动多个联邦训练任务来训练模型的不同变体,或使用不同的优化超参数。
  5. (联邦)模型评估:在任务得到充分训练(通常是几天,见下文)之后,分析模型并选择合适的候选 者。分析可能包括在数据中心的标准数据集上计算的度量,或者联合评估,在联合评估中,模型被推 送到指定的客户端,以对本地客户端数据进行评估。
  6. 部署: 最后,一旦选择了一个好的模型,它通过一个标准模型发射过程,包括手工质量保证,在线A/ B测 试(通常通过使用新模型在一些设备和其他设备来比较他们的上一代模型体内性能),并分阶段推出(这样表现差行为可以被发现和回滚之前影响太多的用户)。模型的特定启动过程由应用程序的所有者设 置,通常与模型的训练方式无关。

FL系统面临的一个主要的实际挑战是使上面的工作流程尽可能的简单明了,最理想的是接近ML系统 在集中培训中所实现的易用性。虽然本文主要关注联邦训练,但是还有许多其他组件包括联邦分析任 务,比如模型评估和调试。改进这些是第3.4节的重点。现在,我们更详细地考虑单个FL模型的训练 (上面的步骤4)。

典型的联邦训练过程

我们现在考虑一个FL训练模板,它包含McMahan等人[289]和许多其他人的联邦平均算法;同样,可 能会有变化,但这提供了一个共同的起点。
服务器(服务提供商)通过重复以下步骤来编排培训过程,直到培训停止(由监控培训过程的模型工程 师决定):

  1. 客户端选择: 服务器从一组满足资格要求的客户端取样。例如,为了避免影响设备的用户,移动电 话可能只有在接入无线网络并处于空闲状态时才会登录到服务器。
  2. 广播:选定的客户端从服务器下载当前模型的权值和一个训练程序(例如一个TensorFlow图表 [6])。
    3.客户端计算: 每个选择的设备通过执行训练程序在本地计算对模型的更新,例如可以在本地数据上 运行SGD(如联合平均)。
  3. 聚合: 服务器收集设备更新的聚合。为了提高效率,一旦有足够数量的设备报告了结果,掉队者可 能会被丢弃。此阶段也是许多其他技术的集成点,稍后将讨论这些技术,可能包括:用于增加隐私的 安全聚合、用于提高通信效率的聚合的有损压缩,以及用于差异隐私的噪声添加和更新裁剪。
  4. 模型更新: 服务器根据从参与当前轮的客户机计算的聚合更新,在本地更新共享模型。
    表2给出了移动设备上典型的联邦学习应用程序所涉及的数量的典型数量级大小。
    在这里插入图片描述
    客户机计算、聚合和模型更新阶段的分离并不是联邦学习的严格要求,它确实排除了某些类型 的算法,例如异步SGD,其中每个客户机的更新立即应用于模型,然后聚合来自其他客户机的更 新。这种异步方法可以简化系统设计的某些方面,并且从优化的角度来看也是有益的(尽管这一点值 得商榷)。然而,上面介绍的方法有一个巨大的优势,提供不同的研究之间的分离关注点:压缩的进步,微 分隐私和安全多方计算等标准原语可以开发计算金额或意味着在分散的更新,然后由任意的优化和分 析算法,客户机计算、聚合和模型更新阶段的分离并不是联邦学习的严格要求,它确实排除了某些类型 的算法,例如异步SGD,其中每个客户机的更新立即应用于模型,然后聚合来自其他客户机的更 新。这种异步方法可以简化系统设计的某些方面,并且从优化的角度来看也是有益的(尽管这一点值 得商榷)。然而,上面介绍的方法有一个巨大的优势,提供不同的研究之间的分离关注点:压缩的进步,微 分隐私和安全多方计算等标准原语可以开发计算金额或意味着在分散的更新,然后由任意的优化和分 析算法,只要表达这些算法的聚合基元

还值得强调的是,在两个方面,FL训练过程不应影响用户体验。首先,如上所述,尽管模型参 数通常在每一轮联合训练的广播阶段发送到某些设备,但这些模型只是训练过程中短暂的一部分,并 不用于向用户进行“实时”预测。这是至关重要的,因为训练ML模型是具有挑战性的,超参数的错误 配置可能会产生做出错误预测的模型。相反,模型的用户可见的使用被推迟到一个rollout过程,如 上面在模型生命周期的第6步中详细描述的那样。其次,培训本身对用户来说是不可见的——正如在 客户端选择中所描述的,培训不会减慢设备的速度或耗尽电池,因为它只在设备空闲并连接到电源时 执行。然而,这些约束带来的有限可用性直接导致了开放式研究的挑战,这些挑战将在后面讨论,如 半循环数据可用性和客户选择中的潜在偏差。

联邦学习研究

本文的其余部分调查了许多由真实世界的联邦学习设置的约束和挑战所激发的开放问题,从基于医院 系统的医疗数据的培训模型到使用数亿移动设备的训练。不用说,大多数研究联邦学习问题的研究人 员可能不会部署生产FL系统,也无法获得成批的真实世界设备。这就导致了激励工作的实际环境和 模拟实验之间的关键区别,模拟实验为给定的激励问题方法的适用性提供了证据。
从实验的角度来看,这使得FL的研究与其他ML领域有所不同,在进行FL的研究时需要考虑更多的因 素。特别是,在强调开放问题时,我们已经尝试在可能的情况下,也指出相关的性能指标,这些指标 可以在模拟中测量,数据集的特征将使它们更能代表真实世界的性能,等等。对模拟的需要也对FL 研究的呈现产生了影响。虽然我们无意成为权威或绝对的,我们提出以下谦虚的建议,以介绍FL的 研究,解决我们所描述的开放问题:

  • 如表1所示,FL设置可以包含很多问题。与已经确定了设置和目标的领域相比,精确地描述特 定FL设置的细节是很重要的,特别是当提议的方法做出的假设可能不适用于所有设置时(例如, 所有回合中都有状态的客户端)。
  • 当然,任何模拟的细节都应该提供,以使研究重现。但是,为了有效地证明在模拟问题上的成 功意味着在真实世界的目标上取得了有益的进展,解释模拟的目的是为了捕获(而不是捕获)真 实世界设置的哪些方面也很重要。我们希望本文的指导将有助于这一点。
  • 在FL,隐私和通信效率总是优先考虑的问题,即使实验是在使用公共数据的单机上运行的模 拟。与其他类型的ML相比,更重要的是,对于任何建议的方法,都必须清楚地说明计算发生在 何处以及通信内容。

用于联邦学习模拟的软件库以及标准数据集可以帮助缓解进行有效的FL研究的挑战;附录A总结了一些 当前可用的选项。为不同的联邦学习设置(跨设备和跨竖井)开发标准评估指标和建立标准基准数据集 仍然是当前工作的重要方向。

组织

第二部分以表1中的思想为基础,探讨了跨设备设置之外的其他FL设置和问题。第三部分接着讨 论关于提高联邦学习的效率和有效性的核心问题。第4节对威胁模型进行了仔细的考虑,并考虑了一 系列实现严格隐私保护目标的技术。与所有的机器学习系统一样,在联邦学习应用程序中,可能存在 操纵正在训练的模型的动机,各种各样的失败是不可避免的;这些挑战将在第5节中讨论。最后,我们 将在第6节中讨论提供公平和无偏见模型的重要挑战。

2. 放宽核心FL假设: 应用到新兴的设置和场景

在本节中,我们将讨论与前一节中讨论的主题相关的研究领域。尽管这不是本文其余部分的主 要重点,但是这些领域的进展可以激发下一代生产系统的设计。

完全的去中心化/端对端分布式学习

在联邦学习中,中央服务器安排训练过程并接收所有客户机的贡献。因此,服务器是一个中心参与者,它也可能代表一个单点故障a single point of failure。虽然大公司或组织可以在一些应用程序场景中扮演这个角色,但是在更多的协作学习场景中,可靠和强大的中央服务器可能并不总是可用或需要的。 而且,当客户机数量非常大时,服务器甚至可能成为瓶颈。

完全分散学习的核心思想是用两个独立客户端之间的对等通信来代替与服务器的通信。通信拓扑表示一个连接图,其中节点是客户端,边表示两个客户端之间的通信通道。网络图通常被选择为具有最小最大度的稀疏,使得每个节点只需要向/从少量对等点发送/接收消息;这与服务器-客户端体系结构的星形图形成对比。在完全分散的算法中,轮对应于每个客户端执行本地更新,并在图2中与其邻居交换信息。在机器学习的背景下,局部更新通常是一个局部(随机)梯度阶跃。请注意,模型的全局状态不是标准的联邦学习,但是可以设计过程,以便所有本地模型转换为所需的全局解决方案,即各个模型逐渐达成共识。虽然多智能体优化在控制界有着悠久的历史,但最近在机器学习中考虑了SGD和其他优化算法的完全分散变体,以提高数据中心的可扩展性[30]以及设备的分散网络。他们考虑无向网络图,尽管在[30,200]中也研究了有向网络的情况(编码现实世界场景中可能出现的单向信道,如社交网络或数据市场)。

即使在分散设置的情况下,也不能由中央授权机构负责设置学习任务。例如,考虑以下问题:谁决定在分散的环境中培训什么样的模型?使用什么算法?什么超参数?当某些东西不能按预期工作时,谁负责调试?对于这些问题,参与方客户在中央授权机构的一定程度的信任仍将需要。或者,该决定将由提出获取任务的客户决定,或共同制定粗糙感知方案(见第2.1.2节)。

表3提供了联合学习和点对点学习之间的比较。尽管分散学习的架构假设是从提供的学习中重新发现的,但它可以应用于类似的问题领域,许多相同的挑战都会出现,并且在研究社区中存在着明显的重叠。因此,本文也考虑了分散学习。
在这里插入图片描述

算法挑战

在机器学习分散方案的现实可用性问题上,许多重要的算法问题仍然没有解决。有些问题类似于使用中央服务器进行联合学习的特殊情况,而其他挑战则是完全分散或不信任的额外副作用。我们在下面概述一些特定的领域。
SGD 随机梯度下降
网络拓扑结构和异步性对分散SGD
完全分散的学习算法应该对有限可用性的客户端(客户端在执行期间暂时不可用、退出或加入)和有限可靠性的网络(可能的消息丢失)具有鲁棒性。而对于广义线性模型的特殊情况,使用对偶结构的方案可以实现一些期望的鲁邦性质[201],这是一个有待解决的问题。当网络图的完整输出信息具有被阻止的可能性时,Yuetal[427]显示一个加拿大的边缘企业与可靠网络的基础是可比的。其他开放性研究问题涉及非IID数据分布、更新频率、有效通信模式和实际收敛时间[379]。

良好连接或更密集的网络鼓励更快的一致性,并提供更好的错误收敛率(这取决于网络图的频谱差距),但它们招致的通信延迟随节点度增加而增加大多数优化理论没有明确考虑拓扑如何影响运行时,即完成每个SGD迭代所需的壁钟时wall-clock。Wang等人[401]提出了一种基于匹配分解采样的分散SGD方法该方法在保持相同的错误收敛速度的同时,减少了任意给定节点拓扑的每次迭代的通信延迟。关键思想是将图形拓扑分解为可并行操作的由不相交通信链接组成的匹配,并在每个迭代中仔细选择这些匹配的子集。这个子图序列导致在重要连接的链路上的通信更频繁(确保快速的错误收敛),而在其他链路上的通信更少(保存)通信延迟)。

分散的SGD的设置也很自然地适用于异步算法,其中每个客户端在随机时间独立激活,消除了对全局同步的需要,并可能提高可伸缩性[110,392,54,30,267]。

本地更新与去中心化的SGD
在通信轮之前执行几个本地更新步骤的方案的理论分析要比使用单个SGD步骤(如在小型批SGD中)具有更大的挑战性。虽然这也将在后面的3.2节中讨论,但同样的方法也适用于完全去中心化的设置。依赖于单个本地更新步骤的方案通常被证明在非iid本地数据集的情况下是收敛的[243,242]。Wang和Joshi[399]最近提供了几个局部更新步骤的收敛性分析。此外,[401]还对非iid数据的情况进行了收敛性分析,但针对上述匹配分解采样的具体方案进行了收敛性分析。然而,一般来说,理解nonIID数据分布下的收敛性,以及如何设计一个模型平均策略来实现最快的收敛仍然是一个开放的问题。

个性化和信任机制
与跨设备FL设置类似,在个人客户可用的非iid数据分布情况下,完全分散场景的一个重要任务是设计用于学习个性化模型集合的算法。[392, 54]的工作引入了完全分散的算法,通过平滑具有相似任务的客户端的模型参数来协作地学习每个客户端的个性化模型。,类似的数据分布)。Zantedeschi等[4311]进一步学习了相似图和个性化模型。分散设置的关键独特挑战之一仍然是这种方案对恶意参与者或不可靠数据或标签的贡献的健壮性。使用激励或机制设计与分散学习相结合是一个新兴的重要目标,在没有可信的中央服务器的情况下,这可能很难实现。

梯度压缩和量化方法
在潜在的应用中,客户端往往在可用的通信带宽和允许的能源使用方面受到限制。将现有的一些压缩通信方案从集中式业务流程简化设置转换为完全分散的设置,同时又不影响收敛,是一个比较积极的研究方向[243,335,380,242]。一个补充的想法是设计分散优化算法,自然会产生稀疏更新[431]。

实际挑战

一个关于完全分散学习的正交问题是如何实际实现它。
本节概述了一系列基于分布式账本概念的相关概念。
区块链是在不同用户之间共享的分布式分类账,使数字交易(包括加密货币交易)成为可能,而不需要中央授权。
特别是,智能合同允许对区块链执行任意代码,关键是能够实现精确复制的状态机。
在联邦学习方面,使用该技术可以通过使用智能契约进行模型聚合来分散全球服务器,其中执行智能契约的参与客户机可以是不同的公司或云服务。

然而,在今天的区块链平台如Ethereum [409], blockchains数据是公开在默认情况下,这可能会阻止用户参与联合分散学习协议,保护数据通常FL的主要推动因素。为了解决这些担忧,有可能修改现有的保护隐私技术适应分散式联合学习的场景。首先,为了防止参与节点利用单独提交的模型更新,可以使用现有的安全聚合协议。Bonawitz等人[73]提出了一种已经在跨设备FL中使用的实用的安全增益协议,有效地处理了以协议复杂性为代价的参与者退出问题。另一种系统是让每个客户在区块链上存入一笔加密货币,如果他们在执行过程中退出,就会受到惩罚。在不需要处理退出的情况下,可以显著简化安全聚合协议。实现安全聚合的另一种方法是使用机密的智能契约,比如运行在安全飞地内的Oasis协议[104]所支持的契约。,每个客户端只需提交一个加密的本地模型更新,知道里面的模型将解密和聚合安全硬件通过远程认证(见4.1节中讨论privacy-in-depth)

为了防止任何客户机试图重建另一个客户的私人数据利用全球模型,客户级差分隐私[290]已被提议用于FL。客户级差分隐私是通过在聚合的全局模型上添加随机高斯噪声来实现的,该噪声足以隐藏任何单个客户端的更新。在分散联合学习的情况下,我们还可以让每个客户机在本地添加噪声,如[541]中所做的那样。也就是说,每个客户端在局部梯度下降步骤之后,在局部添加一定数量的高斯噪声,并将模型提交给区块链。在计算局部附加噪音等级时,区块链上的总噪音能够达到与[290]中相同的客户级差异隐私。最后,可以对区块链上的聚合全局模型进行加密,并且只有参与的客户端持有解密密钥,从而保护模型不受公众的攻击。

跨竖井联合学习

与跨设备联合学习的特点不同(见表1),跨竖井联合学习在总体设计的某些方面具有更大的灵活性,但同时也提供了实现其他特性可能更困难的设置。本节讨论其中的一些差异。
跨竖井设置可能是相关的,其中一些公司或组织共享基于其所有数据培训模型的激励,但不能直接共享其数据。这可能是由于保密性或法律约束造成的,甚至在一个公司内部,当他们不能将数据集中在不同的地理区域时也是如此。这些交叉筒仓的应用已经引起了广泛的关注。

3. 提高效率和效果

在本节中,我们将探讨各种技术和开放问题,以解决提高联邦学习效率和效果的挑战。这包含 了无数可能的方法,包括:开发更好的优化算法;为不同的客户提供不同的模型;使ML任务,如超参数 搜索、架构搜索和调试在FL上下文中更容易;提高沟通效率;和更多。
解决这些目标的基本挑战之一是非iid数据的存在,因此我们首先调查这个问题并强调可能的缓 解措施。

现有的机器学习任务默认训练数据遵循独立同分布 (idependently and identically distributed, IID),神经网络、深度学习等常见算法一般都将数据遵循 IID 的假设作为其推导的一部分。

然而,在真实世界中样本数据相关性(inter-dependent)几乎无处不在,非同源数据/标签的分布也可能具有不同的概率分布,这些数据都遵循非独立、同分布(Non-IID)。

在一些场景中,直接应用已有机器学习算法基于 Non-IID 数据完成模型训练,由于算法本身的先进性训练结果仍然较好。但对于某些应用场景,基于现有的机器学习算法和框架,使用 Non-IID 数据训练会出现意想不到的负面效果,比如模型准确度低、模型无法收敛等。、

联邦学习中的非IID 数据

虽然IID的含义通常很清楚,但是数据在很多方面都是非IID。在本节中,我们提供了任何客户端分区数据集可能出现的非iid数据体制的分类。依赖和非同质性的最常见来源是对应于特定用户、特定地理位置和/或特定时间窗口的每个客户机。这种分类法与数据集移位的概念有密切的关系[304,327,其中研究了训练分布和测试分布之间的差异;这里,我们考虑每个客户机上数据分布的差异。

在这里,我们考虑每个客户机上数据分布的差异之后,考虑一个监督任务特性x和标签y。菲德尔的统计模型给出学习包括两个层次的抽样:访问一个数据需要首先采样一个客户i~Q,然后画出客户的本地数据分布。

当非IID数据在联邦学习中被引用时,这种考虑了不同用户的用户。然而需要注意的是这会随着时间变化,这便是另一种维度的非IIDness

对于完整性而言,我们注意到单一设备上的数据集,如果数据在不重复随机的顺序,依据时间排序,那么其独立性对于本地也是违背的。譬如连续的视频是高度相关的,所以客户内部相关性的来源通常可以通过局部变换来解决。Sources of intra-client correlation can generally be resolved by local shuffling.

不完全相同的客户分布
独立性的违反
数据集的迁移

对于处理非IID数据的策略

4 .保护用户隐私

数据机器学习的工作流程涉及许多角色以及不同的能力。例如,用户可以通过交互生成训练数据 和他们的设备,机器学习训练过程从这些数据中提取cross-population模式(如训练模型参数的形式), 机器学习工程师或分析师可能会评估这个训练模型的质量,并最终模型可能会部署到终端用户,为了 支持特定的用户体验(参见下面的图1)。
在理想的世界中,系统中的每个参与者只会学到扮演角色所需的信息。例如,如果一个分析人 员仅仅需要确定一个特定的质量度量是否超过了一个期望的阈值,以便授权将模型部署到最终用户, 那么在一个理想化的世界中,这是分析人员可以获得的唯一信息;例如,这样的分析师既不需要访问 培训数据,也不需要访问模型参数。类似地,最终用户享受由经过训练的模型提供的用户体验可能只 需要从模型中进行预测,而不需要其他任何东西。
联邦学习提供了一种有吸引力的结构,可以将整个机器学习工作流分解为我们希望的可访问的 模块单元。联邦学习模型的主要优点之一是,它可以通过最小化数据为参与的用户提供一定程度的隐 私保护: 原始用户数据从不离开设备,只有对模型的更新(例如,梯度更新)被发送到中央服务器。与 原始数据相比,这些模型更新更关注于手头的学习任务(即,与原始数据相比,它们严格不包含关于 用户的额外信息,而且通常显著更少),单个更新只需由服务器临时保存。
虽然这些特性可以在集中所有训练数据方面提供重要的实际隐私改进,但是在这个基线联邦学 习模型中仍然没有对隐私的正式保证。例如,可以构造场景的原始数据信息泄露从客户机到服务器,如 一个场景,知道前面的模型和梯度更新从用户将允许用户持有的推断出一个培训的一个例子。因此, 本节将调查现有的结果,并概述在设计能够提供严格隐私保证的联邦学习系统方面面临的挑战。我们 将重点放在联邦学习和分析设置的特定问题上,而不考虑在更一般的机器学习设置中也会出现的问 题。

5. 对攻击和失败的健壮性

现代机器学习系统很容易出现各种各样的故障。这些失败包括非恶意的失败,如预处理管道中 的错误、嘈杂的培训标签、不可靠的客户端,以及针对培训和部署管道的显式攻击。在本节中,我们 将反复看到联邦学习的分布式特性、体系结构设计和数据约束打开了新的失败模式和攻击面。此外, 在联邦学习中保护隐私的安全机制可以使检测和纠正这些失败和攻击成为一个特别具有挑战性的任 务。虽然这些挑战可能会使健壮性难以实现,但是我们将讨论许多有前途的研究方向,以及如何适应 或改进联邦设置。我们还将讨论关于不同类型的攻击和失败之间关系的广泛问题,以及这些关系在联 邦学习中的重要性。本节首先讨论了5.1小节中的对抗性攻击,然后讨论了5.2小节中的非恶意失效模 式,最后探讨了5.3小节中隐私与健壮性之间的张力

6. 确保公平,消除偏见

机器学习模型经常会表现出令人惊讶和意外的行为。当这些行为导致对用户的不良影响模式 时,我们可能会根据一些标准将模型归类为“不公平”。例如,如果具有相似特征的人得到了完全不同 的结果,那么这就违反了个体公平的标准[149]。如果某些敏感群体(种族、性别等)收到不同的结果 模式——例如不同的假阴性率——这可能违反人口统计学公平的各种标准,例如[48,300]的调查。 反事实公平的标准要求,在考虑了所有因果相关的途径之后,用户获得的待遇与他们原本属于不同群 体(种族、性别等)的待遇相同[250]。联邦学习为公平性研究提供了几个机会,其中一些扩展了非联 邦环境中先前的研究方向,另一些则是联邦学习独有的。本节在这两个类别中都提出了一些有待解决 的问题。

7. 结论

联邦学习使分布式客户端设备能够协作学习共享预测模型,同时将所有训练数据保存在设备 上,从而将机器学习的能力与将数据存储在云中的需求分离开来。这超出了使用本地模型对移动设备 进行预测的范围,同时也为设备提供了模型培训。
近年来,这个话题在工业界和学术界都经历了爆炸性的增长。主要的技术公司已经在生产中部 署了联邦学习,并且创建了一些初创公司,目的是使用联邦学习来解决各个行业的隐私和数据收集方 面的挑战。此外,这项工作中调查的论文的广度表明,联邦学习正在广泛的跨学科领域获得吸引力: 从机器学习到优化、信息论和统计到密码学、公平性和隐私。
在联邦学习研究的兴趣日益增长的推动下,本文讨论了最近的进展,并提出了大量的开放问题 和挑战。系统约束对算法提出了效率要求,以使其具有实用性,其中许多在其他环境中并不特别具有 挑战性。我们认为,数据隐私不是二元的,并提出了一系列在各种假设下相关的威胁模型,每一个模 型都有其独特的挑战。
本书所讨论的开放性问题当然是不全面的,它们反映了作者的兴趣和背景。特别地,我们不讨 论任何在实际的机器学习项目中需要解决的非学习问题,这些问题可能需要基于分散的数据来解决。 这可能包括简单的问题,如计算基本的描述性统计,或者更复杂的目标,如计算开放集上的直方图头 部[437]。现有的解决这类问题的算法通常没有一个明显的“联邦版本”,在激励这类工作的系统假设 下,这个“联邦版本”将是有效的,或者不承认有用的数据保护概念。此外,研讨会具有更多的算法风 格,因此与系统相关的研究主题在某种程度上没有得到很好的表达,尽管构建用于联邦学习的系统是 一个非常重要和具有挑战性的基本问题。另一组未讨论的重要主题是可能激发或限制使用联邦学习的 法律和业务问题。
我们希望这项工作将有助于在联邦学习和相关领域的进一步研究。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!