HierFedPDP:Hierarchical federated learning with personalized differential privacy(HierFedPDP:基于个性化差分隐私的分层联邦学习)

1.摘要

HierFedPDP 是一种新型的联邦学习(FL)框架,通过在客户端级别实现个性化本地差分隐私(LDP)机制,根据数据的敏感性动态调整隐私预算,从而提供灵活且高效的隐私保护。该框架采用三层客户端-边缘-云架构,充分利用边缘计算来缓解中央服务器的计算负载。实验结果表明,与现有的模型相比,HierFedPDP 在MNIST数据集上表现出0.84%至2.36%的精度提升,在CIFAR-10数据集上也取得了显著的改进。HierFedPDP 的研究为更高效的分布式学习系统的设计提供了宝贵的见解。

2.介绍

在大数据时代,人工智能被广泛应用于交通、农业、医疗等领域。物联网(IoT)技术的快速发展增加了分布式系统中安全数据挖掘的需求。作为一种领先的AI技术,深度学习在图像处理、自然语言处理和视频分析方面表现出色,解决了许多复杂问题。随着机器学习技术的进步和数据处理需求的增加,数据隐私保护在学术界和工业界变得至关重要。传统的集中式学习方法通常需要收集大量的用户数据,这会带来隐私风险,突显了安全数据处理的必要性。

为了应对这些问题,谷歌在2017年提出了联邦学习(FL)和联邦平均算法。FL通过允许客户端在本地处理数据,并仅共享模型参数以进行服务器聚合来保护隐私。这种方法避免了服务器直接访问敏感数据,从而增强了隐私保护。联邦平均算法允许本地设备在全局共享模型上进行多轮训练,然后再更新服务器。这不仅保护了隐私,还支持跨越不同设备和位置的数据共享,增强了模型的适用性和通用性。

尽管FL在多个业务场景中得到了广泛采用,但仍然面临部分数据隐私、效率限制和数据异构性等挑战,这些挑战影响了其有效性和可扩展性。因此,探索和开发更加复杂且安全的联邦学习解决方案显得尤为重要。

为了解决这些问题,HierFedPDP 采用了三层架构,将参与者划分为三层:客户端、边缘服务器和云服务器。这种多层结构不仅增强了数据处理和模型训练的管理,还提高了数据隐私保护。在边缘层,预聚合技术显著减少了传输到云的敏感数据量,从而降低了隐私泄露的风险。

该框架在三层系统内实现了一种个性化本地差分隐私机制,能够根据客户端数据的敏感性动态调整隐私预算,从而提供量身定制的隐私保护。HierFedPDP 框架不仅强化了隐私保护,还提升了模型的准确性。特别是在MNIST数据集上的实验结果表明,HierFedPDP 的准确率提升了0.84%至2.36%,在CIFAR-10数据集上也取得了显著的改进。这项研究为提高FL在数据隐私保护方面的能力提供了宝贵的见解,并为设计更高效的分布式学习系统提供了参考。

3.相关工作

为了应对联邦学习 (FL) 中的安全挑战,研究人员探索了各种防御策略。目前,FL 中常见的隐私保护方法包括将经典的机器学习隐私技术集成到 FL 中,这些技术包括安全多方计算 (SMC)同态加密和差分隐私。SMC 是一种密码学技术,允许多个方共同计算任务,同时保持其输入数据的私密性。Lehmkuhl 等人开发了一种新的模型提取攻击,展示了恶意客户端对半诚实安全推理协议构成的威胁,并提出了 MUSE,这是一种有效的针对恶意客户端的两方安全推理协议。在文献中,介绍了一种基于SMC和差分隐私的新的 FL 方案,旨在防止在学习过程中发生的数据推断和输出推断,同时保护用户的本地数据,并确保用户退出后的结果正确性。SMC 通常要求多个方进行在线交互,这可能会导致高通信成本,特别是当参与方数量增加或覆盖大面积地理区域时。相比之下,同态加密允许在加密数据上直接进行计算,无需多方交互,从而在某些情况下提供了更高的效率和更好的可扩展性。Li 等人提出了一种适合于雾-云计算环境的安全和隐私保护分布式深度学习 (SPDDL) 方案利用 Paillier 加密算法来加密中间梯度信息,并使用门限签名技术验证用户身份。Rupa 及其同事介绍了一种基于矩阵变换的同态加密技术,通过对 ASCII 值的二进制表示进行移位、旋转和置换来确保云中数据的安全。

虽然同态加密是一种强大的密码学工具,但它会引入显著的额外通信开销并增加加密数据的大小,从而提高存储和传输成本。因此,还必须探索其他强大的聚合技术来增强对抗性攻击的安全性。文献中描述的“鲁棒联邦聚合”方法使用几何中值来聚合更新,在数据可能被破坏的环境中显著提高了鲁棒性。这种方法在高度污染的环境中展示了优越的性能,显示出其抵御攻击的潜力。相比之下,差分隐私因其卓越的信息保护能力、算法的简单性和灵活性以及较低的系统开销而受到学术界和工业界的高度推崇。特别是在处理大型数据集时,差分隐私通过添加最小的噪声提供高水平的隐私保护,这在当前的数据安全格局中显得尤为重要。

现有的基于差分隐私的机器学习算法的研究包括本地差分隐私、差分隐私随机梯度下降以及用于差分隐私参数更新的算法。在 LDP 中,每个客户端本地更新并扰动模型信息,发送参数或梯度而不是原始数据到服务器。在文献中,作者提出了一种创新的差分隐私聚合方案,该方案采用了更为详细的分层更新策略,并首次将f-差分隐私 (f-DP) 技术应用于联邦聚合的隐私保护分析。通过向模型更新中引入高斯噪声,该方案成功保护了客户端隐私。文献提出了一种基于 LDP 技术的隐私保护边缘联邦学习框架 (PPeFL)。该框架通过三种 LDP 机制应对隐私预算的快速消耗和高通信成本,并通过数据扰动机制加强了隐私保护与数据效用之间的平衡。文献中引入了 FL2DP,这是一种优先保护数据隐私和客户端身份的方案,通过结合指数机制的噪声添加和新的梯度混淆机制,增强了训练效率和梯度的不可追踪性。文献提出了一种适用于资源受限的网络-物理系统 (CPS) 的联邦 LDP 方案 Fed-MPS,该方案采用一致更新方向的模型参数选择算法和 LDP 机制,旨在降低通信成本、增强客户端隐私保护并提高模型准确性。文献介绍了一种新的差分隐私 FL 算法 DP-FedSAM。通过集成一种对稳态变化敏感的最小化 (SAM) 优化器,该算法生成了具有更好稳定性和对权重扰动更强鲁棒性的本地平滑模型,从而减轻了差分隐私的负面影响。文献提出了Fed-IIoT,这是一种用于检测工业物联网 (IIoT) 环境中 Android 恶意软件的联邦学习架构。通过集成 GAN 和 A3GAN 网络,Fed-IIoT 提高了数据隐私和准确性,相比现有解决方案提高了约 8%。文献中,作者提出了一种联邦学习框架,旨在通过使用超分位目标优化异构数据客户端的预测性能。有效性通过结合差分隐私和联邦平均的随机训练算法得到证明,该框架在尾部误差统计方面优于传统方法。文献中,作者提出了一种通过精心设计的高斯噪声实现的差分隐私持续计数方法,以实现接近最优的效用。该方法结合流式托普利兹矩阵乘法和二叉树机制,减少了空间和时间复杂度,从而提高了计数效率。文献中提出了一种新的差分隐私联邦学习去噪方法 (DDPFL)。通过分析模型参数的重要性系数并采用差异化噪声添加机制,该方法减少了模型可用性的损失。实验表明,在相同的差分隐私条件下,与以前的差分隐私保护方法相比,该方法有效地提高了模型的可用性。

综上所述,文献回顾了联邦学习 (FL) 环境中的数据隐私保护问题,同时保持了有效的机器学习。大多数研究使用**固定的隐私预算参数 (𝜖)**来确保所有数据或查询的统一隐私。然而,这种“一刀切”的策略可能不适合每个用户独特的数据敏感度需求。此外,研究表明,这些方法可能会降低模型的效用并增加对梯度泄漏攻击的易感性。

我们在前述相关工作回顾中观察到,旨在保护数据的差分隐私增强的机器学习算法有多项进展。尽管这些算法努力在隐私和性能之间取得平衡,但它们在实现、优势和限制方面存在显著差异。我们在表 1 中汇总了主要研究,以比较最近的提案,重点介绍它们的技术、贡献、优势以及它们与我们工作的不同之处。

4.背景和动机

4.1 分层联邦学习框架

传统的联邦学习(FL)架构包含一个中央参数服务器,该服务器直接与 $( N )$ 个客户端进行协调。训练过程包括多个回合:服务器将初始或更新后的全局模型分发给每个客户端;客户端使用其本地数据独立训练该模型,然后将模型更新发送回服务器进行聚合。这个循环重复进行,直到模型收敛或完成预定的训练轮数。

在本研究中,我们引入了一个名为 HierFedPDP 的创新联邦学习框架,旨在为受诚实但好奇的行为者威胁的环境中提供有效的隐私保护。与传统的两层 FL 架构(包含一个中央参数服务器和多个客户端)不同,HierFedPDP 引入了一个中间的边缘服务器层,以提高通信、计算效率和隐私保护。接下来,我们将详细解释 HierFedPDP 框架的各个层级和功能。

  • 三层系统: HierFedPDP 框架通过引入一个分层的客户端-边缘-云系统来增强传统模型。在这里,除了中央参数服务器外,还有 ( L ) 个边缘服务器作为服务器与 ( N ) 个客户端之间的中介。

  • 边缘服务器的作用: 在 HierFedPDP 框架中,边缘服务器不仅充当数据传输的中介,还在数据预处理和聚合中发挥重要作用。每个边缘服务器负责收集其关联客户端的模型更新,并执行初步的数据聚合和过滤任务。该过程显著减少了传输到云端的数据量,从而增强了数据传输的安全性。

  • 本地数据处理: 每个客户端 $( C_i ) $拥有一个本地数据集 $( D_i )$,模型的训练数据由 $( |D| ) $个样本组成,每个样本包括一个输入 $( x_k )$ 和其对应的标签 $( y_k )$。每个客户端使用其数据集训练本地模型参数向量$ ( w_i )$。

  • 损失函数与优化: 每个客户端的本地损失函数 $( F_i(w, D_i) ) $用于衡量每个样本的预测值与实际值之间的差异,目标是最小化此损失。全局优化问题旨在找到一个权重向量$ ( w^* ) $以最小化所有客户端的聚合损失。该优化问题可以表示为:

    $$
    w^* = \arg\min \sum_{i=1}^N p_i F_i(w, D_i)
    $$

    其中,$( F_i(\cdot) )$ 表示第 $( i ) $个客户端的本地损失函数。通过 $( T ) $次聚合轮次,服务器最终获得 FL 收敛模型。

  • 隐私与效率: 通过在数据到达云端之前在边缘服务器上预处理,HierFedPDP 框架显著减少了传输的敏感数据量,并更有效地聚合了更新,降低了隐私泄露的风险。该结构还减轻了中央服务器的负担,并降低了通信开销,这在带宽受限的场景或隐私敏感的应用中至关重要。

4.2 差分隐私

随着数据分析和机器学习应用的日益重视,差分隐私可以在需要处理敏感数据的情况下提供强有力的数据隐私保护,例如医疗记录分析和人口普查。

  • 定义1(邻接数据集): 设 $( D_n )$ 为所有数据集的域。存在两个数据集 $( D, D’ )$,如果 $( D, D’ )$ 满足以下任一条件,则它们被视为相邻数据集:

    1. 添加或删除记录:$( D’ )$ 可以通过在 $( D )$ 中添加或删除记录获得。
    2. 修改记录:$( D’ )$ 可以通过修改 $( D )$ 中的记录获得。
  • 定义2(差分隐私): 给定一个随机算法 $( M )$,如果对于所有相邻数据集$ ( D, D’ )$ 和算法 $( M )$ 的所有可能输出集合 $( S )$,以下不等式成立,则称算法 $( M )$ 提供 $( \epsilon )-$差分隐私保护:

    $$
    \Pr[M(D) \in S] \leq e^\epsilon \times \Pr[M(D’) \in S]
    $$

    其中,$( \Pr[M(D) \in S] ) $表示将算法$ ( M )$ 应用于数据集 $( D )$ 时,结果在集合$ ( S ) $中的概率;参数$ ( \epsilon ) $是一个非负参数,称为隐私预算,用于度量隐私保护的强度。$( \epsilon ) $越小,隐私保护越强。

4.3 威胁模型

HierFedPDP 联邦学习系统中,尽管原始数据保持本地存储且不共享,但上传的模型更新仍容易受到推断攻击(如模型反演和成员身份推断)的威胁。我们使用一个公认的半诚实威胁模型来应对这些威胁,即在此模型中,尽管服务器和客户端遵循协议,但由于好奇心可能会试图获取额外的信息。

4.4 动机

HierFedPDP 框架旨在通过在客户端级别实施个性化的本地差分隐私机制来增强联邦学习(FL)环境中的隐私保护。这种方法对于 FL 来说尤为重要,因为每个客户端的本地模型都会对全局模型做出贡献,而无需直接共享数据。

5. 提出的方法

5.1 系统模型

HierFedPDP框架的系统模型如图所示,展示了包含三个核心实体的三层结构:客户端、边缘参数服务器和中央参数服务器。HierFedPDP框架基于客户端-边缘-云的分层联邦学习架构,旨在通过在客户端级别实施个性化本地差分隐私措施来增强数据保护。在HierFedPDP的设计中,每个客户端根据其数据的敏感性分配不同的隐私预算,从而实现个性化的数据隐私保护。总体的操作流程如下:

  1. 在HierFedPDP框架的启动阶段,本地客户端首先从中央或边缘服务器检索最新的全局模型,或者从上一轮迭代中获取的全局模型更新作为训练的起点;
  2. 客户端基于其数据独立训练模型,生成新的模型更新。为了保护数据隐私,客户端通过应用个性化的本地差分隐私机制增强隐私保护,并根据设定的隐私预算进行调整;
  3. 受保护的模型更新被上传到边缘参数服务器。一旦达到预定义的阈值,边缘服务器开始聚合这些客户端模型。完成聚合操作并达到一定的迭代次数后,边缘服务器将聚合的参数更新上传到中央服务器;
  4. 中央服务器进一步聚合这些更新,以形成下一轮的全局模型更新,同时控制整个系统的隐私预算,以符合隐私保护标准。

这一过程不仅保护数据隐私,还增强了模型训练的效率和准确性,展示了一种面向隐私保护的新型联邦学习解决方案。

5.2 算法描述

表2中显示了描述HierFedPDP框架算法中使用的符号及其定义。

5.2.1 整体过程

算法1详细说明了个性化本地差分隐私保护的分层联邦学习的综合执行过程,涉及不同级别的参与者,包括客户端、边缘参数服务器和中央参数服务器。该算法采用个性化本地差分隐私技术来保护数据。

  1. 初始化阶段:初始化全局模型$ ( w_0 ) $和隐私账户。此阶段主要包括设置全局模型和隐私账户,为后续的全局迭代建立基础框架。

  2. 全局迭代循环:系统将执行“$( k )$”轮全局迭代。每轮开始时,首先在服务器和客户端上计算隐私损失,以确保整个过程符合设定的隐私预算(算法第3-4行)。如果预算超过预定的限额,则会中断流程并返回当前模型状态,以确保不违反隐私保护的界限。如果隐私预算在合理范围内,则客户端将同时执行个性化本地差分隐私更新(见算法2),将全局模型训练与本地数据集成,同时实施隐私保护措施。在客户端完成本地更新后,边缘节点将执行聚合操作。每个边缘服务器使用“EdgeAggregation”函数将其从属客户端的更新进行整合,实现分层架构内的初步聚合。完成边缘聚合后,“CloudAggregation”函数将在中央服务器级别进行最终的更新聚合,从而生成全局模型更新。

  3. 边缘聚合函数:‘EdgeAggregation’函数通过公式(6)计算每个边缘节点的聚合权重,优化信息汇总过程。

    $$
    w_{\text{edge}} \leftarrow \sum_{i \in \mathcal{L}} \frac{|D_i^{\mathcal{L}}|}{|\mathcal{L}|} w_i^{\mathcal{L}}(k)
    $$

    其中,$(|D_i^{\mathcal{L}}|) $表示第$ ( i ) $个客户端在第$ ( l ) $个边缘服务器上的数据量。公式(6)中,每个客户端的权重由数据集的大小决定。这一步骤在HierFedPDP框架中对于构建更准确且个性化的全局模型至关重要。

  4. 云聚合函数:‘CloudAggregation’函数使用公式(7)来确定中央参数服务器上全局模型聚合的权重,实现信息的最终整合与优化。

    $$
    w_{\text{global}} \leftarrow \sum_{l=1}^L \frac{|D^{\mathcal{L}}|}{|\mathcal{L}|} w^{\mathcal{L}}(k)
    $$

    该公式中,全球模型通过平均各个边缘服务器的模型权重来实现更新。

5.2.2 个性化本地差分隐私更新

算法2提供了个性化本地差分隐私更新(PLDPU)的详细描述。该算法从预设参数的输入开始,然后每个客户端初始化其模型参数。在指定的本地训练周期内,每个周期对数据批次进行一系列操作。

  1. 输入:输入参数包括学习率 $(\eta)$、模型参数(model)、隐私参数$ (\epsilon)$、批次大小$(batch_size)$和隐私预算$(privacy_budget)$。

  2. 并行初始化:对于每个客户端 $( i )$,本地模型参数在并行中初始化。

  3. 本地训练周期和批次梯度更新:每个客户端将执行$ ( E ) $轮训练迭代。每个批次$ ( b \in \beta )$ 执行如下步骤。

  4. 计算梯度并更新权重:使用公式(9)更新模型参数以最小化损失函数:

    $$
    w_i^{\mathcal{L}}(k) \leftarrow w_i^{\mathcal{L}}(k - 1) - \eta \nabla F_i\left(w_i^{\mathcal{L}}(k - 1)\right)
    $$

    该过程多次迭代以提高模型预测的准确性。

  5. 使用Adam优化器:Adam优化器通过调整学习率来加快训练速度。

  6. 计算个性化噪声:根据每个客户端的隐私预算和数据敏感性计算要添加的噪声量。

  7. 添加高斯噪声:向本地模型参数添加高斯噪声。

5.2.3 隐私分析与理论证明

本节提供HierFedPDP方法的隐私保护分析。我们证明,HierFedPDP通过为每个客户端分配个性化的本地差分隐私预算,并结合高斯噪声机制,达到了差分隐私的保证。

  • 定理1(隐私预算累积):对于每个客户端 $( i )$,在HierFedPDP框架中,假设全局训练轮次为$ ( k )$,则HierFedPDP的总体隐私预算可以表示为:

    $$
    \epsilon_{\text{total}} = \sqrt{k} \cdot \max_{i} \epsilon_{i}
    $$

    其中,$( \epsilon_{i} ) $表示客户端 $( i )$ 在一次全局迭代中的个性化隐私预算。通过该公式,我们可以看到HierFedPDP的方法在多轮次训练过程中如何累积隐私预算,从而确保对整体隐私的控制。

  • 证明过程:通过分析每个客户端和边缘节点的个性化隐私预算累积,我们能够计算并验证整体系统的隐私预算累积效果,确保HierFedPDP满足差分隐私的定义。

6.实验工作与结果

在本节中,我们将使用标准的MNIST和CIFAR-10数据集,对HierFedPDP框架的性能进行全面评估。

6.1 实验设置

6.1.1 仿真环境

硬件环境包括第13代Intel(R) Core(TM) i5-13500H CPU、NVIDIA GeForce RTX 4050笔记本GPU,以及16GB内存。操作系统为64位Windows系统,深度学习框架使用PyTorch 2.1.0,以便训练机器学习模型并添加个性化的本地差分隐私噪声。

为了开展实验,我们搭建了一个由100个客户端、5个边缘服务器和一个中心参数服务器组成的分层联邦学习系统。为确保实验的公平性和一致性,每个边缘服务器管理相同数量的客户端,每个客户端分配相同数量的训练数据。

6.1.2 数据集

我们使用经典的MNIST手写数字识别数据集和CIFAR-10数据集来评估HierFedPDP框架的性能。MNIST数据集包括60,000个训练样本和10,000个测试样本,每个样本为28 × 28像素的灰度图像,且标签明确,非常适合作为基准。此外,CIFAR-10包含60,000个32 × 32像素的彩色图像,分为10类,每类6000张图像,其中提供50,000张训练图像和10,000张测试图像,可用于评估更复杂的图像识别场景。

6.1.3 基线算法

(1) FedAvg: FedAvg 是一种标准的联邦学习方法,通过平均本地模型的更新来实现全局模型的更新。这种方法能够在不暴露原始数据的情况下进行模型训练。

(2) DP-SGD: DP-SGD 是一种将差分隐私保护融入深度学习训练的技术。它通过在梯度更新中添加随机噪声,并采用所谓的“隐私会计”方法来紧密监控和控制隐私损失,从而在保证数据隐私的同时维持模型性能。

(3) LDP-FL: LDP-FL 是一种创新的本地差分隐私(LDP)算法,旨在通过在数据所有者端进行随机化处理,重塑深度学习训练过程。它确保在数据离开设备之前实现隐私保护,防止数据在传输至潜在的不可信机器学习服务时泄露。

(4) UDP-FL: UDP-FL 是一种基于本地差分隐私(LDP)的用户级差分隐私(UDP)算法。该算法通过在上传前向共享模型添加人工噪声来增强联邦学习中的隐私保护。此外,UDP通过维持固定的隐私预算来确保每轮全局通信中的本地数据隐私。

(5) PPFL: PPFL 结合了本地和中心差分隐私,通过在客户端和服务器级别添加噪声来增强联邦学习。它结合了稀疏梯度和动量梯度下降,改善了准确性并减少了通信开销。这种方法在联邦学习系统中优化了隐私保护和效率。

(6) AGC-DP: AGC-DP 是一种通过自适应高斯裁剪动态调整噪声的差分隐私方法,在联邦学习中优化隐私和准确性。它基于超参数调整噪声,采用动态采样和改进的隐私损失计算,提供了一种个性化的隐私保护方法。

6.1.4 模型结构

为了模拟联邦学习场景,我们使用了一个卷积神经网络(CNN),该网络由两个5 × 5的卷积层、两个2 × 2的池化层、一个Dropout层、两个全连接层和在每个卷积层和第一个全连接层之后的ReLU激活函数组成,最后是输出层。该网络结构旨在密切模拟真实的联邦学习环境,确保实验结果的有效性和可靠性。

6.2 结果

6.2.1 与现有方法的比较

在表3中,我们对HierFedPDP与一系列经典和新评估的算法(如FedAvg、DP-SGD、LDP-FL、UDP-FL、AGC-DP 和PPFL)的准确性进行了综合比较分析。该比较考虑了包括客户端总数、学习率、每轮选定用户比例以及模型准确性等参数。

尽管非隐私的FedAvg算法达到了最高的99.22%的准确性,但它缺乏隐私保护,因此在需要保密性的联邦学习场景中不太合适。在隐私参数为0.5、2和8时,DP-SGD(GDP算法的一个变体)表现出了稳健的性能,但它依赖于可信的服务器。LDP-FL在不同的$\epsilon$设置下,准确率分别为89.49%、91.17%和94.76%,显示了其在各种隐私预算下的适应性。然而,它需要在所有客户端之间保持统一的隐私预算,这可能限制了那些愿意容忍较低隐私的客户端的贡献。

UDP-FL算法在$\epsilon$为4、8和12的情况下,分别达到了87.30%、88.98%和89.69%的准确率,这表明其对隐私保护有良好的适应性,但在较小的客户端组(如50个客户端)中表现有限。

AGC-DP在严格的隐私约束下有效运行,在$\epsilon$分别为0.1、1.5和8的情况下,达到了86.79%、87.62%和90.19%的准确率,特别是在较低的$\epsilon$水平下表现出隐私与性能之间的权衡。

HierFedPDP在不同的隐私设置下表现出色,在$\epsilon$分别为0.5、2和8时,准确率分别达到了90.84%、93.53%和96.16%,几乎与非隐私基准持平,且无需依赖可信服务器。

6.2.2 模型准确性与隐私预算的关系

为了深入分析HierFedPDP的性能,我们考察了模型准确性随隐私预算变化的趋势。图4显示了在MNIST和CIFAR-10数据集上,不同算法在不同隐私预算($(\epsilon)$)条件下的表现。我们可以观察到,随着$(\epsilon)$值的增加,所有算法的准确性逐渐提升,但增长的速率和最终的准确性存在明显的差异。

对于MNIST数据集,随着$(\epsilon)$从0.5增加到8,HierFedPDP的准确性从90.84%稳步上升到96.16%,展示了其在隐私保护和数据效用之间取得的良好平衡。相比之下,LDP-FL和UDP-FL的准确性在较低的$(\epsilon)$值时略显不足,但随着隐私预算的增加,它们的准确性也显著提升。对于DP-SGD,虽然在低$(\epsilon)$值下其表现稍逊,但在较大的$(\epsilon)$设置下,它的准确性接近HierFedPDP。

对于CIFAR-10数据集,HierFedPDP在不同隐私预算条件下均表现出了稳定且优越的准确性。尤其在$(\epsilon = 8)$的设置下,HierFedPDP的准确性达到了80.92%,比UDP-FL和LDP-FL高出近2个百分点。

6.2.3 训练轮次与聚合策略的影响

在HierFedPDP中,采用了三层结构的聚合策略来优化训练过程中的隐私保护和通信开销。为了评估这种策略的效果,我们分析了在不同训练轮次下,HierFedPDP在MNIST和CIFAR-10数据集上的表现。图5展示了在不同全局轮次下的模型准确性变化情况。

对于MNIST数据集,随着全局轮次的增加,HierFedPDP的准确性稳定提升,并在50轮之后达到了最高点。此外,在CIFAR-10数据集上,随着训练轮次的增加,HierFedPDP的准确性从最初的63.42%逐渐上升到第50轮后的80.92%。

6.2.4 通信开销分析

HierFedPDP的分层架构显著减少了数据传输和通信开销。在表4中,我们比较了HierFedPDP与其他算法在训练期间的通信成本。结果表明,与LDP-FL和DP-SGD等基线算法相比,HierFedPDP通过引入边缘服务器实现了更高效的更新传输和聚合,从而显著降低了全局通信的总成本。

6.3 讨论

通过以上实验,我们可以得出以下结论:

  1. 隐私与准确性的平衡:在保持较强隐私保护(较小的(\epsilon))的情况下,HierFedPDP的准确性几乎与非隐私的FedAvg相当,展示了其在隐私和数据效用之间的良好权衡。
  2. 分层结构的优势:HierFedPDP采用的三层客户端-边缘-云架构显著提高了通信效率,并增强了对敏感数据的保护。
  3. 个性化隐私保护:与传统的单一隐私预算策略不同,HierFedPDP允许每个客户端根据其数据的敏感性动态调整隐私预算,从而提高了模型的灵活性和个性化。

总之,HierFedPDP框架为分层联邦学习中的隐私保护提供了一个新的视角,不仅实现了高效的隐私保护,还在数据异构的情况下提高了模型的准确性和稳定性。

7.结论

在本研究中,我们探讨了如何在保护用户隐私的前提下实现分布式机器学习,并提出了一种创新的联邦学习框架——HierFedPDP。该框架在客户端级别实现了个性化本地差分隐私(LDP),通过为不同数据敏感度分配不同的隐私预算,从而提供个性化的隐私保护。该框架还利用Adam算法对模型进行优化,以在隐私保护和模型准确度之间取得平衡。我们的测试结果表明,HierFedPDP在较高隐私预算的设置下,准确率可以达到96.16%。该框架旨在满足个性化隐私需求,同时平衡通信和计算,以提供一种安全且高效的分布式学习解决方案。

8.未来工作

在下一阶段的研究中,我们计划进一步增强HierFedPDP模型,特别是针对医疗保健领域的应用。我们的目标包括扩展在更广泛的数据集和环境中的性能和隐私测试,以支持医疗机构中安全的数据共享和分析。预计这将提高诊断的准确性,推动治疗创新,并促进公共卫生研究的发展。

我们还将通过引入边缘计算来减少中心服务器的负载,从而开发更智能的资源管理策略。我们的重点将包括自动调整超参数和自适应学习机制,以根据不同的数据分布和应用需求来优化系统性能。为了实现这一目标,我们计划:

-进行广泛测试:我们将使用大规模、多样化的数据集进行全面的实验,以评估HierFedPDP的可扩展性和稳健性。
-与行业合作:我们将与其他研究团队和行业进行合作,扩大我们的资源和数据多样性,从而增强我们模型的实际适用性。
-探索优化算法:未来的HierFedPDP版本将测试其他优化策略,包括SGD和RMSprop,以确保其在各种数据类型和架构需求下的兼容性和效率。

这些步骤将共同推进我们对安全高效的分布式学习系统的理解和发展,旨在大幅提升联邦学习的隐私保护和模型性能。