跳转至

Personalized Federated Training of Diffusion Models with Privacy Guarantees

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 联邦学习 / 扩散模型 / 差分隐私
关键词: 联邦学习, 扩散模型, 差分隐私, 个性化, 隐私攻击防御

一句话总结

PFDM 把扩散模型的反向去噪过程拆成"客户端私有去噪器 + 服务器共享去噪器"两块,客户端只上传经裁剪并前向加噪后的数据,从而对每个数据点给出形式化的本地差分隐私(LDP)保证;共享模型只见加噪数据、单独无法复现任何客户端样本,而协同又能显著提升少数类/欠表示类的生成质量。

研究背景与动机

领域现状:医院、金融、科研机构受隐私法规所限无法把数据集中,于是用联邦学习(FL)在不交换原始数据的前提下协同训练。近期不少工作把 FL 用到扩散模型上(FedAvg 训 DDPM、FedDM 等),想训一个能扩充数据覆盖、支持多种下游任务的共享生成模型。

现有痛点:现有联邦扩散方法训的都是单一全局扩散模型,有三个硬伤。其一,没有客户端级控制——所有人共用一个生成器,无法生成符合各自分布的个性化合成数据。其二,记忆风险——扩散模型会记住训练样本,把一个端到端的全局生成器直接放出去,等于让所有客户端暴露在抽取/重建攻击下。其三,标准 DP 训练不顶用——给扩散模型套 DP-SGD 往往严重掉质量、在高维图像上扩展性差,且仍可能记忆;把低维表格上的 DP-SGD 扩散训练搬到高维图像并不平凡,因为 DP 噪声会破坏去噪过程的稳定性。

核心矛盾:单一全局生成器在"安全(防记忆/重建)"和"灵活(个性化控制)"之间两头不讨好——越想共享越危险,越加 DP 噪声质量越差。

本文目标:在去中心化、形式化隐私保证下,给每个客户端一个个性化生成模型,同时维持一个可安全共享、单独却无法生成任意客户端样本的共享模型。

切入角度:作者观察到扩散去噪天然有"粗到细"层次——前向扩散过程里图像的细粒度细节(如纹理)比宏观结构(如背景布局)衰减得更快。于是可以让共享模型只学"加噪后还剩下的粗结构",把敏感细节留给本地模型。

核心 idea:把反向去噪拆成 shared(标准高斯噪声 → 客户端加噪图像的混合)和 client-specific(加噪图像 → 干净图像)两段——共享模型永远只处理加噪数据,从而既降低记忆风险、又给每个客户端直接的合成数据控制权。

方法详解

整体框架

PFDM(Algorithm 1)是一个只需一轮通信的两阶段联邦框架。每个客户端先在本地私有数据上用标准 DDPM 训一个个性化去噪器 \(z_{\theta_m}\)(永不外传);随后对采样到的数据先做裁剪、再跑 \(t_0\) 步前向扩散得到加噪数据集 \(\tilde{D}_m\)只把这份加噪数据上传给服务器。服务器聚合所有 \(\tilde{D}_m\) 训一个共享全局去噪器 \(z_w\)。采样时先用 \(z_w\) 反扩散 \(T\) 步得到一个体现跨客户端公共结构的中间样本,再交给客户端的 \(z_{\theta_m}\) 精修 \(t_0\) 步,补回该客户端特有的细节。整个流程里共享模型只接触加噪数据,因此既能安全共享、又单独无法复现任何人的样本。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["客户端私有数据 D_m"] --> B["本地训练个性化去噪器 z_θm<br/>标准 DDPM,永不外传"]
    A --> C["前向扩散加噪 + 裁剪 → LDP<br/>CLIP 后跑 t0 步前向扩散得 D̃_m"]
    C -->|仅上传加噪数据,一轮通信| D["服务器训练共享去噪器 z_w<br/>聚合各 D̃_m"]
    D --> E["粗到细协同采样<br/>z_w 反扩散 T 步 → z_θm 精修 t0 步"]
    E --> F["客户端 m 的个性化合成样本"]

关键设计

1. 个性化去噪拆分:共享模型只见加噪数据

这是治"单一全局生成器既危险又不灵活"的根。PFDM 把反向(去噪)过程拆成两段:客户端去噪器 \(z_{\theta_m}\) 负责把噪声图像映射回干净图像(学的是该客户端特有的细粒度细节),共享去噪器 \(z_w\) 负责把标准高斯噪声映射到"客户端加噪图像的混合分布"。关键在于共享模型全程只处理加噪后的客户端图像,从不接触干净数据——这既降低了记忆敏感样本的风险,又使共享模型单独无法生成任何特定客户端的样本(必须配上本地模型才有用)。这种拆分让共享模型专注捕捉可泛化的跨客户端高层特征(有助于缓解数据不平衡),而把敏感的细粒度特征隔离在本地。

2. 前向扩散加噪+裁剪:用扩散噪声本身换 LDP 保证

客户端在上传前做两件事:先对样本裁剪 \(\text{CLIP}(x,C)=x\cdot\min(1,C/\|x\|_2)\) 把幅度限到 \(C\),再跑 \(t_0\) 步前向扩散 \(\tilde{x}_0=\sqrt{\bar{\alpha}_{t_0}}\,\text{CLIP}(x_0,C)+\sqrt{1-\bar{\alpha}_{t_0}}\,z\)。这一步注入的高斯噪声正好被复用为差分隐私机制——定理 5.1 给出:上传结果对每个数据点满足 \((\epsilon,\delta)\)-本地差分隐私(LDP),其中有效噪声方差 \(\sigma^2=(1-\bar{\alpha}_{t_0})/\bar{\alpha}_{t_0}\)\(\epsilon\) 的上界为 \(\frac{2C^2}{\sigma^2}+C\sqrt{\frac{8\log(1/\delta)}{\sigma^2}}\)。因此 \(t_0\) 就是隐私-效用的旋钮\(t_0\) 越大、\(\sigma^2\) 越大、隐私越强但细节保留越少。作者选 LDP 而非中心 DP 是因为它不需要可信服务器,且逐样本 LDP 严格强于同级别的样本级中心 DP——这对 cross-silo 场景(每个机构持有大量个体记录)最实用。文中举例:\(T=1000\)、线性噪声调度、\(C=10\)\(t_0=690\) 时给出 \(\epsilon=10,\delta=10^{-5}\) 的 LDP。

3. 粗到细协同采样:为什么"拆"是有效的

采样分两段(Algorithm 2):先用全局 \(z_w\) 从标准高斯噪声反扩散 \(T\) 步得中间样本 \(\tilde{x}_0\),再用本地 \(z_{\theta_m}\)\(t_0\) 步往回精修 \(t_0\) 步得最终样本(若本地模型已能从噪声直接生成高质图像,也可只用本地模型)。拆分之所以成立,靠的是前向扩散的粗到细性质:细粒度细节(纹理)比宏观结构(背景布局)衰减更快,所以即便不同客户端原始数据差异很大,它们的加噪分布 \(\{q_m(x_{t_0})\}\)聚到相似的大尺度特征上。于是在这些加噪数据上训 \(z_w\) 就能学到广泛有用、又不触及敏感信息的结构模式,敏感细节则由各自的 \(z_{\theta_m}\) 补回——这正是"共享公共结构、本地补私有细节"能同时拿到隐私和效用的根本原因。

4. 效用保证:协同对少数类的增益

定理 5.2 在高斯混合模型(GMM)下给出效用界:客户端 \(m\) 学到的条件分布与真分布的 2-Wasserstein 距离期望为 \(O\!\big(\frac{2}{2+3\sigma^2}\cdot\frac{d^2}{N_k}+\frac{3\sigma^2}{2+3\sigma^2}\cdot\frac{d^2}{n_k^m}\big)\),其中 \(n_k^m\) 是客户端 \(m\) 的类-\(k\) 样本数、\(N_k=\sum_m n_k^m\) 是全体类-\(k\) 样本数。这个界在两个极端间平滑插值:\(\sigma^2\to\infty\)(最大隐私)逼近非协同率 \(O(d^2/n_k^m)\)\(\sigma^2\to 0\)(最小隐私)逼近集中式率 \(O(d^2/N_k)\)。由于 \(N_k\) 可能远大于 \(n_k^m\)(尤其类 \(k\) 在客户端 \(m\) 上欠表示时),协同对少数类收益巨大——定理还进一步证明在足够总支持下 PFDM 严格优于非协同训练。

损失函数 / 训练策略

两阶段都用标准 DDPM 训练目标(预测噪声的 \(\ell_2\) 损失 \(\mathbb{E}\|z_t-z_\theta(x_t,t)\|_2^2\))。全程线性噪声调度、\(T=1000\),隐私预算固定 \(\epsilon=10,\delta=10^{-5}\),只在开头通信一轮。由于全局模型只见裁剪图像、输出也偏裁剪,本地训练额外混入裁剪/未裁剪样本并加一个辅助条件信号,把生成引导回未裁剪图像。

实验关键数据

主实验

在 CIFAR-10、Colorized MNIST、CelebA 上用 FID 评估(按第一个客户端的多数/少数类分别报,越低越好)。PFDM 逼近非私有基线、且在少数类上大幅优于非协同基线:

方法 CIFAR-10 (多/少/均) C-MNIST (多/少/均) CelebA (多/少/均)
非私有(集中式) 16.27/17.62/16.95 1.85/1.45/1.66 13.72/11.70/12.71
非私有(FedDM) 18.05/19.15/18.60 1.89/1.51/1.70 14.47/11.83/13.15
非协同(隐私极端) 19.87/36.44/28.16 2.19/5.99/4.09 23.42/41.38/32.40
本文(协同) 19.85/35.78/27.82 1.72/4.79/3.26 18.11/28.09/23.10

与 DP 训练基线 DPDM 对比(MNIST,两客户端,\(\epsilon=10\)):PFDM 多/少数类 FID 为 5.40/8.51(均 6.96),而联邦化 DPDM 仅 31.06/36.40(均 33.73)——说明给扩散模型直接套 DP-SGD 的图像质量远差于本文的"拆分+加噪上传"方案。

隐私攻击评估

对全局模型做成员推断(PIA)、记忆、重建三类攻击,AUC/ASR 都贴近 50%(随机猜):

指标 (300 epoch 全局模型) CIFAR-10 C-MNIST CelebA
AUC 50.01 49.70 50.08
ASR 50.15 50.10 50.34
TPR@1% FPR 0.82 1.07 0.86

作为对照,标准非私有(集中式)模型训到 1000 epoch 后 MIA 的 AUC 在三数据集上分别飙到 82.13% / 99.62% / 99.59%。记忆检测(最近邻比例准则)下生成样本无一满足记忆条件;重建攻击下服务器收到的加噪图像也无法被复原。

关键发现

  • 少数类是协同的最大受益者:定理 5.2 预言 \(N_k\gg n_k^m\) 时协同增益大,实验印证——少数类 FID 相比非协同显著下降(如 C-MNIST 5.99→4.79、CelebA 41.38→28.09)。
  • 客户端越多、协同价值越大:CIFAR-10 上固定总数据量、把客户端从 4 增到 128,协同与非协同的 FID 差距随客户端数增大而扩大,说明数据越碎片、越异质,协同越值。
  • 隐私防护是"结构性"的:全局模型生成的数字形状不可辨(只剩粗色彩/布局),三类攻击全线接近随机猜,证明防护来自"共享模型只见加噪数据"的设计,而非事后调参。

亮点与洞察

  • 把扩散噪声"一鱼两吃":前向扩散注入的高斯噪声既是生成机制、又被直接复用为 DP 机制,省掉了额外 DP-SGD 噪声对去噪过程的破坏——这是比"扩散模型 + DP-SGD"优雅得多的隐私化路径。
  • 粗到细 = 隐私边界:用"细节比结构衰减快"这一扩散固有性质,把"哪些信息可共享"和"哪些必须留本地"在数学上对齐到 \(t_0\) 这一个旋钮上,思路非常干净,可迁移到其他需要"共享粗、私有细"的协同生成场景。
  • 理论与实证闭环:定理(隐私 5.1 + 效用 5.2)+ 三类隐私攻击 + 多数据集 FID,把"协同提升少数类、且不泄露"这件事从两头都钉死了。

局限与展望

  • 依赖 cross-silo 假设:方法主打 cross-silo(每客户端数据量大),并把标签当公开条件变量只保护图像内容;标签敏感或 cross-device(海量小客户端)场景下的适配性未充分讨论。
  • 效用理论限于 GMM:定理 5.2 的插值界基于高斯混合 + 分段线性去噪网络这一可分析近似,真实高维图像上的紧致性以经验为准。⚠️ 各定理常数与条件以原文为准。
  • 裁剪带来的分布偏移:全局模型只见裁剪图像、输出偏裁剪,需靠本地混入未裁剪样本 + 辅助条件信号纠偏,这步引入额外设计复杂度,其鲁棒性有待更多数据集验证。

相关工作与启发

  • vs FedDM / FedAvg-DDPM:它们训单一全局扩散模型、提升通信效率,但不给形式化 DP,客户端仍易受梯度重建攻击,且无个性化控制;PFDM 给每点 LDP、且产出个性化生成器。
  • vs DPDM(DP-SGD 扩散):DP-SGD 给扩散模型在高维图像上加噪会破坏去噪稳定性、严重掉质量(联邦 DPDM FID 33.73 vs 本文 6.96);PFDM 改用"前向扩散加噪上传"把隐私噪声与生成机制统一。
  • vs 个性化联邦(拆 UNet 为共享/本地):已有工作(如把 UNet 拆共享/本地模块)做个性化但不给形式化 DP;PFDM 的拆分专门设计成"共享只见加噪数据",同时拿到个性化与可证隐私。

评分

  • 新颖性: ⭐⭐⭐⭐ "前向扩散加噪即 DP + 个性化去噪拆分"组合是个漂亮的新视角
  • 实验充分度: ⭐⭐⭐⭐ 三数据集 + 多客户端规模 + 三类隐私攻击 + DP 基线对比,较全面
  • 写作质量: ⭐⭐⭐⭐ 理论与实证衔接清晰,"为什么拆有效"讲得到位
  • 价值: ⭐⭐⭐⭐ 给"可证隐私 + 个性化"的联邦扩散提供了一条比 DP-SGD 更实用的路线