Private Learning with Public Feature Conditioning¶

会议: ICML 2026
arXiv: 2606.18773
代码: 待确认
领域: 差分隐私 / 隐私保护学习
关键词: 差分隐私, DP-SGD, 公共特征, 条件化, 标签DP, 回归

一句话总结¶

针对带有公共（非敏感）特征的差分隐私回归问题，本文提出 Cond-DP——在 DP-SGD 前用一个由公共特征矩阵构造的条件矩阵 \(\bm{C}=\bm{V}\Sigma^{-1}\bm{V}^T\) 对嵌入参数空间做几何重塑，在不增加任何隐私开销的前提下放大低谱方向的信号噪声比，从而在高隐私（小 \(\epsilon\)）场景下显著优于现有标签 DP 回归方法。

研究背景与动机¶

领域现状：差分隐私（DP）是训练隐私保护模型的主流框架，但天生面临隐私-效用的权衡——加噪声保护隐私就会掉精度。在推荐、广告这类效用极度敏感的系统里，哪怕预测误差小幅上升都会显著伤害下游业务。一个自然的缓解手段是利用数据里天然存在的公共、非敏感特征：比如商品描述是公开的，而用户的购买历史是敏感的。这被形式化为标签 DP（特征公开、标签敏感）以及更一般的半敏感特征 DP（每个样本混合公共与私有特征，标签私有）。

现有痛点：已有工作存在几个硬伤。其一，标签 DP 下的绝大多数方法面向离散标签的分类，无法直接迁移到连续标签的回归；据作者考证，回归方向只有两篇相关工作，一篇 (ghazi2023regression_ldp) 只给纯 DP 保证、且是"特征无关"的（完全不看公共特征结构，错失提升机会），另一篇只研究某类聚合算法能否满足标签 DP。其二，半敏感特征方向的方法要么只适用于双编码器这类特定架构 (krichene2023priv_learning_pub_features)，要么如 (chua2024hybrid_dp_kdd) 那样在高隐私区崩盘——它用随机响应（RR）先privatize标签再 warm-start，而 RR 在高隐私区噪声爆炸，warm-start 形同虚设。

核心矛盾：现有思路要么忽略公共特征结构，要么试图用私有标签去监督地利用公共特征，后者在高隐私预算下因标签噪声过大而失效。真正的机会在于：能不能无监督地利用公共特征的结构，不碰私有标签，从而在高隐私区也稳健？

切入角度：作者观察到一个关键现象——公共特征矩阵（把所有样本的公共特征堆叠起来）在很多应用里虽不严格低秩，但谱衰减很快。在优化中，大奇异值对应的方向天然获得更多权重，而 DP-SGD 加的是各向同性噪声，于是低谱方向的信噪比极低、收敛极慢。如果能调整问题的几何，放大那些被淹没的低谱方向贡献，就能在固定隐私预算下提升效用。

核心 idea：用公共特征矩阵构造一个条件矩阵 \(\bm{C}\) 来重塑嵌入参数空间的几何，再在条件化后的模型上跑标准 DP-SGD。\(\bm{C}\) 只依赖公共信息、训练全程固定，因此零额外隐私成本，却能显著改善低谱方向的优化。

方法详解¶

整体框架¶

本文考虑一类在推荐/广告系统中广泛使用的、带线性输入变换的模型：底层是一个把特征映射成嵌入的线性嵌入层 \(\bm{v}^{\text{pub}}=\Theta^{\text{pub}}\bm{x}^{\text{pub}}\)、\(\bm{v}^{\text{priv}}=\Theta^{\text{priv}}\bm{x}^{\text{priv}}\)，上层是一个（可选的、可非线性的）预测组件 \(f_\omega\)（如 MLP 或因子分解机）。当嵌入维度为 1 且上层是简单求和时，这个模型类退化为私有线性回归。底层线性嵌入层是关键，因为它的参数直接系于输入特征，因此可以用公共特征的知识来更有效地学习它。

Cond-DP 的核心改动只有一处：把标准的公共嵌入计算 \(\bm{v}^{\text{pub}}=\Theta^{\text{pub}}\bm{x}^{\text{pub}}\) 替换成条件化版本 \(\bm{v}^{\text{pub}}=\Theta^{\text{pub}}\bm{C}\bm{x}^{\text{pub}}\)，然后照常用 DP-SGD 去最小化 \(\mathcal{L}(\Theta^{\text{pub}}\bm{C},\Theta^{\text{priv}},\omega;D)\)。整个 pipeline 如下：先离线从公共特征矩阵算出 \(\bm{C}\)（不消耗隐私预算），训练时每步对各参数块的梯度加各向同性高斯噪声并更新，最后对各步参数做平均输出。对线性模型，作者给出了 \(\bm{C}\) 的闭式构造与可证收敛提升；对带 MLP 的复杂模型，则引入 Switch-Cond-DP 处理"条件化早期加速、后期阻碍"的现象。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["训练数据<br/>公共特征 + 私有特征 + 私有标签"] --> B["谱条件矩阵构造<br/>对公共特征矩阵做 SVD<br/>C = V·Σ⁻¹·Vᵀ（零隐私成本）"]
    B --> C["参数空间条件化<br/>公共嵌入改为 Θᵖᵘᵇ·C·xᵖᵘᵇ"]
    C --> D["条件化 DP-SGD<br/>各向同性加噪 + 梯度裁剪"]
    D -->|MLP 等复杂模型| E["Switch-Cond-DP<br/>前期 Cond-DP 后期切回 DP-SGD"]
    D -->|线性回归| F["参数平均输出<br/>可证更紧的超额风险界"]
    E --> F

关键设计¶

1. 谱条件矩阵 \(\bm{C}=\bm{V}\Sigma^{-1}\bm{V}^T\)：把各向同性噪声"折算"成对低谱方向友好的几何

痛点很具体：DP-SGD 加的是各向同性高斯噪声，但公共特征矩阵 \(\bm{X}^{\text{pub}}\) 谱衰减很快，小奇异值方向上信号弱、被噪声淹没，导致这些方向收敛极慢。Cond-DP 的做法是对 \(\bm{X}^{\text{pub}}=\bm{U}\Sigma\bm{V}^T\) 做 SVD，取条件矩阵 \(\widehat{\bm{C}}\coloneq\bm{V}\Sigma^{-1}\bm{V}^T\)，把它插在公共特征前面。直觉上，\(\Sigma^{-1}\) 对小奇异值方向做了放大，相当于在条件化后的坐标系里把原本被压扁的低谱方向"拉起来"，让各向同性噪声在新几何下对各方向更公平，从而提升低谱方向的信噪比。关键是 \(\bm{C}\) 只用了公共特征（非敏感），所以不消耗任何隐私预算——这是它优于"用私有标签 warm-start"那类方法的根本原因。

收敛界里这一点被精确刻画。在标签 DP（无私有特征、零初始化）下，DP-SGD 的界正比于 \(\sqrt{2\sum_i (\widehat{y}_i \frac{\sigma_{\max}}{\sigma_i})^2}\)，而 Cond-DP 的界正比于 \(\sqrt{2\sum_i \widehat{y}_i^2}\)。由于 \(\sigma_{\max}^2/\sigma_i^2\ge 1\) 对所有方向成立，Cond-DP 的界逐项更小，是可证更紧的。提升幅度 \(\sqrt{\sum_i (\widehat{y}_i \frac{\sigma_{\max}}{\sigma_i})^2 / \sum_i \widehat{y}_i^2}\) 在标签 \(\bm{y}\) 对齐最小奇异方向时最大、对齐最大奇异方向时为 1——也就是说，标签越是落在公共特征的低谱方向上，Cond-DP 赚得越多。

2. 隐私保证与裁剪敏感度：\(\bm{C}\) 改的是几何而非隐私会计

由于 \(\bm{C}\) 会改变梯度范数的界，噪声方差也得相应跟着 \(\bm{C}\) 走。定理给出：当噪声方差设为 \(\sigma^2=\widetilde{O}\!\left(\frac{M^2 T}{\epsilon^2 n^2}\right)\)、其中 \(M^2 \triangleq G^2\cdot\max_i\|\bm{C}\bm{x}_i^{\text{pub}}\|^2 + \widehat{G}^2 R^2 + \overline{G}^2\) 时，算法满足 \((\epsilon,\delta)\)-DP。这里 \(M\) 是细粒度 Lipschitz 假设下对公共/私有/上层三块梯度范数的复合界，\(\bm{C}\) 只通过 \(\|\bm{C}\bm{x}_i^{\text{pub}}\|\) 影响敏感度。实践中作者并不显式估计 \(M\)，而是沿用标准 DP-SGD 的逐样本梯度裁剪（裁剪阈值当超参），让加噪与隐私会计照常进行；\(\bm{x}^{\text{pub}}\) 的依赖只用于理论上指导 \(\bm{C}\) 的选择，不进入隐私核算。一个值得记住的特例（Remark 4.11）：把 \(\bm{C}\) 设为单位阵就完全退化回标准 DP-SGD，所有收敛界回到经典结果，说明 Cond-DP 是 DP-SGD 的严格推广。

3. Switch-Cond-DP：用"先条件化后切回"修复复杂模型的后期阻碍

对线性回归，\((\Theta^{\text{pub}})^*\) 有闭式解，所以能证明 \(\widehat{\bm{C}}\) 一定改进界。但对带 MLP 的复杂模型，最优解无法解析刻画，理论保证失效。作者退而做经验观察，发现一个反直觉现象：条件化能在训练早期大幅加速收敛，却在后期阻碍 loss 进一步下降。据此提出 Switch-Cond-DP——前期用 Cond-DP 吃掉早期加速红利，到某个 switching epoch（当超参调）后切回普通 DP-SGD，让后期继续推进。这个混合策略把条件化的好处局部化在它真正起作用的训练阶段，避免它在后期反噬。

损失函数 / 训练策略¶

训练目标是标准经验风险 \(\mathcal{L}=\frac{1}{n}\sum_i l(f_\omega(\Theta^{\text{pub}}\bm{x}_i^{\text{pub}},\Theta^{\text{priv}}\bm{x}_i^{\text{priv}}),y_i)\)，回归用平方损失 \(l(\widehat{y},y)=(\widehat{y}-y)^2\)。优化器用 Opacus 实现的带噪 Adam，逐参数高斯初始化。理论上覆盖凸（Theorem 4.6）、强凸光滑（Theorem 4.8）、非凸（Theorem 4.10）三种损失的收敛保证；其中强凸界还显式依赖 \(\bm{C}\) 的条件数 \(\sigma_{\max}(\bm{C})/\sigma_{\min}(\bm{C})\)，提示条件化不能太极端。

实验关键数据¶

实验在标签 DP 下评测三类回归设置：合成/真实数据上的私有线性模型、带 MLP 预测头的非线性模型，以及 Criteo 赞助搜索转化基准。隐私预算扫 \(\epsilon\in\{0.25,0.5,1,2,4,\infty\}\)（\(\infty\) 为非私有），\(\delta=10^{-6}\)。

主实验¶

设置	对比基线	Cond-DP 表现	关键结论
私有线性回归（合成/真实）	DP-SGD、RR-on-Bins（SOTA 标签 DP 回归）、Weighted-LLP	在固定隐私预算下持续更低 MSE	高隐私区（小 \(\epsilon\)）增益最大
带 MLP 的非线性模型	DP-SGD	Switch-Cond-DP 优于纯 DP-SGD	修复条件化后期阻碍
Criteo 赞助搜索转化	DP-SGD、RR-on-Bins	一致提升	验证真实广告场景有效

理论侧的核心定量结论是 Lemma 4.13：在标签 DP、零初始化下，Cond-DP 的超额风险界正比 \(\sqrt{2\|\widehat{\bm{y}}\|^2}\)，DP-SGD 正比 \(\sqrt{2\|\Sigma^{-1}\widehat{\bm{y}}\|^2}\)（含 \(\sigma_{\max}(\bm{X}^{\text{pub}})\) 放大因子），前者严格更紧。⚠️ 主文未给出全部数值表，具体 MSE 数字以原文图 4/表格为准。

消融实验¶

配置	效果	说明
\(\bm{C}=\bm{V}\Sigma^{-1}\bm{V}^T\)（完整 Cond-DP）	最优	谱条件化，低谱方向被放大
\(\bm{C}=\mathbb{I}\)（退化为 DP-SGD）	基线	收敛界回到经典 DP-SGD
Cond-DP 全程用于 MLP	后期变差	条件化后期阻碍 loss 下降
Switch-Cond-DP（前期 Cond-DP→后期 DP-SGD）	优于上一行	switching epoch 当超参

关键发现¶

增益与谱结构强相关：标签 \(\bm{y}\) 越对齐公共特征矩阵的低奇异方向、谱衰减越快，Cond-DP 相对 DP-SGD 的提升越大；当 \(\bm{y}\) 对齐最大奇异方向时提升退化为 1（无增益）。
高隐私区最划算：小 \(\epsilon\) 时各向同性噪声相对信号更强，几何重塑的收益被放大，这正是现有方法（如 RR warm-start）最易崩溃的区间。
条件化是双刃剑：线性模型全程有效，但 MLP 上需要 Switch 策略——单纯把好东西用满反而后期掉点。

亮点与洞察¶

零隐私成本的几何技巧：把"利用公共特征"从监督式（碰私有标签）转成无监督式（只用特征矩阵的谱），从根上绕开了 RR 在高隐私区噪声爆炸的问题——这是最关键的"啊哈"。
DP-SGD 的严格推广：\(\bm{C}=\mathbb{I}\) 即退化回 DP-SGD，意味着 Cond-DP 永远不会更差（在线性情形可证更好），落地风险低。
可迁移思路：用数据的二阶/谱结构去预条件 DP 优化，这个思路可推广到任何"输入层是线性、且输入有快速衰减谱"的隐私训练场景（如带嵌入表的推荐塔）。
正交可叠加：作者指出 Cond-DP 与 feature DP (Saeed2025) 等正交方法可组合，只要公共部分有线性输入层。

局限与展望¶

强依赖线性输入层与谱衰减假设：方法的理论保证建立在"模型起始于线性层 + 公共特征可在输入层分离 + 公共特征矩阵谱快速衰减"上；谱不衰减或无线性输入层时增益消失。
复杂模型缺乏理论保证：MLP 等只能靠经验 + Switch 启发式，switching epoch 还得调，缺乏何时切、切多少的原则性指导。
\(\bm{C}\) 需要全局 SVD：构造条件矩阵要对公共特征矩阵做 SVD，超大规模特征下的可扩展性与近似（如随机 SVD）影响未在主文充分讨论。
改进方向：把"早期加速、后期阻碍"现象做成可学习的、随训练动态退火的条件化强度，或许能省掉 Switch 的硬切换超参。

评分¶

新颖性: ⭐⭐⭐⭐ 把公共特征利用从监督式转成无监督的谱条件化，零隐私成本是真新意。
实验充分度: ⭐⭐⭐⭐ 合成+多真实数据+Criteo，覆盖线性与非线性，但主文数值表偏少。
写作质量: ⭐⭐⭐⭐ 理论动机清晰、定理与直觉对应到位。
价值: ⭐⭐⭐⭐ 对推荐/广告这类高隐私敏感且有公共特征的场景有直接落地价值。