Differentially Private Preference Data Synthesis for Large Language Model Alignment¶

会议: ICML 2026
arXiv: 2605.30808
代码: https://github.com/gfengyu/Differentially-Private-Preference-Data-Synthesis
领域: LLM安全 / 差分隐私 / 偏好对齐
关键词: 差分隐私, 偏好数据合成, Bradley-Terry, DP-PCA, DPO/RLHF

一句话总结¶

DPPrefSyn 把"在私有偏好数据上做 DP 微调"换成"用 DP 学一个偏好奖励模型分布后再用公开 prompt 合成 DP 偏好数据"，借助 Bradley-Terry 线性奖励的几何结构 + DP-PCA + DP-KMeans 聚类捕捉用户偏好异质性，在 Anthropic-HH 上 \(\varepsilon=2\) 拿到 56.5% GPT-4o win-rate，反超无隐私微调（55.95%）和 DP-FT（37.0%）。

研究背景与动机¶

领域现状：LLM 偏好对齐（RLHF / DPO）依赖 prompt + 一对响应 + 人类偏好标签的三元组数据。这些数据集（如 Anthropic-HH、OpenAssistant、TL;DR）里 prompt 常含健康、身份、政治倾向等敏感信息，annotation 本身也可能泄露标注者偏好。

现有痛点：现有 DP 对齐工作分三类——（1）只保护标签的 label-DP（Chowdhury 2024、Zhang 2025），prompt 仍裸露；（2）DP-PPO 等特定算法的私有微调（Wu 2023a），不兼容 DPO；（3）DP 合成 instructions（Yu 2024）但不针对偏好对。三类都做"部分保护"或"算法特定"，且对私有数据量受限——人类偏好标注极贵。

核心矛盾：偏好数据有强异质性（不同用户重视不同方面：准确、礼貌、创意），但 DP-SGD 在高维 embedding 上样本效率极低；同时希望 DP 后的产物可以重用到 DPO / RLHF / 各种下游 LLM（不再耗预算）。

本文目标：（1）保护 prompt + response + label 全部私有信号；（2）兼容 DPO、RLHF 等任意对齐算法；（3）超越只在私有数据上 DP 微调的基线 utility。

切入角度：把任务从"私有微调一个对齐模型"转成"用 DP 学一个偏好奖励模型分布 → 用它在公开 prompt 上构造合成偏好对"。公开 prompt 不消耗预算，所有预算都用在建偏好模型上；合成数据通过 DP post-processing 可任意复用。

核心 idea：Bradley-Terry + 线性奖励 → 偏好 = \(\langle \theta, \phi(x, a^+) - \phi(x, a^-) \rangle\) 的符号；按 \(\phi\) 差向量聚类把异质偏好分组；用 DP-PCA 降维节省样本、DP-KMeans 分簇、DP-SGD 学每簇线性奖励；最后在公开 prompt 上按簇分布采样、用对应奖励模型选最优/最差对。

方法详解¶

整体框架¶

DPPrefSyn 不再在私有偏好三元组上直接 DP 微调对齐模型，而是先用 DP 预算"把人类偏好压成一族低维线性奖励模型"，再拿这族模型去公开 prompt 上合成偏好对。整条流水线分三步：先对每个私有三元组 \((x_i, a_i^+, a_i^-)\) 算特征差向量并做 DP-PCA 降维 + DP-KMeans 聚类，把异质用户分到 \(K=5\) 个簇；再对每簇用 DP-SGD 学一个线性奖励 \(\theta_k\)；最后在不消耗预算的公开 prompt 上让 LLM 生候选、按簇分布采样奖励模型来打分，挑最优/最差响应拼成合成偏好对。因为合成数据是 DP 输出的后处理产物，可任意复用到 DPO / RLHF / 不同模型而不再花预算。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["私有偏好三元组<br/>(x, a⁺, a⁻)"] --> B["特征差向量<br/>φ(x,a⁺)−φ(x,a⁻)"]
    subgraph PRIV["DP 偏好建模（隐私预算切三段）"]
        direction TB
        B --> C["DP-PCA 降维<br/>1024 → 20 维"]
        C --> D["DP-KMeans 聚类<br/>异质偏好分 K=5 簇"]
        D --> E["每簇 DP-SGD<br/>学线性奖励 θ_k"]
    end
    E --> F["公开 prompt 集<br/>Alpaca/SafeRLHF/XSum"]
    F --> G["LLM 高温生 L=5 候选"]
    G --> H["按簇分布采样 θ_k 打分<br/>取最优/最差拼偏好对"]
    H -->|"奖励差 <0.5 丢弃" | I["合成 DP 偏好对"]
    I --> J["复用到 DPO/RLHF<br/>（零额外预算）"]

关键设计¶

1. Bradley-Terry 线性奖励 + 几何聚类：用一族簇奖励表达异质偏好

单一全局奖励无法刻画"不同用户重视不同方面"（准确、礼貌、创意）这种异质性，但要给每个用户单独建模又会陷入高维多模型困境。本文借 Bradley-Terry 模型的几何结构破局：偏好概率 \(\mathbb{P}[a^+ \succ a^-] = \sigma(\langle \theta, \phi(x,a^+) - \phi(x,a^-)\rangle)\) 只由参数 \(\theta\) 与特征差向量 \(\phi(x,a^+)-\phi(x,a^-)\) 的内积符号决定，因此偏好取向相近的用户，其差向量方向天然一致——把这些差向量聚类，每个簇就对应一类同质偏好，可用一个 cluster-specific 的线性 \(\theta_k\) 近似。聚出来的簇还可解释（如"重视事实性""重视礼貌"）。选线性奖励而非深度奖励，是因为它在表达力和 DP 友好性之间取了平衡：DP-SGD 在线性模型上的样本效率远高于深度模型，而簇内偏好已被聚类同质化，线性结构就够用。

2. DP-PCA + DP-KMeans + DP-SGD 的分阶段预算配置：用降维换样本效率

原始 embedding 高达 1024 维，DP-SGD 直接在这个维度上学奖励所需样本量大到不现实，而人类偏好标注极其昂贵。解法是先用 DP-PCA 把差向量投到 \(p=20\) 维，保留主要偏好信号、丢掉噪声方向，再在低维空间训练。总隐私预算被切成三段：\(\varepsilon_0\) 给 PCA、\(\varepsilon_1\) 给 KMeans、剩余的 \(\varepsilon - \varepsilon_0 - \varepsilon_1\) 给 DP-SGD。由于聚类后各簇样本不相交，DP-SGD 训练满足平行组合定理，总预算只受最小簇约束而非线性叠加。降维本就是 DP 高维训练的标配，而这里选 PCA 而非随机投影是为了更有针对性地保留偏好信号，KMeans 则让每个簇内部足够同质、从而单个线性模型即可拟合。DP-SGD 的多步组合用 PRV accountant 做紧致核算。

3. 公开 prompt + 候选评分构造偏好对：把预算全花在"建偏好"上

合成 prompt 本身既要消耗隐私预算、效果又差，所以本文干脆改用公开 prompt 集（Alpaca / SafeRLHF / XSum），让全部 DP 预算都投到偏好建模而非造 prompt 上。生成时，对每个公开 prompt \(\tilde x_j\) 用高 temperature 让 LLM 产 \(L=5\) 个候选；按一个 DP histogram \(\bm p \leftarrow \bm h / |\mathcal{D}_{\text{priv}}|\)（簇的私有占比）采样出簇 \(k\)，用对应的 \(\theta_k\) 给候选打分，取奖励最高/最低的两个拼成偏好对 \((\tilde a^+, \tilde a^-)\)；若两者奖励差 \(< 0.5\) 说明区分度不够，就丢弃这条以保证合成对的信号质量。公开与私有 prompt 的分布差异不致命，因为作者主张"用户偏好与 prompt 分布解耦"——偏好不变性被 \(\theta_k\) 抓住，换个 prompt 来源依然能复现同一套偏好排序。

实验关键数据¶

主实验：GPT-4o Win-rate（Pythia-2.8B + SFT+DPO）¶

任务	\(\varepsilon=0\)（base）	DP-FT \(\varepsilon=2\)	DPPrefSyn \(\varepsilon=2\)	DP-FT \(\varepsilon=\infty\)（无隐私）
OpenAssistant	2.11	6.18	11.04	8.20
Anthropic-HH	12.14	37.02	56.48	38.72
TL;DR	11.64	35.2	53.8	39.5

在 \(\varepsilon = 2\)（强隐私）下，DPPrefSyn 大幅超过 DP-FT，甚至超过完全无隐私的 DP-FT（\(\varepsilon = \infty\)）—— DP 不再是利用率代价，而成了正则化。

隐私 vs 性能曲线（Anthropic-HH）¶

\(\varepsilon\)	DP-FT win-rate	DPPrefSyn win-rate
0.5	35.00	55.08
1	36.27	55.96
2	37.02	56.48
4	36.74	56.51
8	36.94	56.86
∞	38.72	57.53

DPPrefSyn 几乎在所有 \(\varepsilon\) 上稳定 55%+，DP-FT 卡在 35-37%。DPPrefSyn 对预算不敏感是因为预算只用在低维线性奖励上，远比训练整个 LLM 更省。

消融（OpenAssistant，\(\varepsilon = 2\)）¶

配置	win-rate
完整 DPPrefSyn	11.04
无 DP-PCA（直接 1024 维 DP-SGD）	6.32
无 KMeans 聚类（单一全局奖励）	8.41
用 DP 合成 prompt 替代公开 prompt	7.95
GPT-2 fine-tuned reward 替线性	11.21

DP-PCA 贡献最大（−4.7 点），聚类抓异质性贡献第二（−2.6 点）；线性奖励 vs full GPT-2 几乎一样，证明线性结构足够。

关键发现¶

DP 合成数据 > 直接 DP 微调：DPPrefSyn 在所有 \(\varepsilon\) 下都赢 DP-FT，颠覆了"合成数据会丢信息"的常识
降维是 DP 高维训练的关键：去掉 DP-PCA 直接掉 4.7 点，说明在 1024 维直接 DP-SGD 几乎学不到东西
异质偏好建模有效：聚类带来 2.6 点提升，证实人类偏好确实多模态
post-processing 复用：合成数据集训完一次可换不同模型/算法（SFT、DPO、RLHF）零额外预算

亮点与洞察¶

DP-PCA + 线性奖励 + 聚类"三件套"的精巧组合：每个组件都解决一个 DP 高维训练的具体痛点（样本效率 / 表达力 / 异质性）；组合后跨越 utility-privacy 边界
post-processing 的最大化利用：合成完一次就脱离 DP 控制，可任意复用——这是 DP 合成数据相对 DP 微调的根本优势，本文利用得很彻底
"DP 即正则化"现象：DPPrefSyn 在 \(\varepsilon=2\) 超过完全无隐私基线，说明 DP 噪声在异质数据上充当正则项，缓解过拟合到特定标注者偏好——这是个有意思的副作用
公开 prompt 替代私有 prompt 的洞察：作者论证"用户偏好与 prompt 分布解耦"，因此公开 prompt 可承载私有偏好——这套论证可推广到其他偏好任务（推荐、广告等）

局限性 / 可改进方向¶

线性奖励假设可能过强；非线性偏好（如组合判断、长程依赖判断）下表达力不足
\(K = 5\) 簇的选择没有原则方法，依赖经验；过多 / 过少都伤性能
公开 prompt 分布若严重偏离私有则覆盖不全；缺乏分布偏移的定量分析
仅在 Pythia-2.8B 上验证下游对齐；更大模型（如 13B+）下 DP-PCA 降维的偏置可能放大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次做 DP 偏好对合成；BT 几何 + DP-PCA + 聚类的组合策略系统化
实验充分度: ⭐⭐⭐⭐⭐ 三任务 × 五种 \(\varepsilon\) × 多模型 × 详尽消融；与 DP-FT 全面 head-to-head
写作质量: ⭐⭐⭐⭐ 三步算法清晰，预算分配解释透彻；图 1 直观；BT-聚类的几何论证可以更深
价值: ⭐⭐⭐⭐⭐ DP 对齐是企业部署 LLM 的合规刚需；本文给出业界可直接采用的 pipeline