Differentially Private Preference Data Synthesis for Large Language Model Alignment¶

会议: ICML 2026
arXiv: 2605.30808
代码: https://github.com/gfengyu/Differentially-Private-Preference-Data-Synthesis
领域: LLM安全 / 差分隐私 / 偏好对齐
关键词: 差分隐私, 偏好数据合成, Bradley-Terry, DP-PCA, DPO/RLHF

一句话总结¶

DPPrefSyn 把"在私有偏好数据上做 DP 微调"换成"用 DP 学一个偏好奖励模型分布后再用公开 prompt 合成 DP 偏好数据"，借助 Bradley-Terry 线性奖励的几何结构 + DP-PCA + DP-KMeans 聚类捕捉用户偏好异质性，在 Anthropic-HH 上 \(\varepsilon=2\) 拿到 56.5% GPT-4o win-rate，反超无隐私微调（55.95%）和 DP-FT（37.0%）。

研究背景与动机¶

领域现状：LLM 偏好对齐（RLHF / DPO）依赖 prompt + 一对响应 + 人类偏好标签的三元组数据。这些数据集（如 Anthropic-HH、OpenAssistant、TL;DR）里 prompt 常含健康、身份、政治倾向等敏感信息，annotation 本身也可能泄露标注者偏好。

现有痛点：现有 DP 对齐工作分三类——（1）只保护标签的 label-DP（Chowdhury 2024、Zhang 2025），prompt 仍裸露；（2）DP-PPO 等特定算法的私有微调（Wu 2023a），不兼容 DPO；（3）DP 合成 instructions（Yu 2024）但不针对偏好对。三类都做"部分保护"或"算法特定"，且对私有数据量受限——人类偏好标注极贵。

核心矛盾：偏好数据有强异质性（不同用户重视不同方面：准确、礼貌、创意），但 DP-SGD 在高维 embedding 上样本效率极低；同时希望 DP 后的产物可以重用到 DPO / RLHF / 各种下游 LLM（不再耗预算）。

本文目标：（1）保护 prompt + response + label 全部私有信号；（2）兼容 DPO、RLHF 等任意对齐算法；（3）超越只在私有数据上 DP 微调的基线 utility。

切入角度：把任务从"私有微调一个对齐模型"转成"用 DP 学一个偏好奖励模型分布 → 用它在公开 prompt 上构造合成偏好对"。公开 prompt 不消耗预算，所有预算都用在建偏好模型上；合成数据通过 DP post-processing 可任意复用。

核心 idea：Bradley-Terry + 线性奖励 → 偏好 = \(\langle \theta, \phi(x, a^+) - \phi(x, a^-) \rangle\) 的符号；按 \(\phi\) 差向量聚类把异质偏好分组；用 DP-PCA 降维节省样本、DP-KMeans 分簇、DP-SGD 学每簇线性奖励；最后在公开 prompt 上按簇分布采样、用对应奖励模型选最优/最差对。

方法详解¶

整体框架¶

DPPrefSyn 三步： 1. 偏好表征 + 聚类：对每个 \((x_i, a_i^+, a_i^-)\) 算 \(d_i = \psi(x_i, a_i^+) - \psi(x_i, a_i^-)\)；DP-PCA 降到 \(p=20\) 维（消耗 \(\varepsilon_0\)）；DP-KMeans 分 \(K=5\) 簇（消耗 \(\varepsilon_1\)） 2. DP 奖励模型训练：每簇用 DP-SGD 学线性 \(\theta_k \in \mathbb{R}^p\)，平行组合定理（簇不相交）保证总预算 \(\varepsilon - \varepsilon_0 - \varepsilon_1\) 3. 合成生成：DP histogram \(\bm p \leftarrow \bm h / |\mathcal{D}_{\text{priv}}|\)；对每个公开 prompt \(\tilde x_j\)，LLM 生 \(L=5\) 候选，采样簇 \(k \sim \bm p\)，用 \(\theta_k\) 算奖励，最大/最小作为 \((\tilde a^+, \tilde a^-)\)；奖励差太小（< 0.5）就丢弃保证质量

PRV accountant 紧组合 DP-SGD 步；post-processing 性质让合成数据可任意复用。

关键设计¶

Bradley-Terry 线性奖励 → 几何聚类:
- 功能：在低维空间捕捉异质用户偏好，把"建一个全局奖励"换成"建一族簇奖励"
- 核心思路：BT 模型下 \(\mathbb{P}[a^+ \succ a^-] = \sigma(\langle \theta, \phi(x,a^+) - \phi(x,a^-)\rangle)\)；同类偏好的用户其 \(\phi\) 差向量方向一致，因此可按差向量聚类近似 cluster-specific \(\theta_k\)。聚类发现的簇可解释（如"重视事实性""重视礼貌"）
- 设计动机：单一奖励无法表达异质偏好；聚类避免了高维多模型问题；线性结构在表达性和 DP 友好性间取得平衡（DP-SGD 在线性模型上样本效率远高于深度模型）
DP-PCA + DP-KMeans + DP-SGD 的预算配置:
- 功能：通过维度缩减提升 DP-SGD 的样本效率，分阶段消耗预算
- 核心思路：原 embedding 1024 维，DP-SGD 在该维度学奖励需要海量样本；DP-PCA 把差向量投到 \(p=20\) 维保留主要偏好信号；预算分配 \(\varepsilon_0\)（PCA）+ \(\varepsilon_1\)（KMeans）+ 剩余给 DP-SGD；簇不相交 → DP 平行组合，预算只受最小簇影响
- 设计动机：降维是 DP 高维数据训练的标配技巧；PCA 比 random projection 更针对性，KMeans 让簇内偏好同质从而每簇线性模型够用
公开 prompt 节省预算 + 候选评分构造偏好对:
- 功能：让所有 DP 预算花在"建偏好"而非"合成 prompt"
- 核心思路：用公开 prompt 集（Alpaca / SafeRLHF / XSum），每 prompt 让 LLM 高 temperature 生 5 个候选；按 DP histogram 抽簇 \(k\)，用 \(\theta_k\) 算奖励，最高/最低成偏好对；奖励差 < 0.5 时丢弃避免噪声对
- 设计动机：合成 prompt 自身耗预算且效果差；用公开 prompt 把这部分省下来；prompt 分布差异通过 \(\theta_k\) 抓取偏好不变性来弥合（如作者所述：用户的偏好不随 prompt 变）

实验关键数据¶

主实验：GPT-4o Win-rate（Pythia-2.8B + SFT+DPO）¶

任务	\(\varepsilon=0\)（base）	DP-FT \(\varepsilon=2\)	DPPrefSyn \(\varepsilon=2\)	DP-FT \(\varepsilon=\infty\)（无隐私）
OpenAssistant	2.11	6.18	11.04	8.20
Anthropic-HH	12.14	37.02	56.48	38.72
TL;DR	11.64	35.2	53.8	39.5

在 \(\varepsilon = 2\)（强隐私）下，DPPrefSyn 大幅超过 DP-FT，甚至超过完全无隐私的 DP-FT（\(\varepsilon = \infty\)）—— DP 不再是利用率代价，而成了正则化。

隐私 vs 性能曲线（Anthropic-HH）¶

\(\varepsilon\)	DP-FT win-rate	DPPrefSyn win-rate
0.5	35.00	55.08
1	36.27	55.96
2	37.02	56.48
4	36.74	56.51
8	36.94	56.86
∞	38.72	57.53

DPPrefSyn 几乎在所有 \(\varepsilon\) 上稳定 55%+，DP-FT 卡在 35-37%。DPPrefSyn 对预算不敏感是因为预算只用在低维线性奖励上，远比训练整个 LLM 更省。

消融（OpenAssistant，\(\varepsilon = 2\)）¶

配置	win-rate
完整 DPPrefSyn	11.04
无 DP-PCA（直接 1024 维 DP-SGD）	6.32
无 KMeans 聚类（单一全局奖励）	8.41
用 DP 合成 prompt 替代公开 prompt	7.95
GPT-2 fine-tuned reward 替线性	11.21

DP-PCA 贡献最大（−4.7 点），聚类抓异质性贡献第二（−2.6 点）；线性奖励 vs full GPT-2 几乎一样，证明线性结构足够。

关键发现¶

DP 合成数据 > 直接 DP 微调：DPPrefSyn 在所有 \(\varepsilon\) 下都赢 DP-FT，颠覆了"合成数据会丢信息"的常识
降维是 DP 高维训练的关键：去掉 DP-PCA 直接掉 4.7 点，说明在 1024 维直接 DP-SGD 几乎学不到东西
异质偏好建模有效：聚类带来 2.6 点提升，证实人类偏好确实多模态
post-processing 复用：合成数据集训完一次可换不同模型/算法（SFT、DPO、RLHF）零额外预算

亮点与洞察¶

DP-PCA + 线性奖励 + 聚类"三件套"的精巧组合：每个组件都解决一个 DP 高维训练的具体痛点（样本效率 / 表达力 / 异质性）；组合后跨越 utility-privacy 边界
post-processing 的最大化利用：合成完一次就脱离 DP 控制，可任意复用——这是 DP 合成数据相对 DP 微调的根本优势，本文利用得很彻底
"DP 即正则化"现象：DPPrefSyn 在 \(\varepsilon=2\) 超过完全无隐私基线，说明 DP 噪声在异质数据上充当正则项，缓解过拟合到特定标注者偏好——这是个有意思的副作用
公开 prompt 替代私有 prompt 的洞察：作者论证"用户偏好与 prompt 分布解耦"，因此公开 prompt 可承载私有偏好——这套论证可推广到其他偏好任务（推荐、广告等）

局限性 / 可改进方向¶

线性奖励假设可能过强；非线性偏好（如组合判断、长程依赖判断）下表达力不足
\(K = 5\) 簇的选择没有原则方法，依赖经验；过多 / 过少都伤性能
公开 prompt 分布若严重偏离私有则覆盖不全；缺乏分布偏移的定量分析
仅在 Pythia-2.8B 上验证下游对齐；更大模型（如 13B+）下 DP-PCA 降维的偏置可能放大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次做 DP 偏好对合成；BT 几何 + DP-PCA + 聚类的组合策略系统化
实验充分度: ⭐⭐⭐⭐⭐ 三任务 × 五种 \(\varepsilon\) × 多模型 × 详尽消融；与 DP-FT 全面 head-to-head
写作质量: ⭐⭐⭐⭐ 三步算法清晰，预算分配解释透彻；图 1 直观；BT-聚类的几何论证可以更深
价值: ⭐⭐⭐⭐⭐ DP 对齐是企业部署 LLM 的合规刚需；本文给出业界可直接采用的 pipeline