Differentially Private Preference Data Synthesis for Large Language Model Alignment¶
会议: ICML 2026
arXiv: 2605.30808
代码: https://github.com/gfengyu/Differentially-Private-Preference-Data-Synthesis
领域: LLM安全 / 差分隐私 / 偏好对齐
关键词: 差分隐私, 偏好数据合成, Bradley-Terry, DP-PCA, DPO/RLHF
一句话总结¶
DPPrefSyn 把"在私有偏好数据上做 DP 微调"换成"用 DP 学一个偏好奖励模型分布后再用公开 prompt 合成 DP 偏好数据",借助 Bradley-Terry 线性奖励的几何结构 + DP-PCA + DP-KMeans 聚类捕捉用户偏好异质性,在 Anthropic-HH 上 \(\varepsilon=2\) 拿到 56.5% GPT-4o win-rate,反超无隐私微调(55.95%)和 DP-FT(37.0%)。
研究背景与动机¶
领域现状:LLM 偏好对齐(RLHF / DPO)依赖 prompt + 一对响应 + 人类偏好标签的三元组数据。这些数据集(如 Anthropic-HH、OpenAssistant、TL;DR)里 prompt 常含健康、身份、政治倾向等敏感信息,annotation 本身也可能泄露标注者偏好。
现有痛点:现有 DP 对齐工作分三类——(1)只保护标签的 label-DP(Chowdhury 2024、Zhang 2025),prompt 仍裸露;(2)DP-PPO 等特定算法的私有微调(Wu 2023a),不兼容 DPO;(3)DP 合成 instructions(Yu 2024)但不针对偏好对。三类都做"部分保护"或"算法特定",且对私有数据量受限——人类偏好标注极贵。
核心矛盾:偏好数据有强异质性(不同用户重视不同方面:准确、礼貌、创意),但 DP-SGD 在高维 embedding 上样本效率极低;同时希望 DP 后的产物可以重用到 DPO / RLHF / 各种下游 LLM(不再耗预算)。
本文目标:(1)保护 prompt + response + label 全部私有信号;(2)兼容 DPO、RLHF 等任意对齐算法;(3)超越只在私有数据上 DP 微调的基线 utility。
切入角度:把任务从"私有微调一个对齐模型"转成"用 DP 学一个偏好奖励模型分布 → 用它在公开 prompt 上构造合成偏好对"。公开 prompt 不消耗预算,所有预算都用在建偏好模型上;合成数据通过 DP post-processing 可任意复用。
核心 idea:Bradley-Terry + 线性奖励 → 偏好 = \(\langle \theta, \phi(x, a^+) - \phi(x, a^-) \rangle\) 的符号;按 \(\phi\) 差向量聚类把异质偏好分组;用 DP-PCA 降维节省样本、DP-KMeans 分簇、DP-SGD 学每簇线性奖励;最后在公开 prompt 上按簇分布采样、用对应奖励模型选最优/最差对。
方法详解¶
整体框架¶
DPPrefSyn 三步: 1. 偏好表征 + 聚类:对每个 \((x_i, a_i^+, a_i^-)\) 算 \(d_i = \psi(x_i, a_i^+) - \psi(x_i, a_i^-)\);DP-PCA 降到 \(p=20\) 维(消耗 \(\varepsilon_0\));DP-KMeans 分 \(K=5\) 簇(消耗 \(\varepsilon_1\)) 2. DP 奖励模型训练:每簇用 DP-SGD 学线性 \(\theta_k \in \mathbb{R}^p\),平行组合定理(簇不相交)保证总预算 \(\varepsilon - \varepsilon_0 - \varepsilon_1\) 3. 合成生成:DP histogram \(\bm p \leftarrow \bm h / |\mathcal{D}_{\text{priv}}|\);对每个公开 prompt \(\tilde x_j\),LLM 生 \(L=5\) 候选,采样簇 \(k \sim \bm p\),用 \(\theta_k\) 算奖励,最大/最小作为 \((\tilde a^+, \tilde a^-)\);奖励差太小(< 0.5)就丢弃保证质量
PRV accountant 紧组合 DP-SGD 步;post-processing 性质让合成数据可任意复用。
关键设计¶
-
Bradley-Terry 线性奖励 → 几何聚类:
- 功能:在低维空间捕捉异质用户偏好,把"建一个全局奖励"换成"建一族簇奖励"
- 核心思路:BT 模型下 \(\mathbb{P}[a^+ \succ a^-] = \sigma(\langle \theta, \phi(x,a^+) - \phi(x,a^-)\rangle)\);同类偏好的用户其 \(\phi\) 差向量方向一致,因此可按差向量聚类近似 cluster-specific \(\theta_k\)。聚类发现的簇可解释(如"重视事实性""重视礼貌")
- 设计动机:单一奖励无法表达异质偏好;聚类避免了高维多模型问题;线性结构在表达性和 DP 友好性间取得平衡(DP-SGD 在线性模型上样本效率远高于深度模型)
-
DP-PCA + DP-KMeans + DP-SGD 的预算配置:
- 功能:通过维度缩减提升 DP-SGD 的样本效率,分阶段消耗预算
- 核心思路:原 embedding 1024 维,DP-SGD 在该维度学奖励需要海量样本;DP-PCA 把差向量投到 \(p=20\) 维保留主要偏好信号;预算分配 \(\varepsilon_0\)(PCA)+ \(\varepsilon_1\)(KMeans)+ 剩余给 DP-SGD;簇不相交 → DP 平行组合,预算只受最小簇影响
- 设计动机:降维是 DP 高维数据训练的标配技巧;PCA 比 random projection 更针对性,KMeans 让簇内偏好同质从而每簇线性模型够用
-
公开 prompt 节省预算 + 候选评分构造偏好对:
- 功能:让所有 DP 预算花在"建偏好"而非"合成 prompt"
- 核心思路:用公开 prompt 集(Alpaca / SafeRLHF / XSum),每 prompt 让 LLM 高 temperature 生 5 个候选;按 DP histogram 抽簇 \(k\),用 \(\theta_k\) 算奖励,最高/最低成偏好对;奖励差 < 0.5 时丢弃避免噪声对
- 设计动机:合成 prompt 自身耗预算且效果差;用公开 prompt 把这部分省下来;prompt 分布差异通过 \(\theta_k\) 抓取偏好不变性来弥合(如作者所述:用户的偏好不随 prompt 变)
实验关键数据¶
主实验:GPT-4o Win-rate(Pythia-2.8B + SFT+DPO)¶
| 任务 | \(\varepsilon=0\)(base) | DP-FT \(\varepsilon=2\) | DPPrefSyn \(\varepsilon=2\) | DP-FT \(\varepsilon=\infty\)(无隐私) |
|---|---|---|---|---|
| OpenAssistant | 2.11 | 6.18 | 11.04 | 8.20 |
| Anthropic-HH | 12.14 | 37.02 | 56.48 | 38.72 |
| TL;DR | 11.64 | 35.2 | 53.8 | 39.5 |
在 \(\varepsilon = 2\)(强隐私)下,DPPrefSyn 大幅超过 DP-FT,甚至超过完全无隐私的 DP-FT(\(\varepsilon = \infty\))—— DP 不再是利用率代价,而成了正则化。
隐私 vs 性能曲线(Anthropic-HH)¶
| \(\varepsilon\) | DP-FT win-rate | DPPrefSyn win-rate |
|---|---|---|
| 0.5 | 35.00 | 55.08 |
| 1 | 36.27 | 55.96 |
| 2 | 37.02 | 56.48 |
| 4 | 36.74 | 56.51 |
| 8 | 36.94 | 56.86 |
| ∞ | 38.72 | 57.53 |
DPPrefSyn 几乎在所有 \(\varepsilon\) 上稳定 55%+,DP-FT 卡在 35-37%。DPPrefSyn 对预算不敏感是因为预算只用在低维线性奖励上,远比训练整个 LLM 更省。
消融(OpenAssistant,\(\varepsilon = 2\))¶
| 配置 | win-rate |
|---|---|
| 完整 DPPrefSyn | 11.04 |
| 无 DP-PCA(直接 1024 维 DP-SGD) | 6.32 |
| 无 KMeans 聚类(单一全局奖励) | 8.41 |
| 用 DP 合成 prompt 替代公开 prompt | 7.95 |
| GPT-2 fine-tuned reward 替线性 | 11.21 |
DP-PCA 贡献最大(−4.7 点),聚类抓异质性贡献第二(−2.6 点);线性奖励 vs full GPT-2 几乎一样,证明线性结构足够。
关键发现¶
- DP 合成数据 > 直接 DP 微调:DPPrefSyn 在所有 \(\varepsilon\) 下都赢 DP-FT,颠覆了"合成数据会丢信息"的常识
- 降维是 DP 高维训练的关键:去掉 DP-PCA 直接掉 4.7 点,说明在 1024 维直接 DP-SGD 几乎学不到东西
- 异质偏好建模有效:聚类带来 2.6 点提升,证实人类偏好确实多模态
- post-processing 复用:合成数据集训完一次可换不同模型/算法(SFT、DPO、RLHF)零额外预算
亮点与洞察¶
- DP-PCA + 线性奖励 + 聚类"三件套"的精巧组合:每个组件都解决一个 DP 高维训练的具体痛点(样本效率 / 表达力 / 异质性);组合后跨越 utility-privacy 边界
- post-processing 的最大化利用:合成完一次就脱离 DP 控制,可任意复用——这是 DP 合成数据相对 DP 微调的根本优势,本文利用得很彻底
- "DP 即正则化"现象:DPPrefSyn 在 \(\varepsilon=2\) 超过完全无隐私基线,说明 DP 噪声在异质数据上充当正则项,缓解过拟合到特定标注者偏好——这是个有意思的副作用
- 公开 prompt 替代私有 prompt 的洞察:作者论证"用户偏好与 prompt 分布解耦",因此公开 prompt 可承载私有偏好——这套论证可推广到其他偏好任务(推荐、广告等)
局限性 / 可改进方向¶
- 线性奖励假设可能过强;非线性偏好(如组合判断、长程依赖判断)下表达力不足
- \(K = 5\) 簇的选择没有原则方法,依赖经验;过多 / 过少都伤性能
- 公开 prompt 分布若严重偏离私有则覆盖不全;缺乏分布偏移的定量分析
- 仅在 Pythia-2.8B 上验证下游对齐;更大模型(如 13B+)下 DP-PCA 降维的偏置可能放大
相关工作与启发¶
- vs DP-FT / DP-PPO / DP-RLHF:直接 DP 微调对齐模型;每次换算法/模型都要重新花预算;DPPrefSyn 一次 DP,多次复用
- vs label-DP(Chowdhury / Zhang):只保护标签 prompt 仍泄露;DPPrefSyn 保全部
- vs DP synthetic instructions(Yu 2024):合成 instructions 不针对偏好;DPPrefSyn 直接合成偏好对,对齐效果更好
- vs Aug-PE(Xie 2024):DP 通用文本合成,依赖 LLM API 迭代;DPPrefSyn 更细分到偏好对,借助 BT 几何结构
- 启发:把"DP 直接训"换成"DP 学一个抽象 → 合成数据 → 复用"的范式可推广到所有需要保护标注的有监督任务(医学、法律、推荐)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次做 DP 偏好对合成;BT 几何 + DP-PCA + 聚类的组合策略系统化
- 实验充分度: ⭐⭐⭐⭐⭐ 三任务 × 五种 \(\varepsilon\) × 多模型 × 详尽消融;与 DP-FT 全面 head-to-head
- 写作质量: ⭐⭐⭐⭐ 三步算法清晰,预算分配解释透彻;图 1 直观;BT-聚类的几何论证可以更深
- 价值: ⭐⭐⭐⭐⭐ DP 对齐是企业部署 LLM 的合规刚需;本文给出业界可直接采用的 pipeline