跳转至

Differentially Private Preference Data Synthesis for Large Language Model Alignment

会议: ICML 2026
arXiv: 2605.30808
代码: https://github.com/gfengyu/Differentially-Private-Preference-Data-Synthesis
领域: LLM安全 / 差分隐私 / 偏好对齐
关键词: 差分隐私, 偏好数据合成, Bradley-Terry, DP-PCA, DPO/RLHF

一句话总结

DPPrefSyn 把"在私有偏好数据上做 DP 微调"换成"用 DP 学一个偏好奖励模型分布后再用公开 prompt 合成 DP 偏好数据",借助 Bradley-Terry 线性奖励的几何结构 + DP-PCA + DP-KMeans 聚类捕捉用户偏好异质性,在 Anthropic-HH 上 \(\varepsilon=2\) 拿到 56.5% GPT-4o win-rate,反超无隐私微调(55.95%)和 DP-FT(37.0%)。

研究背景与动机

领域现状:LLM 偏好对齐(RLHF / DPO)依赖 prompt + 一对响应 + 人类偏好标签的三元组数据。这些数据集(如 Anthropic-HH、OpenAssistant、TL;DR)里 prompt 常含健康、身份、政治倾向等敏感信息,annotation 本身也可能泄露标注者偏好。

现有痛点:现有 DP 对齐工作分三类——(1)只保护标签的 label-DP(Chowdhury 2024、Zhang 2025),prompt 仍裸露;(2)DP-PPO 等特定算法的私有微调(Wu 2023a),不兼容 DPO;(3)DP 合成 instructions(Yu 2024)但不针对偏好对。三类都做"部分保护"或"算法特定",且对私有数据量受限——人类偏好标注极贵。

核心矛盾:偏好数据有强异质性(不同用户重视不同方面:准确、礼貌、创意),但 DP-SGD 在高维 embedding 上样本效率极低;同时希望 DP 后的产物可以重用到 DPO / RLHF / 各种下游 LLM(不再耗预算)。

本文目标:(1)保护 prompt + response + label 全部私有信号;(2)兼容 DPO、RLHF 等任意对齐算法;(3)超越只在私有数据上 DP 微调的基线 utility。

切入角度:把任务从"私有微调一个对齐模型"转成"用 DP 学一个偏好奖励模型分布 → 用它在公开 prompt 上构造合成偏好对"。公开 prompt 不消耗预算,所有预算都用在建偏好模型上;合成数据通过 DP post-processing 可任意复用。

核心 idea:Bradley-Terry + 线性奖励 → 偏好 = \(\langle \theta, \phi(x, a^+) - \phi(x, a^-) \rangle\) 的符号;按 \(\phi\) 差向量聚类把异质偏好分组;用 DP-PCA 降维节省样本、DP-KMeans 分簇、DP-SGD 学每簇线性奖励;最后在公开 prompt 上按簇分布采样、用对应奖励模型选最优/最差对。

方法详解

整体框架

DPPrefSyn 三步: 1. 偏好表征 + 聚类:对每个 \((x_i, a_i^+, a_i^-)\)\(d_i = \psi(x_i, a_i^+) - \psi(x_i, a_i^-)\);DP-PCA 降到 \(p=20\) 维(消耗 \(\varepsilon_0\));DP-KMeans 分 \(K=5\) 簇(消耗 \(\varepsilon_1\)) 2. DP 奖励模型训练:每簇用 DP-SGD 学线性 \(\theta_k \in \mathbb{R}^p\),平行组合定理(簇不相交)保证总预算 \(\varepsilon - \varepsilon_0 - \varepsilon_1\) 3. 合成生成:DP histogram \(\bm p \leftarrow \bm h / |\mathcal{D}_{\text{priv}}|\);对每个公开 prompt \(\tilde x_j\),LLM 生 \(L=5\) 候选,采样簇 \(k \sim \bm p\),用 \(\theta_k\) 算奖励,最大/最小作为 \((\tilde a^+, \tilde a^-)\);奖励差太小(< 0.5)就丢弃保证质量

PRV accountant 紧组合 DP-SGD 步;post-processing 性质让合成数据可任意复用。

关键设计

  1. Bradley-Terry 线性奖励 → 几何聚类:

    • 功能:在低维空间捕捉异质用户偏好,把"建一个全局奖励"换成"建一族簇奖励"
    • 核心思路:BT 模型下 \(\mathbb{P}[a^+ \succ a^-] = \sigma(\langle \theta, \phi(x,a^+) - \phi(x,a^-)\rangle)\);同类偏好的用户其 \(\phi\) 差向量方向一致,因此可按差向量聚类近似 cluster-specific \(\theta_k\)。聚类发现的簇可解释(如"重视事实性""重视礼貌")
    • 设计动机:单一奖励无法表达异质偏好;聚类避免了高维多模型问题;线性结构在表达性和 DP 友好性间取得平衡(DP-SGD 在线性模型上样本效率远高于深度模型)
  2. DP-PCA + DP-KMeans + DP-SGD 的预算配置:

    • 功能:通过维度缩减提升 DP-SGD 的样本效率,分阶段消耗预算
    • 核心思路:原 embedding 1024 维,DP-SGD 在该维度学奖励需要海量样本;DP-PCA 把差向量投到 \(p=20\) 维保留主要偏好信号;预算分配 \(\varepsilon_0\)(PCA)+ \(\varepsilon_1\)(KMeans)+ 剩余给 DP-SGD;簇不相交 → DP 平行组合,预算只受最小簇影响
    • 设计动机:降维是 DP 高维数据训练的标配技巧;PCA 比 random projection 更针对性,KMeans 让簇内偏好同质从而每簇线性模型够用
  3. 公开 prompt 节省预算 + 候选评分构造偏好对:

    • 功能:让所有 DP 预算花在"建偏好"而非"合成 prompt"
    • 核心思路:用公开 prompt 集(Alpaca / SafeRLHF / XSum),每 prompt 让 LLM 高 temperature 生 5 个候选;按 DP histogram 抽簇 \(k\),用 \(\theta_k\) 算奖励,最高/最低成偏好对;奖励差 < 0.5 时丢弃避免噪声对
    • 设计动机:合成 prompt 自身耗预算且效果差;用公开 prompt 把这部分省下来;prompt 分布差异通过 \(\theta_k\) 抓取偏好不变性来弥合(如作者所述:用户的偏好不随 prompt 变)

实验关键数据

主实验:GPT-4o Win-rate(Pythia-2.8B + SFT+DPO)

任务 \(\varepsilon=0\)(base) DP-FT \(\varepsilon=2\) DPPrefSyn \(\varepsilon=2\) DP-FT \(\varepsilon=\infty\)(无隐私)
OpenAssistant 2.11 6.18 11.04 8.20
Anthropic-HH 12.14 37.02 56.48 38.72
TL;DR 11.64 35.2 53.8 39.5

\(\varepsilon = 2\)(强隐私)下,DPPrefSyn 大幅超过 DP-FT,甚至超过完全无隐私的 DP-FT(\(\varepsilon = \infty\))—— DP 不再是利用率代价,而成了正则化

隐私 vs 性能曲线(Anthropic-HH)

\(\varepsilon\) DP-FT win-rate DPPrefSyn win-rate
0.5 35.00 55.08
1 36.27 55.96
2 37.02 56.48
4 36.74 56.51
8 36.94 56.86
38.72 57.53

DPPrefSyn 几乎在所有 \(\varepsilon\) 上稳定 55%+,DP-FT 卡在 35-37%。DPPrefSyn 对预算不敏感是因为预算只用在低维线性奖励上,远比训练整个 LLM 更省。

消融(OpenAssistant,\(\varepsilon = 2\)

配置 win-rate
完整 DPPrefSyn 11.04
无 DP-PCA(直接 1024 维 DP-SGD) 6.32
无 KMeans 聚类(单一全局奖励) 8.41
用 DP 合成 prompt 替代公开 prompt 7.95
GPT-2 fine-tuned reward 替线性 11.21

DP-PCA 贡献最大(−4.7 点),聚类抓异质性贡献第二(−2.6 点);线性奖励 vs full GPT-2 几乎一样,证明线性结构足够。

关键发现

  • DP 合成数据 > 直接 DP 微调:DPPrefSyn 在所有 \(\varepsilon\) 下都赢 DP-FT,颠覆了"合成数据会丢信息"的常识
  • 降维是 DP 高维训练的关键:去掉 DP-PCA 直接掉 4.7 点,说明在 1024 维直接 DP-SGD 几乎学不到东西
  • 异质偏好建模有效:聚类带来 2.6 点提升,证实人类偏好确实多模态
  • post-processing 复用:合成数据集训完一次可换不同模型/算法(SFT、DPO、RLHF)零额外预算

亮点与洞察

  • DP-PCA + 线性奖励 + 聚类"三件套"的精巧组合:每个组件都解决一个 DP 高维训练的具体痛点(样本效率 / 表达力 / 异质性);组合后跨越 utility-privacy 边界
  • post-processing 的最大化利用:合成完一次就脱离 DP 控制,可任意复用——这是 DP 合成数据相对 DP 微调的根本优势,本文利用得很彻底
  • "DP 即正则化"现象:DPPrefSyn 在 \(\varepsilon=2\) 超过完全无隐私基线,说明 DP 噪声在异质数据上充当正则项,缓解过拟合到特定标注者偏好——这是个有意思的副作用
  • 公开 prompt 替代私有 prompt 的洞察:作者论证"用户偏好与 prompt 分布解耦",因此公开 prompt 可承载私有偏好——这套论证可推广到其他偏好任务(推荐、广告等)

局限性 / 可改进方向

  • 线性奖励假设可能过强;非线性偏好(如组合判断、长程依赖判断)下表达力不足
  • \(K = 5\) 簇的选择没有原则方法,依赖经验;过多 / 过少都伤性能
  • 公开 prompt 分布若严重偏离私有则覆盖不全;缺乏分布偏移的定量分析
  • 仅在 Pythia-2.8B 上验证下游对齐;更大模型(如 13B+)下 DP-PCA 降维的偏置可能放大

相关工作与启发

  • vs DP-FT / DP-PPO / DP-RLHF:直接 DP 微调对齐模型;每次换算法/模型都要重新花预算;DPPrefSyn 一次 DP,多次复用
  • vs label-DP(Chowdhury / Zhang):只保护标签 prompt 仍泄露;DPPrefSyn 保全部
  • vs DP synthetic instructions(Yu 2024):合成 instructions 不针对偏好;DPPrefSyn 直接合成偏好对,对齐效果更好
  • vs Aug-PE(Xie 2024):DP 通用文本合成,依赖 LLM API 迭代;DPPrefSyn 更细分到偏好对,借助 BT 几何结构
  • 启发:把"DP 直接训"换成"DP 学一个抽象 → 合成数据 → 复用"的范式可推广到所有需要保护标注的有监督任务(医学、法律、推荐)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次做 DP 偏好对合成;BT 几何 + DP-PCA + 聚类的组合策略系统化
  • 实验充分度: ⭐⭐⭐⭐⭐ 三任务 × 五种 \(\varepsilon\) × 多模型 × 详尽消融;与 DP-FT 全面 head-to-head
  • 写作质量: ⭐⭐⭐⭐ 三步算法清晰,预算分配解释透彻;图 1 直观;BT-聚类的几何论证可以更深
  • 价值: ⭐⭐⭐⭐⭐ DP 对齐是企业部署 LLM 的合规刚需;本文给出业界可直接采用的 pipeline