跳转至

ACTG-ARL: Differentially Private Conditional Text Generation with RL-Boosted Control

会议: ICML 2026
arXiv: 2510.18232
代码: https://github.com/actg-arl/ACTG-ARL
领域: 差分隐私 / 文本生成 / 强化学习对齐
关键词: 隐私合成数据, 条件文本生成, 属性控制, 指令跟随, 奖励黑客

一句话总结

本文提出一个分层框架 ACTG,将隐私文本生成分解为特征学习与条件文本生成两个子任务;进一步引入 Anchored RL,通过混合强化学习目标与基于最优 N 选一的 SFT 锚点,在保持文本保真度的前提下提升条件生成器的指令跟随能力,在生物医学数据上相比先前工作提升 20% MAUVE。

研究背景与动机

领域现状 现代 AI 应用依赖大量用户数据(手机输入、推荐历史、对话偏好等),这些数据隐私风险高。生成隐私合成数据是一个有前景的范式,允许下游任务复用合成数据而不需额外隐私成本。DP 合成文本是一个热点,但现有工作主要关注生成静态数据集,忽视了精细控制的实际需求。

现有痛点 1. CTCL 局限:依赖预训练通用主题模型,可能与私域数据不匹配,用粗颗粒主题强行分类细微文本,导致话题推断不准确;当数据集小相对于主题数时,直方图含有大量空值,降噪后信号淹没在噪声中。 2. 控制与保真平衡困难:传统 RL 优化会导致奖励黑客(reward hacking),模型学会生成形式上满足约束但文本质量下降的输出(如 TL;DR 风格摘要)。

核心矛盾 分布匹配目标鼓励从 \(P(X,Y)\) 的高密度区域采样(模型已有信心的区域),而数据增强的价值源于低密度区域(模型不确定的边界或欠覆盖群体)——这导致生成器和增强任务的目标错位。

本文目标 1. 构建模块化框架,通过系统消融识别最优配置。 2. 在保持隐私的前提下,改进条件生成器的指令跟随能力。

切入角度 从"属性条件化"出发,利用结构化表格模式作为特征,配合 DP 特征生成器和 DP 微调条件生成器。进一步,将强化学习与特征约束结合,构建可验证的奖励信号。

核心 idea 分层分解:先从私域数据提取模式化特征 \(\mathcal{D}_{\text{priv}}^f\),用 DP 表格合成器生成隐私特征 \(\mathcal{D}_{\text{syn}}^{\tilde{f}}\);再用 DP 微调学习从特征到文本的条件映射;最后通过 Anchored RL 用最优 N 选一数据作为 SFT 锚点,防止强化学习漂移,实现 \(\mathcal{L}=\mathcal{L}_{\text{RL}}+\gamma\cdot\mathcal{L}_{\text{SFT}}\) 的混合优化。

方法详解

整体框架

分为三个阶段:

阶段 0-2(ACTG): 1. 特征提取:用 Oracle LLM 从私域文本 \(D_{\text{priv}}^x\) 提取结构化属性矩阵 \(D_{\text{priv}}^f\),包含 K 个字段,每个字段有预定义选项。 2. 隐私特征生成(隐私预算 \(\varepsilon_1\)):用 AIM(高级汇总方法)对表格特征进行差分隐私合成,生成 \(D_{\text{syn}}^{\tilde{f}}\)。 3. 隐私条件文本生成(隐私预算 \(\varepsilon_2\)):对 (特征, 文本) 配对进行 DP 微调,学习 \(G_{x|f}\) 实现条件文本生成。

阶段 3-4(Anchored RL): 4. 最优 N 选一锚点数据:对每个特征 \(f\sim G_f\),从 \(G_{x|f}\) 生成 N 个文本候选,按指令跟随精度 IFAcc 选出最优一个,构成 SFT 锚点 \(D_{\text{SFT}_N}\)(无额外隐私成本)。 5. 混合目标训练:从 \(G_{x|f}\) 检查点开始,用 \(\mathcal{L}_{\text{RL}}+\gamma\cdot\mathcal{L}_{\text{SFT}}\) 联合优化,\(\gamma\) 采用线性衰减策略(初期高以保持保真度,逐渐降低以允许指令跟随改进)。

关键设计

  1. 分层分解 + 结构化属性模式:

    • 功能:将条件生成问题分解为两个易处理的子问题,并用领域特定的属性模式取代通用主题。
    • 核心思路:第一层学习特征边际分布(在低维表格空间,用成熟的 AIM 合成器,对隐私预算更高效);第二层学习特征条件下的文本分布(用 DP 微调)。属性模式由 Oracle LLM 或专家在私域数据上设计,捕捉关键维度,避免 CTCL 用通用主题导致的 domain mismatch 与稀疏直方图问题。
    • 设计动机:让隐私预算集中花在关键信息上,并对应数据的自然结构化层次。
  2. Anchored RL 防奖励黑客:

    • 功能:同时改进指令跟随(IFAcc)和保持文本保真度(MAUVE),避免标准 PPO 引起的奖励黑客。
    • 核心思路:(i) 用最优 N 选一从 \(G_{x|f}\) 自身采样构造 SFT 锚点 \(D_{\text{SFT}_N}\)(无隐私成本,因为模型已隐私微调过);(ii) 在 RL 阶段使用混合损失 \(\mathcal{L}=\mathcal{L}_{\text{RL}}+\gamma(t)\mathcal{L}_{\text{SFT}}\),将模型锚定在参考分布附近;(iii) \(\gamma(t)\) 线性衰减——早期强保真,后期逐步放宽以允许指令跟随提升。
    • 设计动机:把 RLHF 的"reference KL"思想适配到隐私文本生成;用模型自采样作 SFT 锚点,既不泄露隐私又能维持质量。
  3. 指令跟随精度作为可验证奖励:

    • 功能:把"是否遵守属性约束"形式化为自动化奖励信号。
    • 核心思路:对生成文本用 Oracle LLM 反提属性,计算 \(\text{IFAcc}=\mathbb{E}_f[\frac{1}{K}\sum_{k=1}^K\mathbb{I}(f_k=\hat{f}_k)]\)。该指标用于 RL 阶段的奖励,也用于最优 N 选一筛选。
    • 设计动机:结构化属性空间天然提供了可验证、可自动评估的目标信号,是 RL 在生成任务中难得的清晰 reward。

损失函数与训练策略

DP 隐私会计:总隐私预算 \((\varepsilon,\delta)\) 由两阶段组成 \(\varepsilon=\varepsilon_1+\varepsilon_2\);对每个总预算 \(\varepsilon\in\{1,4,\infty\}\) 独立调优 \((\varepsilon_1,\varepsilon_2)\) 分割;\(\delta=1/(n\log n)\)。RL 阶段使用混合损失 \(\mathcal{L}=\mathcal{L}_{\text{RL}}+\gamma(t)\mathcal{L}_{\text{SFT}}\)\(\gamma(t)\) 线性衰减。

实验关键数据

主实验

数据集 方法 MAUVE F1分类 NTP精度 IFAcc \(d_{\text{JS}}^f\)
bioRxiv(ε=4) Aug-PE 0.68 0.72 - - 0.15
vanilla DP-FT 0.62 0.68 0.41 0.53 0.18
CTCL 0.64 0.70 0.42 0.48 0.16
ACTG 0.73 0.76 0.56 0.53 0.09
ACTG-ARL 0.74 0.79 0.58 0.62 0.08
PMC-Patients(ε=4) CTCL 0.59 0.64 0.38 0.48 0.20
ACTG 0.71 0.75 0.51 0.50 0.10
ACTG-ARL 0.70 0.77 0.53 0.58 0.09

消融实验

组件 移除/替换 MAUVE IFAcc \(d_{\text{JS}}^f\) 说明
特征模型 用 CTCL 通用主题 0.64 0.48 0.16 通用主题性能明显下降
特征生成器 DP-FT 替代 AIM 0.68 0.50 0.12 AIM 表现更优(更少浪费预算)
条件生成器 直接提示替代 DP 微调 0.61 0.55 0.14 微调版本更稳定
完整 ACTG - 0.73 0.53 0.09 基线
+标准 PPO 无锚点 0.42 0.68 0.22 严重奖励黑客,MAUVE 崩溃
+Anchored RL 完整方法 0.74 0.62 0.08 改进 IFAcc 同时维持保真度

关键发现

  • 特征设计关键:结构化属性模式显著优于通用主题,在 bioRxiv 上 MAUVE 从 0.64 提升到 0.73(+14%)。
  • 表格 vs 文本特征生成:AIM(表格)相比 DP-FT(文本)节省隐私预算,错误 \(d_{\text{JS}}^f\) 更小(0.12 vs 0.14)。
  • RL 奖励黑客严重:标准 PPO 将 MAUVE 从 0.73 摧毁到 0.42,而 Anchored RL 恢复到 0.74(IFAcc 从 0.53→0.62)。
  • 最优 N 选一效果:用 N=5 或 10 个候选选出最优,能产生高质量、多样的 SFT 数据集,无隐私成本增加。
  • 隐私预算分割:在 \(\varepsilon=4\) 下,最优分割大约 \((\varepsilon_1,\varepsilon_2)\approx(1.5,2.5)\)\((2,2)\),表明两阶段都需要充分预算。

亮点与洞察

  • 分层设计的优雅性:将复杂的端到端 DP 文本生成问题分解为低维表格合成 + 条件文本生成,既提升了模块化,又让每个模块用最优工具(AIM vs LLM 微调)。
  • Anchored RL 的实用巧妙:最优 N 选一从模型自身提取参考,避免访问私域数据,完全无隐私成本,却能有效防止奖励黑客——这是对 RLHF 在隐私场景下的一个聪明适配。
  • 属性匹配作为奖励:利用结构化属性空间本身作为 IFAcc 度量的基础,将文本理解问题转化为形式化的属性提取问题,便于自动化和验证。

局限与展望

  • 有限的模型和数据范围:实验仅在 gemma-3-1b-pt(biomedical 领域)进行,未覆盖法律、金融、对话等其他领域,也未探索大模型的表现。
  • 假设属性空间设计:论文未详细讨论如何自动化设计最优属性模式,目前依赖人工或 Oracle LLM,这可能成为应用瓶颈。
  • 隐私预算分割优化\((\varepsilon_1,\varepsilon_2)\) 分割通过超参数调优确定,缺乏理论指导或自适应策略。

相关工作与启发

  • vs DP-FT: 直接应用 DP 微调 LLM,不考虑条件控制或结构化特征,质量下降明显。本文通过分层和属性条件化改进。
  • vs CTCL: 同样采用条件化思想,但 CTCL 用固定通用主题,本文用数据特定的属性模式,显著提升模式-数据匹配度。
  • vs Aug-PE (Private Evolution): PE 通过 LLM 迭代精炼,本文用直接微调 + RL,在 bio 领域 ACTG-ARL 更稳定。

评分

  • 新颖性: ⭐⭐⭐⭐ 分层框架和 Anchored RL 都是新贡献;最优 N 选一的无成本锚点思想巧妙。
  • 实验充分度: ⭐⭐⭐⭐ 两个 biomedical 数据集,多维度评估,充分消融。缺点是未涵盖多个数据集族群。
  • 写作质量: ⭐⭐⭐⭐ 清晰的问题描述,算法伪代码完整,实验细节充分。
  • 价值: ⭐⭐⭐⭐ DP 合成文本的实际需求得到解决(+20% MAUVE),条件控制在隐私应用中首次系统探索,具有高度实用价值。