Privacy-R1: Privacy-Aware Multi-LLM Agent Collaboration via Reinforcement Learning¶
会议: ACL 2026
arXiv: 2510.16054
代码: GitHub
领域: LLM 安全 / 隐私保护 / 多模型协作
关键词: 隐私委托, PII 泄露, 动态路由, 强化学习, 多 LLM 协作
一句话总结¶
Privacy-R1 将隐私敏感查询的本地/远程模型委托问题建模为逐句路由的序列决策任务,用轻量 Transformer policy + PPO 学到隐私与任务质量之间的动态折中,在 PUPA 和高 PII 密度的 Med-PCD 上都比静态改写方法取得更好的质量-泄露前沿。
研究背景与动机¶
领域现状:很多实际 LLM 应用需要在本地小模型和远程强模型之间做选择。远程模型能力强,但用户 prompt 可能包含姓名、医院、日期、病历号等个人信息;本地模型更可控,但能力弱,容易降低回答质量。
现有痛点:已有 Privacy-Conscious Delegation 方法多采用静态 prompt 改写,即先把整个用户查询中的 PII 泛化或删除,再交给远程模型。这种做法有两个问题:一是会破坏指代关系和篇章连贯性,二是会把任务本身需要的关键信息也一起抹掉,导致远程模型无法完成任务。
核心矛盾:不是所有 PII 都有同等作用。有些身份信息只是可替换的隐私负担,应该留在本地;有些信息却直接决定任务语义,完全遮蔽会造成效用崩塌。静态改写无法区分这两类信息。
本文目标:训练一个轻量策略代理,让它在子 prompt / 句子粒度上决定哪些内容由本地模型处理、哪些内容可以委托给远程模型,从而同时控制隐私泄露和回答质量。
切入角度:作者把委托过程看成顺序决策,而不是一次性文本变换。策略模型读取整段查询的上下文后,对每个语义 chunk 选择 local 或 remote,并用任务成功奖励与隐私泄露惩罚共同优化。
核心 idea:用 RL 学一个“什么时候值得承担隐私成本”的动态路由策略,让模型在上下文中隐式识别可替换 PII 与任务关键 PII。
方法详解¶
整体框架¶
Privacy-R1 的输入是一个可能包含 PII 的用户查询,输出是最终回答。系统先用 SpaCy 句子切分把查询分成语义完整的 chunks;然后策略代理为每个 chunk 选择本地模型或远程模型;被分派后的模型分别生成中间输出,最后由本地模型整合得到最终回答。整个过程不追求把原文完全匿名化,而是把“信息应该留在哪个模型侧”作为核心决策。
关键设计¶
-
语义 chunk 级动态路由:
- 功能:把隐私委托从整段 prompt 改写变成细粒度的逐句路由。
- 核心思路:查询被切成句子级 chunks,每个 chunk 都有两个动作:交给安全但较弱的本地模型,或交给强但不受信任的远程模型。这样系统可以保留不敏感或任务关键上下文的效用,同时把高风险信息尽量留在本地。
- 设计动机:医学、金融等场景中的 PII 往往分布密集且相互指代,整段改写容易把关键链条剪断;逐句决策能更自然地处理“这句话该不该外发”的局部权衡。
-
带全局上下文的轻量策略代理:
- 功能:让每个 chunk 的路由决策依赖整段查询,而不是只看当前句子。
- 核心思路:先用冻结的 MiniLM 提取 chunk embedding,再加位置编码并送入 2 层 Transformer encoder,得到上下文化表示 \(h_t\)。每个 \(h_t\) 经过共享线性层和 softmax 输出 local/remote 概率。
- 设计动机:PII 的任务价值通常依赖跨句关系。例如后文代词可能指向前文患者或地点;无上下文的 MLP 路由器无法判断某个实体是否对最终回答不可或缺。
-
非线性隐私惩罚与两阶段训练:
- 功能:用奖励函数直接表达“质量收益”和“隐私风险”的竞争关系。
- 核心思路:奖励为 \(R=TaskGain-\lambda \cdot PrivacyLeak^2\)。TaskGain 由 LLM-as-a-judge 判断最终回答是否达到远程模型使用完整原始查询时的目标质量;PrivacyLeak 是发送到远程模型的 PII 比例。训练先用启发式标签做 SFT warm-up:含 PII 的 chunk 走本地,不含 PII 的 chunk 走远程;再用 PPO 微调。
- 设计动机:线性惩罚会让模型在平均指标上看似不错,却允许少数样本出现大规模泄露。平方项让高泄露样本受到更重惩罚,降低灾难性泄露概率。
损失函数 / 训练策略¶
SFT 阶段把策略代理训练成二分类器,优化逐 chunk 的 BCE 损失。RL 阶段采用 PPO,actor 是路由策略,critic 是前馈 value 网络;每个完整查询 rollout 后计算 episodic reward,再用 advantage 更新策略。默认 \(\lambda=5.0\),SFT 学习率 \(3\times10^{-4}\),PPO 学习率 \(1\times10^{-5}\),最大 256 steps,实验在 H200 GPU 上完成。
实验关键数据¶
主实验¶
作者在 PUPA-TNB 与自建 Med-PCD 上评估 Quality Preservation 与 Privacy Leakage。远程模型固定为 GPT-4o-mini,本地模型从 1B 到 8B 不等。
| 本地模型 | 数据集 | PAPILLON 质量 / 泄露 | Privacy-R1 质量 / 泄露 | 相对 PAPILLON 的变化 |
|---|---|---|---|---|
| Llama-3.2-1B | PUPA-TNB | 58.0 / 39.3 | 62.5 / 25.0 | 质量 +4.5,泄露 -14.3 |
| Llama-3.2-1B | Med-PCD | 45.1 / 42.5 | 75.3 / 18.2 | 质量 +30.2,泄露 -24.3 |
| Llama-3.2-3B | Med-PCD | 58.5 / 28.1 | 81.0 / 15.4 | 质量 +22.5,泄露 -12.7 |
| Llama-3.1-8B | Med-PCD | 82.0 / 9.2 | 89.5 / 5.1 | 质量 +7.5,泄露 -4.1 |
| Mistral-7B | Med-PCD | 74.5 / 14.0 | 87.9 / 9.5 | 质量 +13.4,泄露 -4.5 |
| Qwen2-7B | Med-PCD | 76.2 / 18.5 | 88.4 / 12.0 | 质量 +12.2,泄露 -6.5 |
消融实验¶
消融集中在 Med-PCD + Qwen2-7B 本地模型,验证状态建模和非线性奖励的重要性。
| 配置 | Quality (%) ↑ | Leakage / Catastrophic Leaks ↓ | 说明 |
|---|---|---|---|
| Stateless Router (MLP) | 75.2 | Leakage 11.5 | 独立看每个 chunk,缺少跨句上下文 |
| Stateful Router | 88.4 | Leakage 12.0 | Transformer policy 明显提升质量 |
| Linear Penalty | 88.1 | Catastrophic Leaks 16.2 | 平均质量接近,但高泄露样本很多 |
| Quadratic Penalty | 88.4 | Catastrophic Leaks 1.1 | 大幅降低灾难性泄露 |
隐私-效用权衡¶
| \(\lambda\) | Quality (%) ↑ | Leakage (%) ↓ | 解读 |
|---|---|---|---|
| 1.0 | 90.1 | 15.5 | 更偏向效用,泄露较高 |
| 2.0 | 89.6 | 13.8 | 质量略降,隐私更好 |
| 5.0 | 88.4 | 12.0 | 默认折中点 |
| 10.0 | 84.7 | 5.3 | 明显保守 |
| 20.0 | 79.2 | 1.2 | 近零泄露,但质量损失较大 |
关键发现¶
- Privacy-R1 在所有本地模型设置下都优于 PAPILLON,尤其在 Med-PCD 上提升更大,说明高 PII 密度场景更需要动态策略。
- 本地模型越弱,路由策略越关键;1B 本地模型在 Med-PCD 上从 PAPILLON 的 45.1% 质量提升到 75.3%。
- Stateful Transformer 的提升主要来自跨句依赖建模,尤其适合处理指代、实体连续出现和医学叙述中的上下文约束。
- 平方隐私惩罚的价值不只是平均泄露降低,而是显著减少“少数样本泄露过多”的尾部风险。
亮点与洞察¶
- 将隐私委托显式建模为序列决策很自然,避免了“先改写再调用”的静态 pipeline。这个视角也适合扩展到模型选择、成本控制和延迟控制。
- Med-PCD 的构造很有针对性:从 MedDialog 出发注入合成 PII,得到 1020 个高密度医学隐私样本,并通过 240 样本人工验证得到 98.8% 通过率和 0.89 Fleiss' Kappa。
- \(\lambda\) 作为风险偏好旋钮很实用。它不只是调参,而是让系统开发者能根据场景敏感度选择更保守或更进取的策略。
- 论文诚实承认 Privacy-R1 不是形式化隐私保证,而是风险缓解框架。这一点对高风险部署判断很重要。
局限与展望¶
- 当前实验是单轮查询,策略状态不会跨多轮对话保留;真实医疗或法律咨询中,多轮上下文的隐私累积风险更复杂。
- 动作空间只有一个本地模型和一个远程模型,尚未考虑多个远程/本地模型之间的能力、成本、延迟和隐私等级差异。
- Med-PCD 的 PII 是合成注入,虽然通过人工验证,但仍可能与真实机构文本中的隐私分布存在差异。
- TaskGain 依赖 LLM judge,可能继承 judge 的偏好;若目标回答本身含有不必要的敏感信息,奖励会鼓励策略贴近这个目标。
- 该方法降低泄露风险,但不能保证零泄露;对绝对不能外发的场景仍需要规则约束或形式化安全边界。
相关工作与启发¶
- vs PAPILLON: PAPILLON 静态改写整段查询,Privacy-R1 改为 chunk 级动态路由;前者安全但容易损伤语义,后者能保留任务关键上下文。
- vs NER/redaction 系统: 传统 NER 只判断实体是否敏感,Privacy-R1 进一步判断敏感实体是否对任务有用。
- vs 多模型协作系统: 常见协作系统追求能力互补,本文把隐私成本纳入协作目标,为“安全代理调度器”提供了清晰范式。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把隐私委托转成 RL 路由问题很有启发,奖励设计也贴合风险尾部。
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、多种本地模型、状态/奖励/风险偏好消融都比较完整,但多轮和多模型动作空间尚未覆盖。
- 写作质量: ⭐⭐⭐⭐ 动机清楚,表格组织直接;部分公式和命名略有排版瑕疵。
- 价值: ⭐⭐⭐⭐⭐ 对混合本地-云端 LLM 系统的隐私权衡很有实际参考价值。