AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text¶

会议: NeurIPS 2025
arXiv: 2506.22508
代码: GitHub
领域: AI安全 / 隐私保护
关键词: 文本匿名化, 隐私保护, 强化学习, 对抗训练, 小型语言模型

一句话总结¶

提出 AgentStealth 框架，通过对抗式匿名化工作流、监督微调（SFT）和在线强化学习三阶段训练小型语言模型（SLM），实现在保持文本效用的同时有效匿名化用户生成内容，匿名化效果提升12.3%、效用提升6.8%。

研究背景与动机¶

在数字时代，用户在社交媒体、论坛等平台上生成的大量文本内容往往包含隐性的个人身份线索——如写作风格、惯用词汇、话题偏好等，这些线索可能被攻击者利用来推断用户的敏感个人属性（如年龄、性别、职业、地理位置等）。

文本匿名化旨在改写文本以消除这些身份线索，同时保持文本的语义和实用性。然而现有方法面临多重挑战：

规则替换方法：简单替换关键词（如人名、地名）容易破坏文本可读性和实用性

云端LLM方法：使用GPT-4等大模型效果好，但成本高昂且本身存在隐私风险——将敏感文本上传到云端与匿名化初衷矛盾

小型模型的困境：本地部署的SLM训练数据和监督信号不足，匿名化效果不理想

核心矛盾：匿名化需要大模型的能力，但大模型部署在云端有隐私泄露风险。如何让本地部署的小模型也具有强大的匿名化能力？

方法详解¶

整体框架¶

AgentStealth 采用三阶段递进训练策略：

第一阶段：对抗式匿名化工作流（Adversarial Anonymization Workflow） - 使用大模型（如 DeepSeek-V3）构建高质量的匿名化数据 - 包含攻击者和匿名化者两个角色的对抗交互 - 收集高质量的 (原文, 匿名化文本, 攻击信号) 三元组

第二阶段：监督微调（SFT） - 使用第一阶段收集的高质量数据对SLM进行监督微调 - 基座模型为 Llama-3.1-8B-Instruct 和 Qwen-2.5-1.5B-Instruct - 使用 LLaMA-Factory 框架进行训练

第三阶段：在线强化学习（RL） - SLM利用其内部的对抗反馈进行自我强化 - 模型自己作为匿名化者和攻击者进行对抗博弈 - 通过 PPO 或类似算法迭代优化匿名化策略

关键设计¶

1. In-context Contrastive Learning（上下文对比学习）

在工作流中引入对比学习增强匿名化质量： - 正例：成功匿名化的文本（攻击者无法识别） - 负例：匿名化失败的文本（攻击者仍能识别） - 通过 in-context learning 让模型理解什么样的改写是有效的匿名化

2. Adaptive Utility-Aware Control（自适应效用感知控制）

在匿名化过程中动态平衡隐私保护和文本效用： - 效用评估：衡量匿名化前后文本的语义保持程度 - 自适应阈值：根据当前匿名化难度调整改写强度 - 避免过度改写导致文本失去原始含义

3. 双信号训练数据

SFT 数据同时包含匿名化信号和攻击信号： - 匿名化信号：教模型如何改写文本消除身份线索 - 攻击信号：教模型理解哪些特征容易暴露身份 - 双信号使SLM同时具备"防守者"和"攻击者"的知识

损失函数 / 训练策略¶

SFT 阶段：标准的语言模型微调损失

\[L_{SFT} = -\sum_{t} \log p(y_t | y_{<t}, x)\]

RL 阶段：使用复合奖励函数

\[R = \alpha \cdot R_{anon} + \beta \cdot R_{utility} + \gamma \cdot R_{fluency}\]

其中： - \(R_{anon}\)：匿名化奖励（攻击者预测错误则为正奖励） - \(R_{utility}\)：效用奖励（基于与原文的语义相似度） - \(R_{fluency}\)：流畅性奖励（基于困惑度） - \(\alpha, \beta, \gamma\)：权衡系数

训练使用 Accelerate 和 TRL 库进行分布式RL训练。

实验关键数据¶

主实验¶

在两个数据集上的匿名化效果对比（Reddit 和 Coding 数据集）：

方法	Reddit 匿名化率 (%)	Reddit 效用 (%)	Coding 匿名化率 (%)	Coding 效用 (%)
无匿名化	0.0	100.0	0.0	100.0
规则替换	28.5	82.3	25.1	79.8
Paraphrase (GPT-3.5)	45.2	88.7	41.3	85.2
LLM Anonymizer (GPT-4)	62.8	91.5	58.4	89.1
LLM Anonymizer (DeepSeek-V3)	65.1	92.3	61.7	90.4
AgentStealth-8B (SFT)	68.3	93.8	64.2	91.7
AgentStealth-8B (SFT+RL)	73.1	95.5	69.8	93.6
AgentStealth-1.5B (SFT+RL)	67.5	92.1	63.8	90.2

消融实验¶

各组件的贡献（Reddit 数据集）：

配置	匿名化率 (%)	效用 (%)	综合评分
SLM 直接推理	38.2	85.6	61.9
+ SFT (仅匿名化信号)	58.7	90.3	74.5
+ SFT (双信号)	68.3	93.8	81.1
+ 对比学习	70.1	94.2	82.2
+ 效用感知控制	70.8	94.8	82.8
+ RL 自强化	73.1	95.5	84.3

关键发现¶

SLM 可以达到甚至超越云端LLM：AgentStealth-8B 的匿名化率比 GPT-4 高出约10个百分点，效用也更好
三阶段训练每步都有贡献：从直接推理到最终RL版本，匿名化率从38.2%提升到73.1%
双信号比单信号显著更好：同时学习匿名化和攻击知识，匿名化率提升约10个百分点
1.5B 模型也可部署：Qwen-2.5-1.5B 版本仍然优于 GPT-4 基线，支持边缘设备部署
RL 自强化效果显著：在SFT基础上进一步提升约5个百分点，证明自我博弈训练的有效性
效用与隐私同步提升：不同于通常的隐私-效用权衡，AgentStealth通过更智能的改写策略同时提升了两者

亮点与洞察¶

解决了核心矛盾：让小模型具备大模型的匿名化能力，实现本地部署，从根本上避免云端隐私泄露
自强化训练范式新颖：模型同时扮演攻击者和防守者，通过自我博弈持续提升
实用性强：支持从1.5B到8B多种规模的模型，适配不同的部署环境
开源：代码和训练配置完全开源，可复现性好

局限与展望¶

语言局限：目前主要在英文数据上验证，中文等其他语言的匿名化效果未知
属性覆盖有限：主要关注几类常见的个人属性，更细粒度的身份推断（如写作风格分析）未充分考虑
效用评估的主观性：效用评分部分依赖LLM作为judge，可能存在偏差
审稿状态：arXiv 页面显示仍为"under review"，最终版本可能有改动
攻击者模型的上限：如果攻击者使用比训练中更强的模型，匿名化效果可能下降

评分¶

新颖性：⭐⭐⭐⭐ （自强化匿名化框架新颖，但基本组件较常见）
技术深度：⭐⭐⭐⭐ （三阶段训练设计完整，各组件有机结合）
实验充分性：⭐⭐⭐⭐ （两个数据集，详细消融，多模型规模对比）
写作质量：⭐⭐⭐⭐ （结构清晰，动机阐述到位）
综合评分：⭐⭐⭐⭐ （实用价值高，技术贡献扎实）