Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs¶

会议: ICLR 2026
arXiv: 2602.11528
代码: https://github.com/Jasper-Yan/TRACE-RPS
领域: 视频理解
关键词: 属性推断攻击, 隐私保护, LLM安全, 注意力匿名化, 优化防御

一句话总结¶

TRACE-RPS 提出统一防御框架应对 LLM 属性推断攻击：TRACE 通过注意力+推理链精准定位隐私泄露文本元素做细粒度匿名化，RPS 通过轻量后缀优化诱导模型拒绝推断，将属性推断准确率从约 50% 降至 5% 以下。

领域现状：LLM 可从用户在线分享的无害文本中推断隐私属性（年龄、位置、性别等），实现大规模自动化隐私侵犯。这种攻击不触发安全过滤器——因为提示本身完全是良性的。

现有痛点： - 现有匿名化方法粒度太粗（文本级而非词级），无法精准定位泄露隐私的特定文本元素 - 匿名化的根本局限：即使修改文本隐藏敏感线索，模型的推理能力仍可从修改后的文本推断属性 - 对于类别有限的属性（如性别/收入水平），匿名化文本仍然提供可解析的数据点

核心矛盾：LLM 的属性推断来自推理能力而非记忆——不能简单削弱推理能力（否则破坏通用性），也不能仅靠匿名化（推理仍可绕过）

切入角度：两步防御——(1) 精准匿名化减少泄露信息 + (2) 优化后缀诱导模型拒答从根本上阻止推断

核心 idea：匿名化减少信息量 + 拒绝优化阻止推断行为 = 双保险防御。

TRACE（细粒度匿名化）+ RPS（拒绝诱导优化）的统一防御。用户在分享文本前先用 TRACE 替换泄露隐私的词汇，再用 RPS 附加后缀使推断模型拒绝回答。

TRACE（基于注意力和推理链的文本修订）:
- 功能：精准定位并替换泄露隐私的文本元素
- 核心思路：(1) 用注意力机制提取"隐私词汇"——模型在推断属性时重点关注的词；(2) 生成推理链揭示模型推断路径；(3) 迭代对抗式修订——每轮替换最泄露的词，直到推断失败
- 设计动机：比 Azure PII 检测等规则方法更精准，能发现隐式隐私泄露（如方言用词暗示地理位置）
RPS（拒绝导向的扰动搜索）:
- 功能：通过后缀优化使 LLM 拒绝执行属性推断
- 核心思路：两阶段轻量优化——(1) 初始化阶段：在 logits 空间找到最可能诱导"I cannot answer"的 token 序列；(2) 精化阶段：局部搜索优化后缀使拒绝概率最大化。需要白盒 logits 访问。
- 设计动机：匿名化只减少信息不阻止推断；RPS 从根本上让模型拒绝——两者互补
MPS（误归属扰动搜索，备选策略）:
- 功能：对高度服从指令的模型（不易诱导拒绝），引导模型预测错误属性
- 核心思路：优化后缀使模型将属性预测为错误值而非拒答
- 设计动机：如 GPT-4o 等高度对齐模型几乎不会被诱导拒绝，MPS 提供替代方案

RPS 优化目标：\(\max_{suffix} \log P_{model}(\text{"I cannot answer"} | P(t \oplus suffix))\)
两阶段：贪心初始化（逐 token 选择最大化拒绝概率的候选）+ 局部优化（token 替换搜索）
需要开源模型的 logits 访问；对闭源模型仅用 TRACE

方法	Llama3	Qwen2.5	DeepSeek-R1	GPT-4o
无防御	~50%	~50%	~50%	~50%
Azure PII	~40%	~40%	~40%	~40%
Staab et al. (匿名化)	~25%	~25%	~25%	~25%
TRACE	~15%	~15%	~15%	~20%
TRACE-RPS	<5%	<5%	<5%	N/A (闭源)