Re-identification of De-identified Documents with Autoregressive Infilling¶

会议: ACL 2025
arXiv: 2505.12859
代码: 未开源
领域: 其他
关键词: 去标识化, 重标识攻击, RAG, 文本填充, 隐私保护, ColBERT

一句话总结¶

提出一种基于 RAG 的去标识化文档重标识方法：先用稀疏+稠密检索找到相关背景文档，再用自回归填充模型推断被遮蔽的个人标识信息，在三个数据集上恢复了高达 80% 的被遮蔽文本。

研究背景与动机¶

核心问题: 文档去标识化（de-identification）通过遮蔽个人可识别信息（PII）来保护隐私，但如何评估去标识化的鲁棒性——即对手能否从上下文和背景知识中恢复被遮蔽内容——缺乏有效的自动化方法。
现有方法局限:
- 基于人工标注的评估: 依赖人类专家比对，成本高且存在不一致性。
- 基于分类器的攻击: Manzanares-Salor et al. 训练分类器直接预测人名，但不尝试恢复遮蔽文本本身，缺乏对中间推断过程的洞察。
- Morris et al.: 用模型预测 infobox 来指导遮蔽决策，但同样不尝试恢复遮蔽内容。
本文动机: 利用 LLM 的能力，构建一个模拟对手的 RAG 系统，先恢复遮蔽内容再推断身份，从而更全面地评估去标识化方法的安全性。

方法详解¶

整体框架¶

给定一个去标识化文档（PII 被 [MASK] 替换），系统执行三步重标识流程：(1) 稀疏检索（BM𝒳）从背景知识库中选出 Top-100 相关文档；(2) 稠密检索（微调 ColBERT）对每个 [MASK] 提取最相关的段落；(3) 填充模型（GLM 或 Mistral-12B）利用检索段落和上下文推断原始内容。逐个替换所有遮蔽直到完成。

关键设计¶

两阶段检索: 稀疏检索（BM𝒳）快速缩小范围至 100 篇文档，稠密检索（ColBERT）精确定位包含被遮蔽信息的段落。ColBERT 在去标识化的 Wikipedia 传记上微调，使用正例（包含原始内容的段落）和负例训练。
四级背景知识控制: L1（无检索）→ L2（通用知识，不含原文）→ L3（含其他去标识化原文）→ L4（含待攻击文档原文），系统化评估背景知识对重标识能力的影响。
最终身份推断: 在文本填充后，用 BERT ranking 模型将恢复后的文档与候选人名列表匹配，完成身份锁定。

损失函数¶

ColBERT 检索器：使用标准对比学习损失（正负段落-查询对），学习率 3×10⁻⁵
GLM 填充模型：在去标识化 Wikipedia 传记及检索文本对上训练，学习率 3×10⁻⁵
BERT 排序模型：margin ranking loss，学习率 3×10⁻⁶

实验¶

主实验结果（端到端填充 Exact Match / Token Recall）¶

数据集	模型	L1(无检索)	L2(通用知识)	L3(含其他原文)	L4(含原文)
Wikipedia	GLM	6.26 / 12.22	9.56 / 15.84	9.77 / 16.05	80.08 / 82.56
TAB (法庭)	GLM	0.84 / 6.26	11.27 / 21.35	14.32 / 29.08	66.04 / 75.13
TAB (法庭)	Mistral	0.91 / 25.36	10.59 / 47.43	11.00 / 47.98	37.34 / 70.29
临床笔记	GLM	18.31 / 26.71	18.92 / 26.36	42.31 / 55.40	90.87 / 92.68

消融实验（最终身份识别 Top-10 准确率）¶

数据集	模型	遮蔽文档	L1	L2	L3	L4
TAB	GLM	28.3	32.3	31.5	29.1	61.4
临床笔记	GLM	57.0	62.4	62.1	77.9	98.7
TAB	Mistral	28.3	32.3	33.1	37.0	57.5
临床笔记	Mistral	57.0	61.1	66.1	81.2	97.0

关键发现¶

背景知识显著影响重标识能力: L1 到 L4 的准确率可从 6% 跃升至 80%+，说明去标识化的安全性高度依赖对手可获取的外部知识。
准标识符比直接标识符更易恢复: 如位置、日期等准标识符的 token recall 远高于姓名等直接标识符。
未微调的 Mistral-12B 在 L1-L3 上 token recall 更高: 大模型的世界知识弥补了领域适配的不足，但在 L4 场景下表现反而不如专门微调的 GLM。
临床笔记最易被重标识: 结构化程度高、模式固定的文本（如患者记录）给对手提供了更多可利用的模式信息。
身份锁定在小候选集上有效: 临床笔记中 85 个候选患者的 Top-10 准确率高达 98.7%，但法庭案例中 127 个候选人仅 61.4%。

亮点¶

首次将 RAG 范式应用于去标识化文档的重标识攻击，提供了对去标识化方法鲁棒性的全新评估视角
四级背景知识的实验设计（L1-L4）系统化地量化了不同信息可获取程度下的隐私风险梯度
方法可直接用于去标识化阶段的"红队测试"，帮助发现遮蔽不充分的内容
发现未微调的 Mistral-12B 在中低背景知识级别下 token recall 已很高，揭示了大模型自身知识带来的隐私风险
三个数据集覆盖了不同文档类型（百科/法律/医疗），增强了结论的通用性

局限性¶

仅评估了英语文本，其他语言的去标识化模式和重标识难度可能不同
GLM 模型较小（335M），Mistral 仅零样本使用，更大模型+ICL/微调可能进一步提升
Wikipedia 和法庭案例的原始版本可能已包含在 LLM 预训练数据中，导致重标识性能被高估
仅使用文本数据作为背景知识，未考虑表格、知识图谱等结构化信息源
去标识化策略仅考虑了实体遮蔽，未评估更先进的文本重写式去标识化方法的鲁棒性
临床笔记为合成数据，可能引入了模式性伪影，使重标识比真实数据更容易

评分¶

创新性: ⭐⭐⭐⭐ — RAG 用于隐私攻击是有洞察力的新视角
实用性: ⭐⭐⭐⭐⭐ — 直接可用于评估去标识化系统的鲁棒性
严谨性: ⭐⭐⭐⭐ — 四级背景知识设计周全，三个数据集覆盖不同场景
综合: ⭐⭐⭐⭐