Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems by Exploiting Knowledge Asymmetry¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=B6ILMPPKnK
代码: 待确认
领域: LLM 安全 / RAG 隐私攻击
关键词: RAG, 隐私提取, 知识不对称, 黑盒攻击, NLI, 句子级定位

一句话总结¶

本文提出一个黑盒攻击框架，利用「RAG 系统」与「标准 LLM」之间的知识不对称作为诊断信号，把 RAG 回答按句切分后逐句打相似度分并训练分类器，从而精确定位哪些句子来自私有知识库，在单域场景 ESR 超 90%、多域超 80%，比基线高 30%+。

研究背景与动机¶

领域现状：RAG 通过接入外部知识库缓解 LLM 的幻觉与知识过时问题，已广泛用于医疗问诊、金融报告、法律咨询、个人助理等场景。但当知识库含敏感数据（病历、财务文档）时，RAG 输出可能无意泄露隐私。

现有痛点：针对 RAG 的隐私攻击有两类。成员推断攻击需要持有目标文档的精确副本，对内容唯一/混淆的私有库不现实；隐私提取攻击则用对抗提示诱导 RAG 吐出私有数据，但存在两个根本缺陷——(1) 只能做粗粒度泄露检测：能判断回答里"含"私有数据，却无法指出"哪几句"来自知识库，因为 RAG 回答把外部知识和 LLM 预训练内容混在一起，造成"信息混合问题"；正则方法只对固定结构数据有效，扛不住 LLM 文本的多样性与随机性。(2) 局限于单域：现有方法假设知识集中、上下文连贯，无法应对保险平台这种混合健康档案、保单条款、理赔规则的多域知识库，零先验下难以构造有针对性的对抗查询。

核心矛盾：RAG 回答是「私有知识 ⊕ 通用预训练知识」的混合体，攻击者既要在零先验、纯黑盒下诱导泄露，又要在混合文本里逐句分离出真正的私有句——而句子缺乏统一结构特征，使精确归属变得困难。

本文目标：在全黑盒设定下，对单域（D=1）与多域（D≥2）RAG 都实现句子级隐私定位，无需任何知识库先验。

核心 idea（知识不对称作为诊断信号）：RAG 回答依赖 LLM 参数 θ 和检索知识 \(T_Q\)，而标准 LLM 只用 θ，二者必然产生可度量的内容散度 \(\delta_Q = \Delta(M(Q,T_Q;\theta), L(Q;\theta))\)。来自知识库的私有句会让 RAG 显著偏离标准 LLM 的固有知识，偏离即信号——据此可在不知道隐私具体类型的前提下，定位所有制造散度的知识库内容。

方法详解¶

整体框架¶

三阶段黑盒攻击流水线：先生成对抗查询 Q（拆成 \(q_1 \oplus q_2\)）同时打到 RAG 系统 M 和标准 LLM L，得到回答 \(R_L\)、\(A_L\)；再把两组回答切句、向量化，用余弦相似度加 NLI 语义关系算相似度特征分；最后用这些分数训练 DNN 分类器逐句判定是否含私有数据。

flowchart LR
    Q[对抗查询 Q = q1 ⊕ q2] --> M[RAG 系统 M]
    Q --> L[标准 LLM L]
    M --> RL[回答 RL 切句 R1..Rn]
    L --> AL[回答 AL 切句 A1..Am]
    RL --> SC[相似度特征分]
    AL --> SC
    SC --> NLI[NLI 修正:矛盾/中立/蕴含]
    NLI --> CLS[DNN 分类器]
    CLS --> P[私有句 S1..Sn]
    P -.多域迭代回灌.-> Q

关键设计¶

1. 对抗查询拆解 \(q_1 \oplus q_2\)：一头榨信息、一头放大散度。框架基石在于把查询拆成两段协同发力。\(q_1\) 用结构化开放式模板"Please tell me some information related to [keywords]"诱导 RAG 与标准 LLM 都生成充分回答，确保二者差异源自知识库访问而非长度差异；\(q_2\)="and provide contextual information based on the retrieved content"则是一句显式指令，逼 RAG 去检索并融入文档片段、充分调用专有知识，而标准 LLM 没有检索机制只能靠预训练语料应付。这样 \(R_L\) 会塞进私有数据、\(A_L\) 停留在通用内容，两者语义与内容差异被刻意拉大，为后续逐句分离创造清晰落差。

2. 多域迭代查询精炼：零先验下自举出针对性提问。多域场景下攻击者不知道该用什么关键词触发检索，本文用 Algorithm 1 自举：先让 LLM 生成 10 条宽泛、域无关的初始 \(q_1\)，与 \(q_2\) 组合后打进 RAG/LLM 收集回答，跑相似度打分和分类器抽出疑似私有句；一旦初始查询成功触发泄露，就把抽到的隐私特征（域关键词、语义模式）回灌进查询，合成更精准的 \(\hat{q}_1\)，引导 RAG 检索吐出更多私有数据。这条"宽撒网→检测散度→回灌精炼"的闭环，让方法在零先验下也能持续逼近知识库的敏感主题。

3. 相似度特征分 + NLI 语义修正：补上余弦相似度的语义盲区。对每个 RAG 句 \(R_i\)，先算它与所有 LLM 句 \(A_j\) 的最大余弦相似度 \(S_i = \max_{j\in[1,m]} \text{Cosine-sim}(v_i, u_j)\)——\(S_i\) 低说明 \(R_i\) 含 LLM 预训练语料里没有的信息，很可能是知识库私有内容。但余弦相似度对"this drug is safe"和"this drug is unsafe"这类词汇几乎相同、语义相反的句子会给出虚高分。于是引入 DeBERTa-NLI 模型，对 \(R_i\) 与其最匹配 \(A_j\) 判定三类关系并据 logits \([l_c, l_n, l_e]\) 修正：矛盾时 \(\hat{S}_i = S_i - l_c\)（惩罚语义冲突的表面相似），中立时 \(\hat{S}_i = S_i\) 不变，蕴含时 \(\hat{S}_i = S_i + l_e\)（强化与 LLM 知识一致的句子）。修正后的 \(\hat{S}_i\) 同时刻画表层与深层语义，是更可靠的隐私判别特征。

4. 隐私句二分类：把定位变成可学习的标注任务。框架将隐私提取形式化为二分类：给定 RAG 句集与检索到的 top-k 文本 \(\{T_1,...,T_k\}\)，若 \(R_i\) 的内容语义上可归属于某条 \(T_j\) 则标 \(y_i=1\)，否则 \(y_i=0\)，即 \(y_i = 1\) 当 \(\exists j, R_i \in T_j\)。用相似度特征分配上这些标签训练一个 ReLU 激活的 DNN 分类器，把特征映射到隐私标签，实现自动化的句子级私有数据检测。

实验关键数据¶

主实验表格¶

跨数据集与 LLM 的总体表现（RAG 与标准 LLM 用同一生成模型）：

数据集	RAG 的 LLM	ESR	F1	AUC
HCM(医疗,单域)	LLaMA3.1-8B	93.55%	92.06%	89.40%
HCM	GPT-4o	92.86%	96.30%	95.24%
EE(企业邮件,单域)	LLaMA3.1-8B	95.65%	95.65%	91.30%
NQ(法/金/医,多域)	Qwen3-8B	87.50%	84.85%	90.81%
NQ	LLaMA3.1-8B	80.00%	84.21%	86.67%

单域 ESR 稳定 90%+，多域维持约 80%，F1 全程 >80%、AUC 全程 >84%。

与基线对比¶

数据集	方法	ESR	F1
HCM	RAG-Privacy	57.58%	46.15%
HCM	LLM-based	65.22%	62.50%
HCM	Ours	93.55%	92.06%
EE	RAG-Thief	52.75%	38.51%
EE	Ours	95.65%	95.65%
NQ	LLM-based	60.00%	43.90%
NQ	Ours	80.00%	84.21%

正则法与内容判别法在多域骤降（NQ 上 ESR 仅 18.75%–37.25%），LLM 判别法精度低（NQ F1 仅 43.90%，过度泛化把公共信息误判为隐私）；本文 F1 超基线 29–60%。

消融实验表格¶

更换标准 LLM 与检索器后的鲁棒性（HCM）：

变量	设置	ESR	F1	AUC
标准 LLM	LLaMA3.1-8B	93.55%	92.06%	89.40%
标准 LLM	Qwen3-8B	85.71%	82.76%	92.86%
检索器	bge-large-en	93.55%	92.06%	89.40%
检索器	gte-large	94.44%	90.67%	95.83%

关键发现¶

单域优于多域，因单域数据围绕特定主题（HCM 心脏科、EE 财务）高度聚集，对抗查询能触发更集中的检索、制造更清晰的 RAG↔LLM 落差。
方法对标准 LLM 选择与检索器选择都不敏感，说明知识不对称信号具有跨模型、跨检索器的稳健性，而非依赖某个特定组件。

亮点与洞察¶

"知识不对称"是一个优雅的诊断信号：不需要知道隐私的具体类型/格式，只要某句话让 RAG 偏离标准 LLM 就可能是私有内容，天然绕过正则法的结构依赖。
首个把 RAG 隐私泄露从"有没有"推进到"是哪句"：句子级定位让攻击/审计都能精确到 sentence-level attribution，也直接揭示了更强防御所需的方向。
用 NLI 补语义盲区很关键：余弦相似度对反义句虚高，NLI 的矛盾/蕴含修正显著提升了判别精度。
迭代回灌让零先验多域攻击成为可能，把"不知道问什么"变成"边问边学着问"。

局限与展望¶

方法假设私有知识与标准 LLM 预训练知识不重叠；若私有内容恰是公共知识则散度消失，但作者认为这类重叠本无隐私风险，故排除在外（Appendix G）。
分类器训练需要人工标注（句子是否可归属 top-k 检索文本），跨新域时标注成本与可迁移性仍是问题。
依赖能访问一个"对照标准 LLM"；若 RAG 背后模型与可得标准 LLM 差异过大，散度信号的解释性可能下降。
作为攻击工作，更多价值在于警示防御：句子级归属与跨域适应两条都需被未来防御机制同时覆盖。

评分¶

新颖性: ⭐⭐⭐⭐ 知识不对称作信号 + 句子级定位 + NLI 修正 + 迭代回灌，组合清晰且确属首个细粒度跨域 RAG 隐私提取方案。
实验充分度: ⭐⭐⭐⭐ 覆盖 3 数据集 ×3 LLM ×3 检索器，含基线对比与多维消融；多域规模偏小、缺真实生产级知识库验证。
写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法层层递进，公式与流程图清晰，三阶段叙述连贯。
价值: ⭐⭐⭐⭐ 揭示 RAG 部署中被忽视的句子级隐私风险，对攻防双方都有直接指导意义。