Beyond Black-Box Interventions: Latent Probing for Faithful Retrieval-Augmented Generation¶

会议: ACL 2026
arXiv: 2510.12460
代码: GitHub
领域: Information Retrieval / RAG
关键词: RAG忠实性, 知识冲突, 隐空间探测, 注意力引导, 上下文剪枝

一句话总结¶

提出 ProbeRAG，通过发现 LLM 隐空间中冲突/对齐知识的线性可分性，设计三阶段框架（细粒度知识剪枝→隐空间冲突探测→冲突感知注意力），从模型内部机制解决 RAG 忠实性问题。

领域现状: RAG 系统通过外部知识增强 LLM，有效缓解幻觉问题。但在实践中，RAG 常面临上下文忠实性挑战：生成内容与检索上下文不一致，或未充分利用外部证据。

现有痛点: 现有方法均将 LLM 视为黑箱，通过外部干预改善忠实性：(1) 提示方法对提示敏感，泛化性差；(2) 解码校准方法在噪声上下文下脆弱；(3) DPO 偏好优化需要大量高质量偏好数据。这些方法无法诊断冲突"何时"和"为何"发生。

核心矛盾: 外部干预是相关性的而非因果性的——可以统计性地关联输入与忠实输出，但不能诊断特定冲突实例中模型失败的原因。

本文目标: 超越黑箱干预，从模型内部隐空间分析和解决知识冲突问题。

切入角度: 分析 LLM 隐空间发现冲突/对齐知识在隐状态中线性可分，上下文噪声系统性增加隐状态熵。

核心 idea: 训练轻量探针检测隐空间中的冲突特征，然后通过注意力引导 loss 让模型更关注冲突知识。

ProbeRAG 三阶段：(1) 将上下文分解为细粒度知识语句并过滤无关知识（降噪）；(2) 用隐空间探针检测与模型参数知识冲突的知识语句；(3) 对冲突知识用 <conflict> 标记，训练模型在注意力层更关注冲突知识。

细粒度知识剪枝:
- 功能：降低上下文噪声，保护隐空间冲突特征的可分性
- 核心思路：用 LLM 将上下文分解为独立的句子级知识语句 \(\{K_1, K_2, ..., K_n\}\)，用嵌入相似度 \(f(Q, K_i) = \langle q, k_i \rangle\) 过滤无关语句，保留 top-k
- 设计动机：预备研究发现上下文噪声系统性增加隐状态熵，模糊冲突/对齐知识的分界线
隐空间冲突探针:
- 功能：检测知识语句是否与模型参数知识冲突
- 核心思路：在 MQuAKE 知识编辑数据集上训练轻量分类器 \(\mathcal{P}(\mathcal{M}(K_i)) \in \{0, 1\}\)，输入为冻结模型的隐状态，预测冲突/对齐标签
- 设计动机：隐空间中冲突/对齐知识线性可分（t-SNE 可视化 + JSD 分析证实），探针可反向利用此特征
冲突感知注意力训练:
- 功能：让模型在生成时更关注冲突知识，忠实于上下文
- 核心思路：引入注意力引导损失 \(\mathcal{L}_{\text{Attn}} = \frac{1}{|P|}\sum_{(i,j) \in P}(1 - \alpha_{ij})\)，强制后续 token 对冲突知识 token 分配更高注意力权重；总损失 \(\mathcal{L} = (1-\lambda)\mathcal{L}_{CE} + \lambda\mathcal{L}_{Attn}\)
- 设计动机：模型倾向于优先使用参数知识而忽视外部上下文，需要显式引导注意力分配

联合目标：交叉熵 + 注意力引导损失，\(\lambda\) 控制权衡。探针在 MQuAKE 数据集上训练，但在 RAG 领域数据上保持泛化性。冲突知识用 <conflict> / </conflict> 特殊 token 标记。

模型	方法	FaithEval F1	ConFiQA F1	SQuAD F1
LLaMA-3.1-8B	No-Context	27.7	5.0-6.1	8.9
LLaMA-3.1-8B	Baseline RAG	~59%	-	-
LLaMA-3.1-8B	ProbeRAG	显著提升	显著提升	显著提升

分析	发现
隐状态 JSD 随层深度增加	深层捕获更抽象的冲突特征，更大模型 JSD 更显著
噪声影响	上下文噪声系统性模糊冲突/对齐边界
探针泛化性	在 MQuAKE 上训练，在 RAG 数据上泛化良好
注意力 vs ICL	注意力引导显著优于纯 in-context learning