SelfElicit: Your Language Model Secretly Knows Where is the Relevant Evidence¶

会议: ACL 2025
arXiv: 2502.08767
代码: ZhiningLiu1998/SelfElicit
领域: 上下文增强、QA
关键词: 注意力分析、证据定位、上下文高亮、推理时增强、无训练

一句话总结¶

SelfElicit 发现 LLM 深层注意力分数天然具有定位上下文中关键证据的能力（即使模型回答错误时也是如此），据此提出一种推理时的上下文增强方法：仅需生成一个额外 token 即可自动识别并高亮关键证据句，引导模型给出更准确的回答。

研究背景与动机¶

现有痛点¶

现有痛点：核心矛盾：上下文证据利用不充分**：尽管为 LLM 提供包含证据的上下文可以显著提升回答质量，但近期研究发现 LLM 在上下文包含噪声和无关信息时难以充分利用关键证据，即使证据就在输入中也可能给出错误答案。

解决思路¶

本文目标：领域现状：现有方法的不足**：改进的 prompting 和 decoding 方法将整个上下文视为单一实体处理，忽略了并非所有上下文信息都同等重要的事实。

解决思路¶

解决思路：核心发现：通过分析多个 LM 家族在生成首个 token 时各层的注意力分布，作者发现深层注意力对证据句的关注度显著高于非证据句**（高达 6 倍），且这一规律在模型回答正确和错误时都成立。这表明 LM 内部已经具备证据定位能力，只是未被有效利用。

方法详解¶

整体框架¶

SelfElicit 分两步：(1) 证据发现：利用 LM 深层注意力分数自动定位上下文中的关键证据句；(2) 证据高亮：在原始上下文中用文本标记高亮证据句，并修改 prompt 模板引导模型关注高亮内容后重新生成答案。

关键设计¶

句子级注意力聚合：对于输入序列中的 \(m\) 个上下文句子，计算每层 \(\ell\) 的句子级注意力 \(\bar{a}_i^{(\ell)}\)（对句子内所有 token 的平均注意力），提供每个句子在各层的相对重要性。
证据阅读层选择：选取后 50% 的层作为"证据阅读层" \(\mathcal{L}_{ER}\)，聚合这些层的句子级注意力得到证据分数 \(e_i = \frac{1}{|\mathcal{L}_{ER}|}\sum_{\ell \in \mathcal{L}_{ER}} \bar{a}_i^{(\ell)}\)。
阈值化证据选择：引入阈值参数 \(\alpha \in [0,1]\)（默认 0.5），选择证据分数超过最大值 \(\alpha\) 倍的句子：\(\mathcal{S}_{SE} = \{s_i | e_i \geq \alpha \cdot \max(\mathbf{e})\}\)。
文本标记高亮：在选中的证据句前后插入 <start_important> 和 <end_important> 标记，同时更新 prompt 模板引导模型关注高亮信息。

损失函数¶

SelfElicit 是纯推理时方法，无需训练，不涉及损失函数。唯一的额外计算开销是生成一个 token 以获取注意力分数。

实验¶

主实验：6 个 LM × 4 个 QA 任务¶

模型	方法	HotpotQA EM	NewsQA EM	TQA EM	NQ EM	推理时间(ms)
Llama-3.1-8B	Base	58.9	64.3	72.8	59.7	224.1
	CoT	60.4	64.9	74.4	59.6	224.8
	FullElicit	60.7	65.9	72.8	61.1	226.3
	PromptElicit	66.3	62.8	76.0	61.8	1672.0
	SelfElicit	68.5	66.9	79.4	64.0	264.1
Llama-3.1-70B	Base	71.8	66.7	78.0	59.3	1389.8
	SelfElicit	—	—	—	—	—

SelfElicit 在所有模型-数据集组合上均取得最佳或接近最佳的 EM 和 Token F1，同时推理时间开销极小（仅增加约 18% vs Base）。

消融实验：设计选择分析¶

消融项	影响
证据阅读层选择	后 50% 层一致最优，前 50% 层效果差
阈值 α 选择	α=0.5 在所有模型和任务上稳定表现良好，鲁棒性强
Token 级 vs 句子级高亮	句子级语义更完整、效果更好
高亮方式（标记 vs 加粗 vs 删除非证据）	文本标记方式最优

关键发现¶

深层注意力天然定位证据：跨越 Llama、Mistral、Qwen 等多个模型家族，深层注意力对证据句的关注度一致显著高于非证据句，即使模型回答错误时也是如此
效率极高：仅需额外生成 1 个 token 获取注意力分数，相比 PromptElicit（需要 LLM 先提取证据再回答）快约 6 倍
对噪声鲁棒：在上下文严重受噪时（大量无关段落），SelfElicit 仍能稳定定位证据并提升性能
证据发现精度：在 HotpotQA 上，SelfElicit 的证据发现准确率（recall of supporting facts）在多数模型上超过 70%

论文亮点¶

核心发现极具启发性：LM 深层注意力天然具备证据定位能力，与回答正确与否无关
方法极简且高效：无训练、无迭代、仅 1 个额外 token 开销
泛化性强：在 6 个模型家族、4 个 QA 数据集上一致有效
对高亮方式的系统性消融分析为后续工作提供了有价值的设计指导

局限与展望¶

阈值 \(\alpha\) 虽然对性能影响较小但仍需预设，未实现完全自适应
主要验证在开放式 QA 上，对其他 NLG 任务（摘要、对话）的效果未探索
证据高亮依赖句子分割质量，对结构不规则的文本可能效果下降
假设上下文中确实包含相关证据，对完全无证据的场景（如需外部检索）不适用

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐⭐
总体推荐	⭐⭐⭐⭐

SelfElicit: Your Language Model Secretly Knows Where is the Relevant Evidence¶

一句话总结¶

研究背景与动机¶

现有痛点¶

解决思路¶

解决思路¶

方法详解¶

整体框架¶

关键设计¶

损失函数¶

实验¶

主实验：6 个 LM × 4 个 QA 任务¶

消融实验：设计选择分析¶

关键发现¶

论文亮点¶

局限与展望¶

相关工作¶

评分¶

相关论文¶