Attribution-Guided Decoding¶
会议: ICLR 2026
arXiv: 2509.26307
代码: GitHub
领域: 机器人
关键词: attribution method, LRP, instruction following, factuality, entropy-gating, controlled decoding
一句话总结¶
提出AGD解码策略,在每步生成时从高概率候选token中选择对用户指定"兴趣区域"(ROI)归因得分最高的token,将归因方法从被动分析工具转变为主动生成引导工具,在指令遵循和事实性任务上均取得显著提升。
研究背景与动机¶
领域现状:LLM解码策略是控制生成质量的关键一环。标准解码方法(贪心、top-k、nucleus采样)控制的是输出的随机性,但无法直接引导生成的语义属性。为了增强指令遵循和事实准确性,研究者提出了两类方法:(1) 干预型(Interventionist)方法,如激活工程(activation steering)直接修改模型内部表示,对比解码(CAD、DoLA)修改输出logits;(2) 后处理方法,对输出进行过滤或重排序。
现有痛点:干预型方法直接修改模型的前向传播或logit分布,会将模型推入分布外状态,导致困惑度升高、重复输出、文本质量下降。这造成了一个不理想的权衡——用户必须在"更好的控制"和"更高的生成质量"之间做选择。例如,activation steering在提升指令遵循的同时会严重损害输出的流畅性和连贯性。
核心矛盾:如何在不修改模型内部状态或输出分布的前提下,引导生成朝向期望的行为(如遵循指令、减少幻觉)?需要一种既能有效控制又不破坏生成质量的机制。
本文目标 (1) 提出一种不干预模型前向传播的解码引导方法;(2) 使该方法灵活适用于多种任务(指令遵循、事实性、上下文检索);(3) 减少引导带来的计算开销和质量损失。
切入角度:作者提出将归因方法(attribution methods)从事后解释工具转变为前向引导工具。归因方法可以量化每个候选token对输入特定部分的"依赖程度"。如果候选token A对用户指令的归因分数高于候选token B,说明A更"听从"指令——那么选择A即可实现指令引导,而不需要修改模型的任何内部状态。
核心 idea:将解码过程重新定义为"在候选token中寻找对指定兴趣区域归因最大的token",用归因方法的选择机制替代概率最大化机制。
方法详解¶
整体框架¶
AGD的解码流程分为四步:(1) 定义兴趣区域(ROI) \(R\)——可以是输入中的指令部分、特定知识处理注意力头、或上下文文档的token嵌入;(2) 标准前向传播生成概率分布,选出top-k高概率候选token构成候选集 \(\mathcal{C}_t\),并过滤掉概率低于阈值 \(\pi_{\min}\) 的token;(3) 对每个候选token \(c \in \mathcal{C}_t\) 用归因方法(LRP)回溯计算其对ROI中每个组件的归因分数,求和得到总归因分数 \(S(c, R)\);(4) 选择归因分数最高的候选token作为本步生成结果。整个过程不修改模型的前向传播、不改变logit值——是"选择型"而非"干预型"方法。
关键设计¶
-
基于LRP的归因评分机制:
- 功能:量化每个候选token对指定ROI的依赖程度,为token选择提供有原则的依据
- 核心思路:对候选token \(c\) 的pre-softmax logit使用层逐传播(LRP)方法反向传播,得到模型各组件 \(\omega \in \Omega\) 的归因分数 \(r_\omega\)。ROI内组件的归因分数求和得总分 \(S(c, R) = \sum_{\omega \in R} r_\omega\)。分数越高表示token \(c\) 越依赖于ROI中的信息。选择LRP(特别是AttnLRP变体)是因为它在Transformer中处理self-attention和layer normalization等非线性组件时比简单梯度方法(I×G)更稳定忠实,且计算效率与梯度方法相当——仅需一次反向传播。
- 设计动机:归因方法天然提供了"一个输出是由输入的哪部分决定的"这一信息,且产生有符号的分数(正/负归因),正归因帮助选择依赖指令的token,负归因帮助避免违反禁止约束的token。这是纯概率方法无法提供的丰富信号。
-
灵活的ROI定义:
- 功能:通过改变ROI的定义,使AGD适用于指令遵循、闭卷事实性、开卷上下文检索等多种任务
- 核心思路:对于指令遵循,ROI \(R_I\) 定义为输入中指令部分(如system prompt)对应的token嵌入集合。对于闭卷事实性,ROI \(R_P\) 定义为预识别的参数知识(parametric knowledge)注意力头集合。对于开卷检索,ROI可以定义为上下文文档token嵌入 \(R_C\),或上下文检索(in-context retrieval)注意力头 \(R_{IC}\)。所有任务使用相同的AGD算法框架,只需切换ROI即可。
- 设计动机:将ROI抽象为模型可归因组件的任意子集,使方法从特定任务的解决方案上升为通用框架。这种"归因组件 ↔ 控制目标"的对应关系使AGD具有极强的灵活性,可以扩展到任何可以用归因来量化的控制目标。
-
基于熵的自适应门控(Entropy-Gating):
- 功能:仅在模型不确定时施加归因引导,降低计算开销并保护输出质量
- 核心思路:计算每步输出分布的Shannon熵 \(H(\mathbf{p}_t)\)。当 \(H(\mathbf{p}_t) < \tau\) 时(模型自信),直接使用贪心解码;当 \(H(\mathbf{p}_t) \geq \tau\) 时(模型不确定),激活AGD。阈值 \(\tau\) 设为IHEval上token级熵的第80百分位数(\(\tau = 1.734\))。这样AGD仅在模型犹豫不决的"关键分叉点"施加引导——正是这些点决定了生成轨迹的走向。
- 设计动机:每步都做归因计算(需要多次反向传播)计算开销大。更重要的是,当模型已经很确定时强制引导反而会破坏已有的高质量输出——相当于"给已经知道答案的学生强加提示反而搞混了"。自适应门控在效果和效率之间取得了优秀的平衡。
损失函数 / 训练策略¶
AGD是纯推理时方法,无需训练或微调。固定参数:\(k=5\)(候选集大小)、\(\pi_{\min}=0.05\)(最小概率阈值)、\(\tau=1.734\)(熵门控阈值)。所有实验使用相同超参数,无需针对不同模型或任务调整。
实验关键数据¶
指令遵循实验¶
在3个模型(Llama 3.1 8B、Qwen 2.5 7B、Gemma 3 4B)上评测IHEval和SysBench两个基准。
| 模型 | 方法 | PLA (IHEval) | QS | PLA*QS | SSR (SysBench) |
|---|---|---|---|---|---|
| Llama 3.1 | Greedy | 66.0 | 81.3 | 53.7 | 26.0 |
| Llama 3.1 | CAD | 73.9 | 72.6 | 53.7 | 32.3 |
| Llama 3.1 | AGD_LRP | 79.1 | 73.2 | 57.9 | 32.2 |
| Llama 3.1 | AGD_LRP_e | 74.5 | 76.4 | 56.9 | 33.9 |
| Qwen 2.5 | Greedy | 63.2 | 74.1 | 46.8 | 27.1 |
| Qwen 2.5 | AGD_LRP_e | 70.4 | 70.6 | 49.7 | 29.9 |
| Gemma 3 | Greedy | 84.7 | 82.3 | 69.7 | 33.3 |
| Gemma 3 | AGD_LRP_e | 86.7 | 81.4 | 70.6 | 36.0 |
事实性与上下文检索实验 (Llama 3.1 8B)¶
| 设置 | 方法 | TriviaQA | NQ | HotPotQA |
|---|---|---|---|---|
| 闭卷 | Greedy | 81.4 | 63.6 | 34.6 |
| 闭卷 | DoLA | 81.2 | 63.8 | 34.3 |
| 闭卷 | AGD_LRP_h | 82.4 | 63.0 | 39.6 |
| 开卷 | Greedy | 89.4 | 83.5 | 81.3 |
| 开卷 | CAD | 87.9 | 84.6 | 83.7 |
| 开卷 | AGD_LRP_c | 91.4 | 87.9 | 87.9 |
关键发现¶
- LRP远优于I×G:使用LRP归因的AGD在指令遵循上一致性地大幅超越使用I×G的版本。LRP在Transformer中处理self-attention的规则(AttnLRP)提供了更忠实的归因分数,这直接转化为更好的引导效果。
- 负归因信号是关键:对于"禁止包含某些词"类型的约束,违禁候选token会在指令部分产生负归因分数,帮助模型主动避开这些token。这是AGD优于简单概率操控方法的独特优势。
- 熵门控显著改善质量-遵循权衡:在Llama 3.1上,完整AGD的PLA为79.1但QS降至73.2;熵门控版本PLA降至74.5但QS恢复至76.4,综合指标PLA*QS仅差1%。在SysBench多轮对话中,熵门控版本的SSR(33.9)甚至超过完整AGD(32.2),说明只在关键点引导反而效果更好。
- 开卷QA提升显著:在HotPotQA(含80%干扰文档)上,AGD比贪心解码提升6.6个点,说明归因机制能帮助模型在噪声上下文中锁定相关段落。
亮点与洞察¶
- "从解释到引导"的范式转变:将归因方法从事后分析工具转变为生成过程中的主动引导信号,这是一个深刻的视角转换。归因方法几十年来一直用于"解释模型为什么这样做",这篇论文首次将其用于"决定模型应该怎么做"。
- 选择型 vs 干预型:AGD不修改模型的前向传播或logit分布——它只是在模型已经认为可行的候选中做"更明智的选择"。这保证了选出的token始终处于模型的正常分布范围内,从根本上避免了activation steering等方法导致的质量退化问题。
- ROI的统一抽象:通过将控制目标统一抽象为"可归因组件的子集",AGD成为一个通用框架。只要目标可以表示为输入token或注意力头的集合,就可以用AGD引导——从指令遵循到事实性到上下文检索,切换只需改ROI定义。
局限与展望¶
- 候选集限制:AGD作为选择机制,无法生成候选集中不存在的token。如果"正确答案"不在模型的top-k候选中,AGD无法发挥作用。
- 计算开销:每个候选token都需要一次反向传播来计算归因(虽然熵门控缓解了这一问题),对于长文本生成仍然有可观的额外延迟。
- ROI定义依赖先验知识:指令遵循的ROI相对自然(system prompt),但知识头、上下文检索头的识别需要预先分析,可迁移性受限。
- 仅在≤8B模型上验证:实验模型最大为8B参数,对更大规模模型的扩展性(尤其是归因计算的内存需求)未知。
相关工作与启发¶
- vs CAD (Context-aware Decoding): CAD通过对比有/无指令时的logit来修改分布,属于干预型方法。AGD不修改logit,只在概率高的候选中选择归因最高的。AGD在指令遵循上超越CAD(Llama 3.1: 79.1 vs 73.9 PLA),说明归因信号比对比logit差值更有效。
- vs Activation Steering: Steering直接修改内部表示,虽然控制力强但质量退化严重。AGD的"不干预"设计从根本上避免了这个问题。
- vs DoLA: DoLA用层间logit对比减少幻觉,也是干预型方法。AGD在闭卷HotPotQA上显著超越DoLA(39.6 vs 34.3),归因信号比层间对比更精确地捕获了知识存储位置。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将归因方法从解释工具转变为生成引导工具,启发性极强
- 实验充分度: ⭐⭐⭐⭐ 覆盖3种任务、3个模型、多个基准,消融和案例分析充分
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,图示精美,方法动机阐述到位
- 价值: ⭐⭐⭐⭐⭐ 通用性强的免训练解码框架,对LLM可控生成方向有深远影响