ICLR 2026 机器人 attribution method LRP instruction following factuality entropy-gating controlled decoding

Attribution-Guided Decoding¶

会议: ICLR 2026
arXiv: 2509.26307
代码: GitHub
领域: 机器人
关键词: attribution method, LRP, instruction following, factuality, entropy-gating, controlled decoding

一句话总结¶

提出AGD解码策略，在每步生成时从高概率候选token中选择对用户指定"兴趣区域"（ROI）归因得分最高的token，将归因方法从被动分析工具转变为主动生成引导工具，在指令遵循和事实性任务上均取得显著提升。

研究背景与动机¶

领域现状：LLM解码策略是控制生成质量的关键一环。标准解码方法（贪心、top-k、nucleus采样）控制的是输出的随机性，但无法直接引导生成的语义属性。为了增强指令遵循和事实准确性，研究者提出了两类方法：(1) 干预型（Interventionist）方法，如激活工程（activation steering）直接修改模型内部表示，对比解码（CAD、DoLA）修改输出logits；(2) 后处理方法，对输出进行过滤或重排序。

现有痛点：干预型方法直接修改模型的前向传播或logit分布，会将模型推入分布外状态，导致困惑度升高、重复输出、文本质量下降。这造成了一个不理想的权衡——用户必须在"更好的控制"和"更高的生成质量"之间做选择。例如，activation steering在提升指令遵循的同时会严重损害输出的流畅性和连贯性。

核心矛盾：如何在不修改模型内部状态或输出分布的前提下，引导生成朝向期望的行为（如遵循指令、减少幻觉）？需要一种既能有效控制又不破坏生成质量的机制。

本文目标 (1) 提出一种不干预模型前向传播的解码引导方法；(2) 使该方法灵活适用于多种任务（指令遵循、事实性、上下文检索）；(3) 减少引导带来的计算开销和质量损失。

切入角度：作者提出将归因方法（attribution methods）从事后解释工具转变为前向引导工具。归因方法可以量化每个候选token对输入特定部分的"依赖程度"。如果候选token A对用户指令的归因分数高于候选token B，说明A更"听从"指令——那么选择A即可实现指令引导,而不需要修改模型的任何内部状态。

核心 idea：将解码过程重新定义为"在候选token中寻找对指定兴趣区域归因最大的token"，用归因方法的选择机制替代概率最大化机制。

方法详解¶

整体框架¶

AGD的解码流程分为四步：(1) 定义兴趣区域（ROI） \(R\)——可以是输入中的指令部分、特定知识处理注意力头、或上下文文档的token嵌入；(2) 标准前向传播生成概率分布，选出top-k高概率候选token构成候选集 \(\mathcal{C}_t\)，并过滤掉概率低于阈值 \(\pi_{\min}\) 的token；(3) 对每个候选token \(c \in \mathcal{C}_t\) 用归因方法（LRP）回溯计算其对ROI中每个组件的归因分数，求和得到总归因分数 \(S(c, R)\)；(4) 选择归因分数最高的候选token作为本步生成结果。整个过程不修改模型的前向传播、不改变logit值——是"选择型"而非"干预型"方法。

关键设计¶

基于LRP的归因评分机制:
- 功能：量化每个候选token对指定ROI的依赖程度，为token选择提供有原则的依据
- 核心思路：对候选token \(c\) 的pre-softmax logit使用层逐传播（LRP）方法反向传播，得到模型各组件 \(\omega \in \Omega\) 的归因分数 \(r_\omega\)。ROI内组件的归因分数求和得总分 \(S(c, R) = \sum_{\omega \in R} r_\omega\)。分数越高表示token \(c\) 越依赖于ROI中的信息。选择LRP（特别是AttnLRP变体）是因为它在Transformer中处理self-attention和layer normalization等非线性组件时比简单梯度方法（I×G）更稳定忠实，且计算效率与梯度方法相当——仅需一次反向传播。
- 设计动机：归因方法天然提供了"一个输出是由输入的哪部分决定的"这一信息，且产生有符号的分数（正/负归因），正归因帮助选择依赖指令的token，负归因帮助避免违反禁止约束的token。这是纯概率方法无法提供的丰富信号。
灵活的ROI定义:
- 功能：通过改变ROI的定义，使AGD适用于指令遵循、闭卷事实性、开卷上下文检索等多种任务
- 核心思路：对于指令遵循，ROI \(R_I\) 定义为输入中指令部分（如system prompt）对应的token嵌入集合。对于闭卷事实性，ROI \(R_P\) 定义为预识别的参数知识（parametric knowledge）注意力头集合。对于开卷检索，ROI可以定义为上下文文档token嵌入 \(R_C\)，或上下文检索（in-context retrieval）注意力头 \(R_{IC}\)。所有任务使用相同的AGD算法框架，只需切换ROI即可。
- 设计动机：将ROI抽象为模型可归因组件的任意子集，使方法从特定任务的解决方案上升为通用框架。这种"归因组件 ↔ 控制目标"的对应关系使AGD具有极强的灵活性，可以扩展到任何可以用归因来量化的控制目标。
基于熵的自适应门控（Entropy-Gating）:
- 功能：仅在模型不确定时施加归因引导，降低计算开销并保护输出质量
- 核心思路：计算每步输出分布的Shannon熵 \(H(\mathbf{p}_t)\)。当 \(H(\mathbf{p}_t) < \tau\) 时（模型自信），直接使用贪心解码；当 \(H(\mathbf{p}_t) \geq \tau\) 时（模型不确定），激活AGD。阈值 \(\tau\) 设为IHEval上token级熵的第80百分位数（\(\tau = 1.734\)）。这样AGD仅在模型犹豫不决的"关键分叉点"施加引导——正是这些点决定了生成轨迹的走向。
- 设计动机：每步都做归因计算（需要多次反向传播）计算开销大。更重要的是，当模型已经很确定时强制引导反而会破坏已有的高质量输出——相当于"给已经知道答案的学生强加提示反而搞混了"。自适应门控在效果和效率之间取得了优秀的平衡。

损失函数 / 训练策略¶

AGD是纯推理时方法，无需训练或微调。固定参数：\(k=5\)（候选集大小）、\(\pi_{\min}=0.05\)（最小概率阈值）、\(\tau=1.734\)（熵门控阈值）。所有实验使用相同超参数，无需针对不同模型或任务调整。

实验关键数据¶

指令遵循实验¶

在3个模型（Llama 3.1 8B、Qwen 2.5 7B、Gemma 3 4B）上评测IHEval和SysBench两个基准。

模型	方法	PLA (IHEval)	QS	PLA*QS	SSR (SysBench)
Llama 3.1	Greedy	66.0	81.3	53.7	26.0
Llama 3.1	CAD	73.9	72.6	53.7	32.3
Llama 3.1	AGD_LRP	79.1	73.2	57.9	32.2
Llama 3.1	AGD_LRP_e	74.5	76.4	56.9	33.9
Qwen 2.5	Greedy	63.2	74.1	46.8	27.1
Qwen 2.5	AGD_LRP_e	70.4	70.6	49.7	29.9
Gemma 3	Greedy	84.7	82.3	69.7	33.3
Gemma 3	AGD_LRP_e	86.7	81.4	70.6	36.0

事实性与上下文检索实验 (Llama 3.1 8B)¶

设置	方法	TriviaQA	NQ	HotPotQA
闭卷	Greedy	81.4	63.6	34.6
闭卷	DoLA	81.2	63.8	34.3
闭卷	AGD_LRP_h	82.4	63.0	39.6
开卷	Greedy	89.4	83.5	81.3
开卷	CAD	87.9	84.6	83.7
开卷	AGD_LRP_c	91.4	87.9	87.9

关键发现¶

LRP远优于I×G：使用LRP归因的AGD在指令遵循上一致性地大幅超越使用I×G的版本。LRP在Transformer中处理self-attention的规则（AttnLRP）提供了更忠实的归因分数，这直接转化为更好的引导效果。
负归因信号是关键：对于"禁止包含某些词"类型的约束，违禁候选token会在指令部分产生负归因分数，帮助模型主动避开这些token。这是AGD优于简单概率操控方法的独特优势。
熵门控显著改善质量-遵循权衡：在Llama 3.1上，完整AGD的PLA为79.1但QS降至73.2；熵门控版本PLA降至74.5但QS恢复至76.4，综合指标PLA*QS仅差1%。在SysBench多轮对话中，熵门控版本的SSR（33.9）甚至超过完整AGD（32.2），说明只在关键点引导反而效果更好。
开卷QA提升显著：在HotPotQA（含80%干扰文档）上，AGD比贪心解码提升6.6个点，说明归因机制能帮助模型在噪声上下文中锁定相关段落。

亮点与洞察¶

"从解释到引导"的范式转变：将归因方法从事后分析工具转变为生成过程中的主动引导信号，这是一个深刻的视角转换。归因方法几十年来一直用于"解释模型为什么这样做"，这篇论文首次将其用于"决定模型应该怎么做"。
选择型 vs 干预型：AGD不修改模型的前向传播或logit分布——它只是在模型已经认为可行的候选中做"更明智的选择"。这保证了选出的token始终处于模型的正常分布范围内，从根本上避免了activation steering等方法导致的质量退化问题。
ROI的统一抽象：通过将控制目标统一抽象为"可归因组件的子集"，AGD成为一个通用框架。只要目标可以表示为输入token或注意力头的集合，就可以用AGD引导——从指令遵循到事实性到上下文检索，切换只需改ROI定义。

局限与展望¶

候选集限制：AGD作为选择机制，无法生成候选集中不存在的token。如果"正确答案"不在模型的top-k候选中，AGD无法发挥作用。
计算开销：每个候选token都需要一次反向传播来计算归因（虽然熵门控缓解了这一问题），对于长文本生成仍然有可观的额外延迟。
ROI定义依赖先验知识：指令遵循的ROI相对自然（system prompt），但知识头、上下文检索头的识别需要预先分析，可迁移性受限。
仅在≤8B模型上验证：实验模型最大为8B参数，对更大规模模型的扩展性（尤其是归因计算的内存需求）未知。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将归因方法从解释工具转变为生成引导工具，启发性极强
实验充分度: ⭐⭐⭐⭐ 覆盖3种任务、3个模型、多个基准，消融和案例分析充分
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，图示精美，方法动机阐述到位
价值: ⭐⭐⭐⭐⭐ 通用性强的免训练解码框架，对LLM可控生成方向有深远影响