The Role of Feedback Alignment in Self-Distillation¶

会议: ICML2026
arXiv: 2606.11173
代码: 待确认
领域: LLM推理 / 自蒸馏
关键词: 自蒸馏, 反馈对齐, 过程监督, GRPO, 数学推理

一句话总结¶

本文系统研究了「自蒸馏」中上下文（context）的设计问题：在 solver–critic 框架下对比三种反馈形式后发现，与 solver 自身推理轨迹逐步对齐的批改式反馈（StepAlignFB）远胜二元奖励（GRPO，+16.11 分）和参考解（RefSol，+5.27 分 Avg@12），因为它只把蒸馏信号集中在 solver 真正出错的 token 上、放过已经正确的步骤，从而隐式实现了过程级监督（PRM 式信号）而无需训练奖励模型。

研究背景与动机¶

领域现状：提升 LLM 推理目前有两条主线。一条是 RLVR（可验证奖励强化学习），以 GRPO 为代表，每条 rollout 只给一个标量奖励（最终答案对不对），不告诉模型推理过程哪一步错了，credit assignment 很困难。另一条是蒸馏，能给出 token 级的密集监督，但需要访问强教师的 logits——而强教师常常藏在 API 后面拿不到，或大规模迁移成本过高。

现有痛点：自蒸馏（self-distillation）同时绕开了这两个限制：同一个模型扮演两个角色——只看问题 \(x\) 的 student，和额外看到上下文 \(c\)（执行轨迹、参考解、其他模型的反馈等）的 self-teacher——训练时最小化两个分布的散度，把「在上下文中涌现的能力」蒸馏进无上下文的策略里。但所有已有工作都把上下文 \(c\) 当作固定选择，没人研究「上下文怎么设计会改变模型学到什么」。

核心矛盾：自蒸馏学到的东西完全取决于 self-teacher 收到什么上下文（见 per-token advantage 公式 \(A_t^{\text{SD}}\)，它直接由上下文对 next-token 预测的改变量决定），但当上下文是「另一个模型的反馈」时，从业者其实有能力设计它的结构——这个设计空间一直被忽略。一个完整正确的参考解看似是强信号，但在自蒸馏里它会弥散到 solver 的整条 rollout：因为另一种推导即便在正确步骤上，措辞和路径也和 solver 不同，于是模型被迫在每个 token（包括本来正确的步骤）都改变行为。

本文目标：在数学推理的 solver–critic 设定下，回答「什么形式的反馈能产生最有效的 self-teacher」。

切入角度：把「反馈形式」当作唯一自变量，固定 solver、损失、散度、所有超参，对比三种上下文，再用 per-token advantage 分析揭示机制。

核心 idea：反馈与 solver 推理轨迹的结构对齐（structural alignment）比反馈本身的「质量」更重要——逐步对齐的批改能把蒸馏信号精准压在出错 token 上，从而把自蒸馏天然带有的过程级信号进一步放大成 PRM 式的隐式过程监督。

方法详解¶

整体框架¶

本文是一个对照研究，框架本身就是经典自蒸馏的 solver–critic 训练回路，真正的贡献是其中「反馈形式」这一个旋钮的三种取值对比。流程是：对每道数学题 \(x\)，可训练的 solver \(\pi_\theta\) 生成带 step 标签的推理轨迹 \(y=\langle\text{step}_1\rangle\ldots\langle\text{step}_N\rangle\langle\text{answer}\rangle\)；一个冻结的 critic \(\pi_{\text{critic}}\) 根据 \(x\) 和 solver 的回答产出反馈 \(f\)；然后用自蒸馏（Eq. 3）以 \(f\) 作为上下文 \(c\) 训练 solver——只有 solver 被训练，critic 全程冻结。

自蒸馏的损失是最小化 student（只看 \(x\)）和 self-teacher（看 \(x+c\)）的 per-token 散度：

\[\mathcal{L}_{\text{SD}}=\mathbb{E}_{y\sim\pi_\theta(\cdot\mid x)}\left[D\big(\pi_\theta(y\mid x)\,\big\|\,\text{sg}[\pi_\theta(y\mid x,c)]\big)\right]\]

其梯度形式等价于 \(-\mathcal{J}_{\text{GRPO}}\)，但 per-token advantage 变成：

\[A_t^{\text{SD}}(\hat{y}_t)=\log\pi_\theta(\hat{y}_t\mid x,c,y_{<t})-\log\pi_\theta(\hat{y}_t\mid x,y_{<t})\]

它量化「上下文把模型的 next-token 预测推了多少」。与 GRPO 那个在整条 rollout 内恒定的 advantage（\(A_{i,t}=A_i^{\text{GRPO}}\)）不同，\(A_t^{\text{SD}}\) 在每个 token 位置都在变，天然带来密集的 credit assignment。本文的全部洞察都建立在「上下文 \(c\) 的形式如何塑造这个 per-token advantage」之上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["数学题 x"] --> B["Solver π_θ<br/>生成带step标签轨迹 y"]
    B --> C{"反馈形式 c<br/>(唯一自变量)"}
    C -->|"二元奖励"| D["GRPO<br/>无critic·组归一化奖励"]
    C -->|"参考解"| E["RefSol<br/>强模型完整推导"]
    C -->|"逐步批改"| F["StepAlignFB<br/>对齐solver轨迹的per-step反馈"]
    D --> G["自蒸馏 advantage<br/>A_t^SD"]
    E --> G
    F --> G
    G -->|"仅训练solver"| H["更新 π_θ"]

关键设计¶

1. 三种反馈形式的受控对比：把「反馈结构」隔离为唯一自变量

为了干净地回答「什么反馈最有效」，作者固定 solver（Qwen3-1.7B）、损失（forward KL 散度）、所有超参，只改 self-teacher 看到的上下文 \(c\)，对比三个条件。GRPO：标准 RLVR 基线，solver 每题生成 \(G=8\) 条 rollout，每条按二元奖励打分、做组归一化（\(A_i^{\text{GRPO}}=(r_i-\bar{r})/\sigma(r)\)），无 critic、无自蒸馏。RefSol：把一个更强模型产出的完整 CoT 参考解作为上下文，对应 zhao2026opsd 的设定。StepAlignFB：critic 同时收到 solver 的带 step 标签回答和数据集参考解，产出逐步反馈——提示它把正确步骤逐字照抄、只修改错误或不完整的步骤，并尽量贴近 solver 的推理轨迹。这种「单变量」设计让任何效果差异都只能归因于反馈结构本身。

2. 逐字照抄正确步骤：用 in-context copying 锐化 advantage 估计

StepAlignFB 一个看似细枝末节、实则关键的设计是要求 critic 对正确步骤逐字照抄而非改写。作者观察到逐字照抄会激活模型的 in-context copying 行为（induction head 机制），这会锐化 advantage 估计、尤其是对正确步骤的估计。直觉是：当 self-teacher 的上下文里原封不动地含有 solver 的正确步骤时，\(\pi_\theta(\hat{y}_t\mid x,c,y_{<t})\) 在这些 token 上会被强烈强化，使 \(A_t^{\text{SD}}\) 在正确 token 上明确为正、在错误 token 上为负，从而得到干净的正负分离信号。相比之下，若让 critic 自由复述正确步骤，措辞差异会污染这些位置的 advantage。

3. 反馈对齐而非反馈质量：让信号集中在出错 token，避免弥散

这是全文的核心机制。RefSol 提供的是一条完整正确的推导，信息质量很高，但它在 surface form 上几乎必然与 solver 的轨迹不同——即便在 solver 本来就对的步骤上，措辞、变量命名、推导路径都不一样。结果自蒸馏 advantage 在整条 rollout 上弥散，模型被迫在每个 token（包括正确步骤）都改变行为，反而压制了本来正确的轨迹。StepAlignFB 因为针对 solver 的真实轨迹做逐步批改，把分布偏移集中在出错相邻的 token上、放过正确步骤——per-token advantage 分析显示它的行为「像一个过程奖励模型（PRM）」：强化正确步骤、抑制错误步骤。换言之，自蒸馏本身已经通过 token 级 advantage 提供了一种过程级信号，StepAlignFB 只是把这个信号精准放大到出错处。这套隐式过程监督达到了 PRM 的效果，却无需训练奖励模型、也无需收集 per-step 标量标注。

损失函数 / 训练策略¶

散度用 forward KL；自蒸馏实验组 size \(G=1\)、GRPO 用 \(G=8\)；温度 \(T=1.1\)、最大 2048 token，全程 on-policy 采样。沿用 zhao2026opsd 的 Thinking-Mode-Off student / Thinking-Mode-On teacher 配对，teacher 固定为初始（无 LoRA）基策略（在 teacher 前向时关掉 adapter，不另加载 teacher checkpoint）。LoRA（\(r=64\), \(\alpha=128\)）训练全部 attention/MLP 投影，AdamW、学习率 \(5\times10^{-6}\)、有效 batch 32、bf16，4×H100。StepAlignFB 的 critique 由冻结的 Qwen/QwQ-32B 贪心解码（\(T=0\)）每条 rollout 生成一次，剥掉 <think> 推理痕迹只拼接结构化批改输出，靠 vLLM 自动前缀缓存抵消长 prompt 开销。数据是从 OpenMathReasoning 按难度和格式筛出的 312 题（30 测、282 训），保留对 1.7B 而言较难（Avg@16 < 5/16）但 critic 可解的题，训练至多 7 epoch。

实验关键数据¶

主实验：三种反馈各指标最优值（OpenMathReasoning 30 题测试集，n=12）¶

方法	Pass@12	Maj@12	Avg@12	平均答案长度
GRPO	76.67 (s=40)	26.67 (s=50)	19.72 (s=30)	1681.49 (s=50)
RefSol	86.67 (s=60)	43.33 (s=60)	30.56 (s=40)	1935.83
StepAlignFB	90.00 (s=60)	56.67 (s=50)	35.83 (s=50)	1996.07

s 为达到该指标最优的训练步。每个 (方法, 指标) 取所有 checkpoint 中的最优值（因不同方法在不同步达峰，逐指标独立选 checkpoint）。

关键差距分解¶

对比	Pass@12	Maj@12	Avg@12
StepAlignFB − RefSol	+2.33	+13.33	+5.27
StepAlignFB − GRPO	—	—	+16.11

关键发现¶

StepAlignFB 全面领先：尽管从没见过 ground-truth 推导，它在所有聚合式准确率指标上都超过 RefSol，Avg@12 +5.27、Maj@12 +13.33。Majority-Vote 的大幅领先尤其说明它的策略把概率更尖锐地集中在正确答案上（而非仅仅覆盖到），这正是最受益于测试时聚合的 regime。
机制是 token 级 credit assignment：per-token advantage 分析显示 StepAlignFB 的自蒸馏信号「像 PRM」——强化 solver 轨迹中的正确步骤、抑制错误步骤；而 RefSol 连完全正确的 solver 轨迹也一起压制，信号弥散。
自蒸馏整体压制 GRPO：除答案长度外（GRPO token 效率更高），RefSol 和 StepAlignFB 在整个训练过程中准确率都高于 GRPO，最终 Avg@12 差距约 8 分。注意自蒸馏在等算力下每步消耗的 prompt 数是 GRPO 的 \(1/8\)（\(G=1\) vs \(G=8\)），但都训 7 epoch，排除了数据曝光量的混淆。
需要早停 + 逐 checkpoint 选择：5–6 epoch 即达峰，固定的 end-of-run 评测会系统性低估自蒸馏的天花板，因此必须在留出验证集上逐 checkpoint 选优才公平。

亮点与洞察¶

「反馈对齐 ≥ 反馈质量」是一个反直觉但很硬的结论：一条完整正确的参考解信息量更大，却因为 surface form 偏离 solver 轨迹而在自蒸馏里弥散；逐步对齐的批改即便信息量更少，却因结构对齐而把信号精准压在错处——这把研究者对「好反馈」的认知从「内容对不对」推向「结构贴不贴」。
用 per-token advantage \(A_t^{\text{SD}}\) 把抽象的「信号弥散 vs 集中」可视化很巧妙，直接证明 StepAlignFB 在做隐式过程监督，给出了「为什么有效」的机制证据而非只报点数。
「逐字照抄正确步骤激活 induction head 锐化 advantage」是一个可复用的 trick：在任何需要让自蒸馏 teacher 上下文保留 student 正确部分的场景，都可借照抄来稳定 credit assignment。
工程价值：无需训练 PRM、无需 per-step 标注就拿到过程级监督，对缺乏标注预算、又拿不到强教师 logits 的团队很友好。

局限与展望¶

规模与数据极小：只在 Qwen3-1.7B、312 题 OpenMathReasoning 子集上验证，且是 ICML 2026 RLxF workshop 论文，结论的普适性需更大模型/更大数据集验证。
依赖一个强 critic（QwQ-32B）能解题：数据筛选要求 critic 自身可解，否则 RefSol 和 StepAlignFB 会退化成同一设定；这限制了在 critic 也搞不定的真·难题上的适用性。
自己发现：逐 checkpoint 选最优值的报告方式虽然作者论证合理（不同方法不同步达峰），但天然偏乐观，跨方法比较时需留意 s 步不同带来的可比性 caveat；GRPO 的 token 效率优势（答案更短）在某些部署场景可能比准确率更重要。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把「自蒸馏上下文设计」当研究对象，反馈对齐 > 反馈质量的结论清晰
实验充分度: ⭐⭐⭐ 机制分析扎实，但模型(1.7B)与数据(312题)规模偏小，是 workshop 论文
写作质量: ⭐⭐⭐⭐⭐ 问题动机锐利，per-token advantage 机制讲得透
价值: ⭐⭐⭐⭐ 给「无 PRM/无强教师 logits」团队一条拿到过程监督的实用路径