The Role of Feedback Alignment in Self-Distillation¶
会议: ICML2026
arXiv: 2606.11173
代码: 待确认
领域: LLM推理 / 自蒸馏
关键词: 自蒸馏, 反馈对齐, 过程监督, GRPO, 数学推理
一句话总结¶
本文系统研究了「自蒸馏」中上下文(context)的设计问题:在 solver–critic 框架下对比三种反馈形式后发现,与 solver 自身推理轨迹逐步对齐的批改式反馈(StepAlignFB)远胜二元奖励(GRPO,+16.11 分)和参考解(RefSol,+5.27 分 Avg@12),因为它只把蒸馏信号集中在 solver 真正出错的 token 上、放过已经正确的步骤,从而隐式实现了过程级监督(PRM 式信号)而无需训练奖励模型。
研究背景与动机¶
领域现状:提升 LLM 推理目前有两条主线。一条是 RLVR(可验证奖励强化学习),以 GRPO 为代表,每条 rollout 只给一个标量奖励(最终答案对不对),不告诉模型推理过程哪一步错了,credit assignment 很困难。另一条是蒸馏,能给出 token 级的密集监督,但需要访问强教师的 logits——而强教师常常藏在 API 后面拿不到,或大规模迁移成本过高。
现有痛点:自蒸馏(self-distillation)同时绕开了这两个限制:同一个模型扮演两个角色——只看问题 \(x\) 的 student,和额外看到上下文 \(c\)(执行轨迹、参考解、其他模型的反馈等)的 self-teacher——训练时最小化两个分布的散度,把「在上下文中涌现的能力」蒸馏进无上下文的策略里。但所有已有工作都把上下文 \(c\) 当作固定选择,没人研究「上下文怎么设计会改变模型学到什么」。
核心矛盾:自蒸馏学到的东西完全取决于 self-teacher 收到什么上下文(见 per-token advantage 公式 \(A_t^{\text{SD}}\),它直接由上下文对 next-token 预测的改变量决定),但当上下文是「另一个模型的反馈」时,从业者其实有能力设计它的结构——这个设计空间一直被忽略。一个完整正确的参考解看似是强信号,但在自蒸馏里它会弥散到 solver 的整条 rollout:因为另一种推导即便在正确步骤上,措辞和路径也和 solver 不同,于是模型被迫在每个 token(包括本来正确的步骤)都改变行为。
本文目标:在数学推理的 solver–critic 设定下,回答「什么形式的反馈能产生最有效的 self-teacher」。
切入角度:把「反馈形式」当作唯一自变量,固定 solver、损失、散度、所有超参,对比三种上下文,再用 per-token advantage 分析揭示机制。
核心 idea:反馈与 solver 推理轨迹的结构对齐(structural alignment)比反馈本身的「质量」更重要——逐步对齐的批改能把蒸馏信号精准压在出错 token 上,从而把自蒸馏天然带有的过程级信号进一步放大成 PRM 式的隐式过程监督。
方法详解¶
整体框架¶
本文是一个对照研究,框架本身就是经典自蒸馏的 solver–critic 训练回路,真正的贡献是其中「反馈形式」这一个旋钮的三种取值对比。流程是:对每道数学题 \(x\),可训练的 solver \(\pi_\theta\) 生成带 step 标签的推理轨迹 \(y=\langle\text{step}_1\rangle\ldots\langle\text{step}_N\rangle\langle\text{answer}\rangle\);一个冻结的 critic \(\pi_{\text{critic}}\) 根据 \(x\) 和 solver 的回答产出反馈 \(f\);然后用自蒸馏(Eq. 3)以 \(f\) 作为上下文 \(c\) 训练 solver——只有 solver 被训练,critic 全程冻结。
自蒸馏的损失是最小化 student(只看 \(x\))和 self-teacher(看 \(x+c\))的 per-token 散度:
其梯度形式等价于 \(-\mathcal{J}_{\text{GRPO}}\),但 per-token advantage 变成:
它量化「上下文把模型的 next-token 预测推了多少」。与 GRPO 那个在整条 rollout 内恒定的 advantage(\(A_{i,t}=A_i^{\text{GRPO}}\))不同,\(A_t^{\text{SD}}\) 在每个 token 位置都在变,天然带来密集的 credit assignment。本文的全部洞察都建立在「上下文 \(c\) 的形式如何塑造这个 per-token advantage」之上。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["数学题 x"] --> B["Solver π_θ<br/>生成带step标签轨迹 y"]
B --> C{"反馈形式 c<br/>(唯一自变量)"}
C -->|"二元奖励"| D["GRPO<br/>无critic·组归一化奖励"]
C -->|"参考解"| E["RefSol<br/>强模型完整推导"]
C -->|"逐步批改"| F["StepAlignFB<br/>对齐solver轨迹的per-step反馈"]
D --> G["自蒸馏 advantage<br/>A_t^SD"]
E --> G
F --> G
G -->|"仅训练solver"| H["更新 π_θ"]
关键设计¶
1. 三种反馈形式的受控对比:把「反馈结构」隔离为唯一自变量
为了干净地回答「什么反馈最有效」,作者固定 solver(Qwen3-1.7B)、损失(forward KL 散度)、所有超参,只改 self-teacher 看到的上下文 \(c\),对比三个条件。GRPO:标准 RLVR 基线,solver 每题生成 \(G=8\) 条 rollout,每条按二元奖励打分、做组归一化(\(A_i^{\text{GRPO}}=(r_i-\bar{r})/\sigma(r)\)),无 critic、无自蒸馏。RefSol:把一个更强模型产出的完整 CoT 参考解作为上下文,对应 zhao2026opsd 的设定。StepAlignFB:critic 同时收到 solver 的带 step 标签回答和数据集参考解,产出逐步反馈——提示它把正确步骤逐字照抄、只修改错误或不完整的步骤,并尽量贴近 solver 的推理轨迹。这种「单变量」设计让任何效果差异都只能归因于反馈结构本身。
2. 逐字照抄正确步骤:用 in-context copying 锐化 advantage 估计
StepAlignFB 一个看似细枝末节、实则关键的设计是要求 critic 对正确步骤逐字照抄而非改写。作者观察到逐字照抄会激活模型的 in-context copying 行为(induction head 机制),这会锐化 advantage 估计、尤其是对正确步骤的估计。直觉是:当 self-teacher 的上下文里原封不动地含有 solver 的正确步骤时,\(\pi_\theta(\hat{y}_t\mid x,c,y_{<t})\) 在这些 token 上会被强烈强化,使 \(A_t^{\text{SD}}\) 在正确 token 上明确为正、在错误 token 上为负,从而得到干净的正负分离信号。相比之下,若让 critic 自由复述正确步骤,措辞差异会污染这些位置的 advantage。
3. 反馈对齐而非反馈质量:让信号集中在出错 token,避免弥散
这是全文的核心机制。RefSol 提供的是一条完整正确的推导,信息质量很高,但它在 surface form 上几乎必然与 solver 的轨迹不同——即便在 solver 本来就对的步骤上,措辞、变量命名、推导路径都不一样。结果自蒸馏 advantage 在整条 rollout 上弥散,模型被迫在每个 token(包括正确步骤)都改变行为,反而压制了本来正确的轨迹。StepAlignFB 因为针对 solver 的真实轨迹做逐步批改,把分布偏移集中在出错相邻的 token上、放过正确步骤——per-token advantage 分析显示它的行为「像一个过程奖励模型(PRM)」:强化正确步骤、抑制错误步骤。换言之,自蒸馏本身已经通过 token 级 advantage 提供了一种过程级信号,StepAlignFB 只是把这个信号精准放大到出错处。这套隐式过程监督达到了 PRM 的效果,却无需训练奖励模型、也无需收集 per-step 标量标注。
损失函数 / 训练策略¶
散度用 forward KL;自蒸馏实验组 size \(G=1\)、GRPO 用 \(G=8\);温度 \(T=1.1\)、最大 2048 token,全程 on-policy 采样。沿用 zhao2026opsd 的 Thinking-Mode-Off student / Thinking-Mode-On teacher 配对,teacher 固定为初始(无 LoRA)基策略(在 teacher 前向时关掉 adapter,不另加载 teacher checkpoint)。LoRA(\(r=64\), \(\alpha=128\))训练全部 attention/MLP 投影,AdamW、学习率 \(5\times10^{-6}\)、有效 batch 32、bf16,4×H100。StepAlignFB 的 critique 由冻结的 Qwen/QwQ-32B 贪心解码(\(T=0\))每条 rollout 生成一次,剥掉 <think> 推理痕迹只拼接结构化批改输出,靠 vLLM 自动前缀缓存抵消长 prompt 开销。数据是从 OpenMathReasoning 按难度和格式筛出的 312 题(30 测、282 训),保留对 1.7B 而言较难(Avg@16 < 5/16)但 critic 可解的题,训练至多 7 epoch。
实验关键数据¶
主实验:三种反馈各指标最优值(OpenMathReasoning 30 题测试集,n=12)¶
| 方法 | Pass@12 | Maj@12 | Avg@12 | 平均答案长度 |
|---|---|---|---|---|
| GRPO | 76.67 (s=40) | 26.67 (s=50) | 19.72 (s=30) | 1681.49 (s=50) |
| RefSol | 86.67 (s=60) | 43.33 (s=60) | 30.56 (s=40) | 1935.83 |
| StepAlignFB | 90.00 (s=60) | 56.67 (s=50) | 35.83 (s=50) | 1996.07 |
s 为达到该指标最优的训练步。每个 (方法, 指标) 取所有 checkpoint 中的最优值(因不同方法在不同步达峰,逐指标独立选 checkpoint)。
关键差距分解¶
| 对比 | Pass@12 | Maj@12 | Avg@12 |
|---|---|---|---|
| StepAlignFB − RefSol | +2.33 | +13.33 | +5.27 |
| StepAlignFB − GRPO | — | — | +16.11 |
关键发现¶
- StepAlignFB 全面领先:尽管从没见过 ground-truth 推导,它在所有聚合式准确率指标上都超过 RefSol,Avg@12 +5.27、Maj@12 +13.33。Majority-Vote 的大幅领先尤其说明它的策略把概率更尖锐地集中在正确答案上(而非仅仅覆盖到),这正是最受益于测试时聚合的 regime。
- 机制是 token 级 credit assignment:per-token advantage 分析显示 StepAlignFB 的自蒸馏信号「像 PRM」——强化 solver 轨迹中的正确步骤、抑制错误步骤;而 RefSol 连完全正确的 solver 轨迹也一起压制,信号弥散。
- 自蒸馏整体压制 GRPO:除答案长度外(GRPO token 效率更高),RefSol 和 StepAlignFB 在整个训练过程中准确率都高于 GRPO,最终 Avg@12 差距约 8 分。注意自蒸馏在等算力下每步消耗的 prompt 数是 GRPO 的 \(1/8\)(\(G=1\) vs \(G=8\)),但都训 7 epoch,排除了数据曝光量的混淆。
- 需要早停 + 逐 checkpoint 选择:5–6 epoch 即达峰,固定的 end-of-run 评测会系统性低估自蒸馏的天花板,因此必须在留出验证集上逐 checkpoint 选优才公平。
亮点与洞察¶
- 「反馈对齐 ≥ 反馈质量」是一个反直觉但很硬的结论:一条完整正确的参考解信息量更大,却因为 surface form 偏离 solver 轨迹而在自蒸馏里弥散;逐步对齐的批改即便信息量更少,却因结构对齐而把信号精准压在错处——这把研究者对「好反馈」的认知从「内容对不对」推向「结构贴不贴」。
- 用 per-token advantage \(A_t^{\text{SD}}\) 把抽象的「信号弥散 vs 集中」可视化很巧妙,直接证明 StepAlignFB 在做隐式过程监督,给出了「为什么有效」的机制证据而非只报点数。
- 「逐字照抄正确步骤激活 induction head 锐化 advantage」是一个可复用的 trick:在任何需要让自蒸馏 teacher 上下文保留 student 正确部分的场景,都可借照抄来稳定 credit assignment。
- 工程价值:无需训练 PRM、无需 per-step 标注就拿到过程级监督,对缺乏标注预算、又拿不到强教师 logits 的团队很友好。
局限与展望¶
- 规模与数据极小:只在 Qwen3-1.7B、312 题 OpenMathReasoning 子集上验证,且是 ICML 2026 RLxF workshop 论文,结论的普适性需更大模型/更大数据集验证。
- 依赖一个强 critic(QwQ-32B)能解题:数据筛选要求 critic 自身可解,否则 RefSol 和 StepAlignFB 会退化成同一设定;这限制了在 critic 也搞不定的真·难题上的适用性。
- 自己发现:逐 checkpoint 选最优值的报告方式虽然作者论证合理(不同方法不同步达峰),但天然偏乐观,跨方法比较时需留意 s 步不同带来的可比性 caveat;GRPO 的 token 效率优势(答案更短)在某些部署场景可能比准确率更重要。
相关工作与启发¶
- vs GRPO / RLVR:RLVR 每条 rollout 只有一个标量奖励、credit assignment 困难;本文用自蒸馏的 token 级 advantage 提供密集监督,Avg@12 领先 16.11 分,且在等算力下用 \(1/8\) 的 prompt 数。
- vs 标准蒸馏 / On-Policy Distillation:传统蒸馏需要强教师 logits(API 后常拿不到);自蒸馏用同一模型双角色绕开这一限制。本文相对 OPD 的增量在于:首次系统研究「上下文/反馈形式的设计」如何改变学到的东西,而非把上下文当固定选择。
- vs RefSol(zhao2026opsd):RefSol 用完整参考解作上下文,本文证明这会让信号弥散、压制正确步骤;StepAlignFB 用对齐 solver 轨迹的逐步批改替代,在所有聚合准确率指标上更优。
- vs PRM(Lightman et al., Uesato et al.):PRM 需要训练奖励模型并收集 per-step 标注;StepAlignFB 用反馈对齐隐式复现了 PRM 的 token 级定位效果,免去了这些成本。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次把「自蒸馏上下文设计」当研究对象,反馈对齐 > 反馈质量的结论清晰
- 实验充分度: ⭐⭐⭐ 机制分析扎实,但模型(1.7B)与数据(312题)规模偏小,是 workshop 论文
- 写作质量: ⭐⭐⭐⭐⭐ 问题动机锐利,per-token advantage 机制讲得透
- 价值: ⭐⭐⭐⭐ 给「无 PRM/无强教师 logits」团队一条拿到过程监督的实用路径