STAT: Skill-Targeted Adaptive Training¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=m3jG3GaNIj
代码: https://github.com/princeton-pli/STAT
领域: LLM推理 / 数据选择 / 监督微调
关键词: 技能定向训练, 缺失技能画像, SFT 饱和, 元认知教师, 数学推理

一句话总结¶

用一个更强的 LLM 当"老师"，先诊断学生模型在数学题上到底缺哪些技能，再据此重加权或合成训练数据做 SFT，让在 MATH 上已经"练饱和"的小模型继续涨点（MATH 最高 +7.5%、OOD 平均 +4.6%），而且和后续 GRPO 强化学习互补叠加。

研究背景与动机¶

领域现状：把语言模型在某个领域数据集（如 MATH）上做监督微调（SFT）是提升专项能力的标准手段。常见做法是直接在固定训练集上多训几个 epoch，或者用 embedding / 梯度相似度从训练集里挑出"与验证集失败样例最相近"的子集来训。

现有痛点：对已经经过大量后训练的指令模型（如 Llama-instruct），在 MATH 这种它见过的数据上继续 SFT 几乎不涨点——这就是饱和（saturation）。论文实验里，MATH-Train 和 MATH-Augment 这类朴素 SFT 相比基座最多只提升 1–2%，Qwen2.5-3B 甚至会掉点。更糟的是，基于 embedding 相似度的数据选择（Embed-Sel/Syn）在这些饱和模型上同样收效甚微。

核心矛盾：饱和的根源在于 SFT 用的是所有样本上的平均 next-token 损失——当模型已经会做绝大多数题时，平均损失提供的训练信号被稀释殆尽；而且"平均损失"和真正自回归生成时犯的错之间存在错配，验证集 loss 只是模型实际生成错误的一个粗糙代理。embedding 相似度只衡量"题面像不像"，并没有触及模型究竟在哪一步推理能力上欠缺。

本文目标：不去笼统地降低平均 loss，而是像老师因材施教一样，精准定位学生模型缺失的底层技能（skill），把训练信号集中到这些技能对应的题目上。

切入角度：借助前沿 LLM 的元认知（meta-cognition）能力——强模型不仅会做题，还能分析一道题需要哪些技能、以及学生的答案里漏用了哪些技能。于是强模型可以充当"教师"，主动监控学生在单个技能上的掌握度并据此调配训练样本。

核心 idea：让教师为学生构建一份缺失技能画像（Missing-Skill-Profile），再用它来"选数据"（STAT-Sel 重加权已有题）或"造数据"（STAT-Syn 合成新题），实现技能定向的自适应训练。

方法详解¶

整体框架¶

STAT 把"诊断—配药—开方"做成一条三阶段流水线，全程由一个前沿教师 LLM（实验默认 GPT-4o-mini）驱动。给定一批测试题 \(Q\)（切成验证集 \(Q_{val}\) 和评测集 \(Q_{test}\)）和一份模型曾经训练过的训练题库 \(P\)（如 MATH 训练集），目标是构造一个技能定向的训练集 \(P_{targeted}\) 让学生继续 SFT。

整条管线先用现成的技能体系做底座：沿用 Didolkar et al. (2024) 的方法，从大模型枚举出解题所需的技能集合 \(S\)，并建立 Skill-Map \(S \to P\)（每个技能映射到训练库里需要该技能的题目）。然后三个阶段依次执行：① 在验证集上用奖励模型筛出学生答错/答得差的难题；② 教师逐题分析学生的错误回答，标注它漏用了哪些技能，汇总成 Missing-Skill-Profile；③ 根据这份画像，要么从 \(P\) 里按缺失技能重加权采样（STAT-Sel），要么让教师合成针对缺失技能的新题（STAT-Syn），得到 \(P_{targeted}\) 后做 SFT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["验证集小样本<br/>+ 学生模型回答"] --> B["1. 奖励过滤识别难题<br/>逐步打分卡阈值"]
    B --> C["2. 构建缺失技能画像<br/>教师标注漏用技能"]
    C -->|按 Skill-Map 重加权| D["3. STAT-Sel<br/>从训练库上采相关题"]
    C -->|教师参考样例合成| E["4. STAT-Syn<br/>造新题 + 一致性过滤"]
    D --> F["技能定向训练集<br/>SFT 学生模型"]
    E --> F
    F -.可叠加.-> G["GRPO 强化学习"]

关键设计¶

1. 奖励过滤识别难题：不依赖标准答案地圈出学生的薄弱题

要"对症"先得知道学生在哪些题上栽了跟头。最直接的办法是看哪些题答错，但这需要标准答案，限制了通用性。STAT 改用奖励模型给学生的逐步推理打分来判定难易。假设一道题 \(q\) 的回答由 \(t\) 步组成，奖励模型对每步给出分数 \(\{r_{q,1}, \dots, r_{q,t}\}\)，然后用两个阈值 \(\tau_1, \tau_2\) 做过滤：

\[R(q)=0 \iff r_{q,t}\le\tau_1 \;\text{或}\; \tfrac{1}{t}\sum_{i=1}^{t} r_{q,i}\le\tau_1 \;\text{或}\; \exists\, i<t,\; r_{q,i}\le\tau_2\]

即只要最后一步得分低、全程平均分低、或中间任意一步得分过低，就把该题判为难题（\(R(q)=0\)）。难题集合 \(Q_{difficult}\) 再按验证/测试切分成 \(Q^{val}_{difficult}\)（用于后续标技能）和 \(Q^{test}_{difficult}\)（用于 MATHD 评测）。这样既避开了对 ground-truth 的依赖，又能定位到"哪一步崩了"，比单纯看对错信息更细。

2. 缺失技能画像：把"答错"翻译成"缺哪几项可操作的技能"

知道学生在哪些题上薄弱还不够，得知道为什么薄弱。STAT 对每道难题 \(q \in Q^{val}_{difficult}\)，让教师 LLM 去检查学生的回答里漏用了技能集 \(S\) 中的哪些技能，得到映射 \(\text{Missing-Skill-Profile}: Q^{val}_{difficult} \to S\)。这一步是整套方法的诊断核心：它把模糊的"这题不会做"转化成一张可统计、可操作的缺失技能频率表（如"解方程缺失 800 次、复数运算缺失 400 次"）。论文的技能级分析发现一个反直觉现象——即便模型在 MATH 上被反复训练过，它最常缺失的反而是基础代数、基本算术运算这类底层技能，而 embedding 方法和朴素 SFT 强调的技能与学生真正缺失的 Top-10 技能对不上，这正解释了它们为何无效。

3. STAT-Sel：按缺失技能从已有训练库里重加权采样

有了缺失技能画像，最省钱的用法是不造新题、只调整旧题的权重。对每道难题 \(q\)，遍历它的 \(\text{Missing-Skill-Profile}(q)\)，对其中每个缺失技能，借助 Skill-Map 从训练库 \(P\) 里采样多道需要该技能的题目。于是一个技能被采到的频率，正比于它在缺失技能画像里出现的次数——学生越缺的技能，对应训练题在 \(P_{targeted}\) 里被采得越多。这相当于把训练分布朝学生的短板倾斜，让平均损失重新对准它真正没掌握的技能，而不是在已经会做的题上空转。

4. STAT-Syn：针对缺失技能让教师合成新题

当已有题库不足以覆盖某些缺失技能、或想要更强的针对性时，STAT-Syn 让教师直接造题。对每道难题 \(q\)，针对画像里的每个缺失技能，先用 Skill-Map 随机采 3 道相关题作为 in-context 参考，再让教师仿照这些样例生成新的题目和解答。为保证合成质量，加了一道一致性过滤：只有当教师对同一道题的多次回答中至少 2 次答案一致时，才保留这条 QA 对。STAT-Syn 比 STAT-Sel 更贵，但在难题（MATHD、AIME）上收益更大，因为它能造出训练库里原本稀缺的、专攻薄弱技能的样本。

损失函数 / 训练策略¶

得到 \(P_{targeted}\) 后用标准 SFT 目标微调学生（3 个 epoch，学习率按各方法在 MATH 上的准确率单独调）。为公平对比，所有方法（含基线）都从 MATH 数据选/合成，且都控制在约 4k 不重复题 / 9.5k QA 对的同等规模。STAT 与 GRPO 互补：先用 STAT 做 SFT 补技能缺口，再在同一 MATH 训练集上接 GRPO，可继续叠加收益。

实验关键数据¶

主实验¶

在 Llama-3.2-3B-Instruct 上，STAT 大幅超越各类朴素 SFT 和 embedding 数据选择基线（数学多基准平均分）：

方法	MATH	MATHD	AMC23	AIME24	平均
基座	44.0	18.2	33.7	33.3	30.5
MATH-Augment（朴素 SFT）	45.2	23.9	35.1	30.0	31.7
Embed-Sel	46.0	26.5	36.2	36.7	32.8
Embed-Syn	48.8	27.3	36.9	26.7	33.0
STAT-Sel	51.5	26.6	39.8	43.3	36.5
STAT-Syn	50.2	31.7	39.1	40.0	37.2

STAT 把 MATH 提升最高 +7.5%（51.5 vs 44.0），平均分较基座最高 +6.7%（Llama-3B）、+5.2%（Qwen2.5-3B）、+3.4%（Llama-1B），且在 7 个 OOD 基准上一致提升（STAT-Sel/Syn 的 OOD 平均提升 5.3%/5.8%）。

与 GRPO 互补¶

STAT 做完 SFT 再接 GRPO，收益继续叠加而非冲突：

方法（+GRPO）	平均
基座 + GRPO	31.8
MATH-Augment + GRPO	37.9
STAT-Sel + GRPO	48.0
STAT-Syn + GRPO	48.4

值得注意的是，在 Llama 系列上 GRPO 单独训练几乎无效（≤2.4%），而 STAT 仅靠 SFT 就已超过纯 GRPO，叠加 GRPO 后再涨约 4%。

关键发现¶

缺失技能与基线选的技能严重错配：Figure 2 显示朴素 SFT 和 Embed-Sel 强调的 Top-10 技能与学生实际缺失的 Top-10 技能对不上，这是它们无效的直接原因；STAT 之所以有效，是因为它精准命中了"基础代数、基本算术"这类被忽视的底层短板。
STAT-Syn 更擅长啃硬骨头：在 MATHD、AIME 这类难题上，合成新题的 STAT-Syn 普遍优于只重加权的 STAT-Sel。
持续适应新难度：用同一份 MATH 训练题、仅把缺失技能画像换成 MATH-perturb-hard 上的画像继续训练（STAT-ConSel/ConSyn），可在该更难基准上再涨 3–4%（17.2/17.6 vs STAT 的 13.3/14.7），说明技能定向可随评测难度演进而持续校准。

亮点与洞察¶

把"数据选择"的锚点从 loss/embedding 换成"技能缺口"：以往方法都绑在验证集 loss 或题面相似度这种粗代理上，STAT 直接用教师元认知诊断学生缺哪项可操作技能，命中了平均损失看不见的生成错误，这是它能突破饱和的根本原因。
诊断—选数据/造数据解耦且复用：缺失技能画像一旦建好，既能驱动便宜的 Sel（重加权），也能驱动贵但更强的 Syn（合成），还能换个评测基准重建画像做持续学习，模块化程度高、迁移性强。
与 RL 正交叠加：STAT 补的是 SFT 阶段的技能缺口，GRPO 优化的是策略，二者互补而非替代——这一点对今天"SFT→RL"的主流训练管线很有现实价值，几乎可即插即用。
可迁移思路：用"强模型诊断弱模型缺失的细粒度能力，再定向配数据"的范式不限于数学——代码、逻辑推理等可分解为技能的任务都能套用同一套诊断-配药框架。

局限与展望¶

依赖技能体系与教师质量：方法建立在 Didolkar et al. (2024) 的技能集 \(S\) 和 Skill-Map 之上，技能枚举是否完备、教师 LLM 标注缺失技能是否准确，会直接影响画像质量；技能难以精确定义本身也是隐患。
主要在数学、小模型上验证：实验集中在 MATH 和 1B–3B 小模型，"技能可枚举"在数学上较自然，迁移到开放域、大模型上的有效性还需进一步检验。
STAT-Syn 成本较高：合成新题需多次调用教师并做一致性过滤，开销明显大于 STAT-Sel；论文也坦承 Syn 是"更贵"的方案。
奖励模型与阈值敏感性：难题识别依赖奖励模型和 \(\tau_1,\tau_2\) 阈值，虽有消融讨论其鲁棒性，但阈值选择仍是需要调的超参。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把元认知诊断出的"缺失技能"作为数据选择/合成的锚点，跳出 loss/embedding 代理的窠臼
实验充分度: ⭐⭐⭐⭐ 覆盖 3 个小模型、9 个数学基准、SFT/GRPO 叠加与持续学习，但模型规模和领域偏窄
写作质量: ⭐⭐⭐⭐ 三阶段流程清晰，技能级分析有说服力
价值: ⭐⭐⭐⭐⭐ 即插即用地缓解 SFT 饱和、与 RL 互补，对当下训练管线有直接借鉴意义