The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning¶

会议: ICML2026
arXiv: 2606.16152
代码: https://github.com/Dracoqhl/Quality-Utility-Paradox
领域: LLM推理 / 知识蒸馏
关键词: 小模型蒸馏, 奖励模型, 分布漂移, 拒绝采样, 数学推理

一句话总结¶

本文揭示了小语言模型（SLM）数学推理蒸馏中的「质量-效用悖论」：被强 Oracle 精修、奖励模型打分更高的训练数据，下游微调效果反而不如 SLM 自己采样生成的低分数据，原因是 Oracle 精修在修复逻辑的同时把推理轨迹推离了 SLM 的原生分布、抬高了学习者的适应成本；作者用「风格对齐精修」把逻辑修复和风格漂移解耦，重新拿回了下游收益。

研究背景与动机¶

领域现状：训练小语言模型做数学推理，主流套路是从更强的模型蒸馏——一个「合成 Oracle」（如 GPT-5.2）生成或精修推理轨迹（reasoning trace），然后用标准 SFT 让 SLM 去模仿。实践中大家普遍用奖励模型分数（reward model score）当数据质量的代理：一条轨迹在强评估器眼里越严谨，就默认它对学生 SLM 的监督价值越高。

现有痛点：这个「奖励分数 = 数据质量 = 下游效用」的链条对 SLM 数学推理并不成立。作者观察到一个反直觉现象：被 Oracle 精修过的数据奖励分数明显更高，但下游微调出来的模型却持续输给 SLM 自己采样、靠拒绝采样筛出来的轨迹。这个现象在 Qwen2.5、LLaMA-3、DeepSeek 三个模型家族上一致出现。

核心矛盾：问题不在于 Oracle 的逻辑修复本身有害，而在于 Oracle 精修把两件事耦合在了一起——它一边改善了轨迹的表观逻辑质量，一边把轨迹推离了目标模型的原生推理分布。当这种分布漂移抬高的「适应成本」超过逻辑改善带来的收益时，更高的表观质量就不再等于更高的下游效用。换句话说，研究焦点要从「数据绝对质量」转向「学习者与数据的兼容性」（learner-data compatibility）。

本文目标：（1）干净地证明悖论存在并排除混淆因素（问题难度、训练目标、模型规模、超参）；（2）找出 Oracle 精修到底改变了什么、为什么会伤害 SLM；（3）给出一个能验证机制的干预手段。

切入角度：在一个受控实验设定下——固定问题集，唯一变量是「Oracle 是否重写了 SLM 自己的轨迹」——把「逻辑改善」与「偏离原生分布」这两个效应隔离开。作者发现 GPT-5.2 精修后会出现可见的 Syntactic Compaction（句法压缩）：稠密的符号表达替代了 SLM 松散的自然语言脚手架（空格 token、口语化分隔符等）。

核心 idea：用困惑度（PPL）量化「适应成本」，再用 Style-Aligned Refinement（风格对齐精修）——让 Oracle 修逻辑但强制模仿 SLM 原生语言风格——把逻辑修复从风格漂移里解耦出来，证明 Oracle 的改善只有在以「学习者可消化的表征」交付时才有用。

方法详解¶

整体框架¶

本文不是提一个新算法，而是一套受控对照实验 + 机制归因 + 验证性干预的研究框架。核心是在同一个固定问题集上构造四份平行数据集，使它们只在「逻辑修复与表征形式如何耦合」上有差异，然后用「表观质量（奖励分）」对照「实际效用（下游准确率）」，最后用困惑度把效用差异归因到适应成本，并用风格对齐干预闭环验证。

整条管线是：从 NuminaMath CoT 采 10 万道题 → 用 Qwen2.5-Math-1.5B 做拒绝采样微调（RFT, \(N=8\), \(T=1.0\)）得到约 3.4 万道「SLM 可解」的题，构成所有数据集共享的问题集 → 在这个问题集上派生四条数据流 → 分别 SFT/DFT 微调 → 在多个数学 benchmark 上测 Avg@16 → 对比奖励分与准确率的排序错位 → PPL 归因 → 风格对齐干预。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["NuminaMath 10万题<br/>→ SLM 拒绝采样<br/>固定 3.4万题问题集"] --> B
    subgraph B["四份平行数据集构造"]
    direction TB
    B1["SLM-RFT<br/>SLM 自采样+轻量过滤"]
    B2["Oracle-Refined<br/>GPT-5.2 精修 SLM 轨迹"]
    B3["Oracle-Synthesized<br/>GPT-5.2 从零生成"]
    B4["NuminaMath 原 CoT"]
    end
    B --> C["质量-效用错位测量<br/>奖励分 vs Avg@16"]
    C --> D["适应成本归因<br/>全局/分段 PPL"]
    D --> E["风格对齐精修<br/>修逻辑+保原生风格"]
    E -->|PPL↓ 且效用↑| F["验证：兼容性 > 表观质量"]

关键设计¶

1. 共享问题集 + 四份平行数据流：把「问题难度」从混淆项里彻底剔除

要证明「数据表征本身」会影响效用，最大的干扰是不同数据集题目难度不同。作者先用目标 SLM（Qwen2.5-Math-1.5B）对 NuminaMath 的 10 万题做拒绝采样（每题采 \(N=8\) 条、温度 \(T=1.0\)，每道可解题保留一条正确解），筛出约 3.4 万道这个 SLM 解得动的题，作为四份数据集共享的固定问题集。在此之上派生四条流：① SLM-RFT——SLM 自己生成的正确解，仅做轻量保守过滤剥掉零碎生成噪声、保留原生逻辑与表达风格；② Oracle-Refined——把 SLM-RFT 喂给 GPT-5.2 做「最小干预」式定点修复（修语法错、修不连贯过渡）；③ Oracle-Synthesized——GPT-5.2 从零直接生成解；④ NuminaMath Subset——反查原数据集的 ground-truth CoT。四份数据题目完全一致，任何下游差异都只能归因于「解是怎么写的」。

2. 表观质量 vs 实际效用的双轴测量：让悖论「可被看见」

作者刻意把两个维度分开报告。表观质量（Perceived Quality）用奖励模型打分（主评估器 Qwen2.5-Math-72B-Reward，外加 Skywork、Nemotron 两个跨模型验证）；实际效用（Actual Downstream Utility）用微调后在 MATH500、AIME24、AMC23、Minerva、OlympiadBench 上的 Avg@16 准确率（每题采 16 条零样本 CoT 求均值）。为排除「悖论只是某个训练目标的产物」，两套训练范式都跑：标准 SFT（最小化 \(\mathcal{L}_{\text{SFT}}(\theta)=\mathbb{E}_{(x,y^*)\sim\mathcal{D}}[-\log\pi_\theta(y^*\mid x)]\)）和抗过拟合的 DFT（按模型置信度下调低置信 token 权重，\(\mathcal{L}_{\text{DFT}}(\theta)=\mathbb{E}[-\text{sg}(\pi_\theta(y^*\mid x))\log\pi_\theta(y^*\mid x)]\)，其中 \(\text{sg}\) 为停梯度）。结果是奖励分排序（Oracle-Synthesized > NuminaMath > Oracle-Refined > SLM-RFT）与效用排序几乎反着来——这就是悖论的实证骨架。

3. 困惑度归因：把「效用差」翻译成「目标模型的适应成本」

光看准确率只知道「谁好谁坏」，作者进一步用全局困惑度（Global PPL）作为分布兼容性的代理——它衡量一条训练轨迹在目标 SLM 下有多「可预测」，因此反映模仿这条轨迹的适应负担。再补一个分段困惑度：把每条推理轨迹按长度切成四等份 \(Q_1\sim Q_4\)（\(Q_1\) 约为起始段、\(Q_4\) 为收尾段）做细粒度验证。关键发现是 PPL 与下游准确率呈单调负相关：SLM-RFT 的 PPL 最低（1.52）、准确率最高（37.06），Oracle-Synthesized 的 PPL 最高（2.69）、准确率最低（30.02），且这个层级在所有四个分段里稳定成立。token 级归因还显示，在 \(Q_1\) 起始段，SLM-RFT 的损失主要来自自然语言起手词（'To'、'the'），而 Oracle-Refined 被句法符号（'\('）主导——意味着 SLM 在还没开始真正推理前，就先要去适配 Oracle 特有的表达约束。

4. 风格对齐精修（Style-Aligned Refinement）：解耦逻辑修复与风格漂移的闭环验证

如果适应成本真来自「Oracle 特有风格」而非逻辑修复本身，那只要让 Oracle 修逻辑但模仿 SLM 原生风格，就该既保住修复收益、又降低适应成本。作者据此设计干预：用 prompt 指示 Oracle（主用 Qwen2.5-Math-72B-Instruct，另测 GPT-5.2）在改正逻辑错误的同时严格沿用 SLM 的原生语言风格，优先保证分布兼容性。结果干净地闭环：Style-Aligned (Qwen) 的全局 PPL 降到 1.46，甚至低于 SLM-RFT 原生的 1.52（因为它过滤了 SLM 自采样的偶发噪声、却没引入陌生表达），而奖励分却最低（1.37，连 SLM-RFT 的 1.47 都不如）——这恰恰证明奖励模型会系统性低估「表达虽不正式但对目标 SLM 高度可学」的原生分布轨迹。下游 Avg@16 则冲到 39.12，反超标准 Oracle-Refined（34.06）和 SLM-RFT（37.06）。GPT-5.2 版本虽然对齐没那么彻底，也在大部分训练过程中稳压标准 Oracle-Refined，作为互补佐证。

损失函数 / 训练策略¶

训练沿用 DFT 协议：学习率 5e-5、batch size 256、单 epoch；SFT 为对照基线。拒绝采样用 \(N=8\)、\(T=1.0\)。评测统一 Avg@16（\(T=1.0\)、最大 4096 token、零样本 CoT）。

实验关键数据¶

主实验：质量-效用错位（DFT 下 Avg@16）¶

数据集	奖励分(均值)	SFT 总均值	DFT 总均值
Oracle-Synthesized	1.88(最高)	23.26	30.02
NuminaMath Subset	1.78	16.72	31.28
Oracle-Refined	1.70	19.60	34.06
SLM-RFT	1.47(最低)	22.74	37.06(最高)

奖励分排序与下游效用排序几乎完全反向：奖励分最低的 SLM-RFT 反而下游最强。这是悖论的核心证据，且 SFT 下同样可见。

机制分析：困惑度、语义保留与效用¶

数据集	全局 PPL↓	奖励分↑	语义保留分↑	Avg@16↑
Style-Aligned (Qwen)	1.46	1.37	4.77	39.12
SLM-RFT	1.52	1.47	—	37.06
Style-Aligned (GPT-5.2)	1.78	1.81	4.07	38.21
Oracle-Refined	1.85	1.70	4.26	34.06
Oracle-Synthesized	2.69	1.88	3.91	30.02

语义保留分（越高越贴近 SLM-RFT 原始轨迹）与奖励分反向移动：最贴近原生轨迹的 Style-Aligned (Qwen) 奖励分最低，但 PPL 最低、效用最高。

关键发现¶

PPL 与下游准确率单调负相关，且在 \(Q_1\sim Q_4\) 全分段稳定：适应成本是效用的核心驱动量，而非局部某段的伪相关。
超参不敏感：在 2e-5/5e-5 × BS 128/256 的网格搜索下，SLM-RFT 在所有配置都最优（如 5e-5/128 时 39.36 vs Oracle-Refined 33.96 vs Oracle-Synthesized 30.32），排除单一超参导致悖论的可能。
Syntactic Compaction 是 Oracle 特有偏置：精修后无空格反斜杠 '\' 频率涨 3.6% 成主导 token，原生脚手架（空格反斜杠、' ='、' the'）被压制；但作者强调这是该 Oracle 在该设定下的表达偏置，不是所有 Oracle 的普适失效模式。
风格对齐能让 PPL 低于 SLM-RFT 自身：因为它在修逻辑时顺手过滤了自采样的偶发噪声，却不引入陌生表达——说明「最优学习数据」未必是模型自己的原始输出。

亮点与洞察¶

把「数据质量」从绝对量重新定义为「学习者-数据兼容性」的相对量，这是认知层面的转变：奖励模型分数只衡量「在强评估器眼里好不好」，而下游效用取决于「目标小模型好不好学」，两者会系统性背离。
用困惑度当「适应成本」的可量化代理很巧妙——它把抽象的「分布漂移」落到一个可测、可分段、可做 token 级归因的标量上，使悖论从「现象观察」升级为「机制解释」。
风格对齐精修是一次干净的因果验证：通过只改风格、不改逻辑修复，证明伤害来自风格漂移而非修复本身，这种「解耦-干预-复原」的实验设计可迁移到任何「强教师数据为何伤害弱学生」的研究。
对工程实践的直接启示：为 SLM 选蒸馏数据时，奖励分不该是唯一甚至主要标准，应联合考虑学习者分布兼容性——可以是 PPL 过滤、学习者感知的数据筛选，或显式建模目标模型兼容性的奖励模型。

局限与展望¶

作者承认证据局限在 SLM 规模 + 数学推理 范畴；更大模型、非数学领域、混合任务指令微调是否同样存在该 trade-off 仍是开放问题。
Style-Aligned Refinement 目前只是基于 prompt 的机制验证手段，离实用尚远；落地可能需要自动风格迁移、学习者感知的数据过滤，或显式考虑目标分布兼容性的奖励模型。
自己发现：「语义保留分」和「PPL」都依赖 LLM-as-Judge 或目标模型自身，存在评估器偏置；作者也指出部分工作（如 OpenMathInstruct-2）在不同设定下结论相反，调和分析放在附录，说明结论的成立条件较窄。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把「数据质量」重构为「学习者兼容性」，反直觉且机制讲透
实验充分度: ⭐⭐⭐⭐ 跨模型族/规模/超参/双训练范式验证扎实，但局限于 SLM+数学
写作质量: ⭐⭐⭐⭐⭐ 现象→归因→干预闭环清晰，论证层层递进
价值: ⭐⭐⭐⭐⭐ 直接挑战「用奖励分选蒸馏数据」的主流实践，工程指导性强