Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning¶

会议: ACL 2026
arXiv: 2604.21327
代码: https://github.com/yuyongcan/DDRL
领域: 图像复原
关键词: 测试时强化学习, 伪标签噪声, GRPO偏差, 去噪去偏, 数学推理

一句话总结¶

系统分析测试时强化学习（TTRL）中虚假信号的来源和放大机制——中频答案构成模糊区域是主要噪声源，GRPO 的组内归一化会放大这些虚假信号——提出 DDRL 框架通过均衡采样、固定优势值和共识离线精炼三管齐下缓解问题，在 Qwen2.5-Math-1.5B 上相对提升15.3%。

研究背景与动机¶

领域现状：TTRL 在测试时通过多次采样和多数投票构建伪标签，用 GRPO 进行无监督 RL 来适应分布偏移。但其在完全无监督的条件下运行，奖励信号完全来自模型自身输出。

现有痛点：TTRL 容易受虚假奖励信号影响——错误回答可能被错误奖励，正确回答可能被惩罚。但虚假信号的具体来源和传播机制尚未被系统分析。

核心矛盾：（1）来源层面——答案频率和可靠性的关系非线性：高频答案大多正确，低频答案大多错误，中频答案高度模糊（正确率剧烈波动），但标准 TTRL 对所有采样回滚同等对待；（2）放大层面——GRPO 的组内归一化在正样本稀少时赋予极大优势值。在监督 RL 中这是合理的（稀有正样本代表有价值的信号），但在 TTRL 中，少量正样本意味着低共识/高不确定性，GRPO 恰恰对最不可靠的样本赋予最大权重。

本文目标：系统理解 TTRL 中虚假信号的来源和放大机制，并设计有效的缓解策略。

切入角度：从答案采样频率角度分析伪标签可靠性，从 GRPO 优势估计的数学性质分析信号放大。

核心 idea：（1）均衡置信度采样——排除中频模糊样本，保持正负样本平衡；（2）去偏优势估计——用固定优势值 \(A_i = \mathbb{I}(y=y^*) - \mathbb{I}(y \neq y^*)\) 替代组内归一化，消除放大效应；（3）共识离线精炼——RL 阶段后用拒绝采样数据集进行高效稳定的后续优化。

方法详解¶

整体框架¶

DDRL 分三步：（1）均衡置信度采样——根据答案频率选择可靠的正负样本，排除模糊中频区域；（2）去偏优势估计——用固定的标签依赖优势值替代 GRPO 的组内归一化；（3）共识离线精炼——RL 后构建拒绝采样数据集进行 SFT 稳定优化。

关键设计¶

虚假信号来源分析与均衡采样:
- 功能：从源头减少伪标签噪声
- 核心思路：采样 \(N\) 次后，按答案频率分析：高频答案几乎都正确（可靠正样本），低频答案几乎都错误（可靠负样本），中频答案正确率波动大（噪声源）。均衡采样策略：正样本选 top-\(K^+\) 个频率最高的伪标签匹配样本（上限为 \(\lfloor K/2 \rfloor\)），负样本选 \(K^-\) 个频率最低的样本，完全丢弃中频模糊区域
- 设计动机：中频样本既非一致正确也非一致错误，用它们做 RL 训练会引入大量噪声。50%正样本上限防止正样本主导
去偏优势估计:
- 功能：消除 GRPO 归一化对虚假信号的放大效应
- 核心思路：直接将优势值固定为 \(A_i = +1\)（正样本）或 \(A_i = -1\)（负样本），不做组内归一化。消除了"正样本越少→优势越大→最不可靠的样本获得最大权重"的恶性循环。表1的初步实验就显示：仅去掉归一化就能将 AIME2024 从15.8%提升到20.6%
- 设计动机：GRPO 的归一化假设"稀有正样本=有价值信号"在监督 RL 中成立，但在 TTRL 中"稀有正样本=低共识=高不确定性"，归一化的假设被违反
共识离线精炼:
- 功能：RL 阶段后的稳定优化
- 核心思路：用多次采样的一致性答案构建拒绝采样数据集，对 RL 后的模型进行 SFT 精炼。这一阶段利用高共识样本提供干净的监督信号，稳定 RL 训练可能引入的波动
- 设计动机：RL 训练本身仍有一定不稳定性，离线精炼作为"收尾步骤"提供额外的稳定性保证

损失函数 / 训练策略¶

RL 阶段使用修改后的 GRPO（固定优势值 + 均衡采样），精炼阶段使用标准 SFT 损失。在 Qwen2.5-Math-1.5B/3B 和 LLaMA-3.1-8B-Instruct 上评估，基准包括 MATH-500、AIME2024 等。

实验关键数据¶

主实验¶

模型/方法	AIME2024	MATH-500	相对提升
Qwen2.5-Math-1.5B + TTRL	15.8	73.0	-
Qwen2.5-Math-1.5B + DDRL	18.2	84.2	+15.3%
LLaMA-3.1-8B + TTRL	-	-	-
LLaMA-3.1-8B + DDRL	-	-	+12.7%

消融实验¶

配置	AIME2024	MATH	说明
GRPO (标准归一化)	15.8	73.0	放大虚假信号
GRPO (无归一化)	20.6	75.0	仅去偏就有提升
+ 均衡采样	进一步提升	进一步提升	去噪
+ 离线精炼	最优	最优	完整 DDRL

关键发现¶

中频答案是虚假信号的主要来源——其正确率方差极大，作为伪标签不可靠
GRPO 归一化在低共识场景中对虚假信号有系统性放大效应——仅去掉归一化就能显著提升
DDRL 的三个组件各自贡献独立增益，可叠加
均衡采样中的50%正样本上限对稳定训练很重要
在三个不同规模的 LLM 上均有一致提升

亮点与洞察¶

"频率-可靠性"关系的分析透彻：将答案频率分为高/中/低三区，清晰定位了虚假信号的来源（中频区域），为后续的采样策略提供了直接指导
GRPO 偏差的理论分析有深度：揭示了"监督RL中的合理假设在无监督TTRL中被违反"的核心矛盾，这一洞察对所有使用 GRPO 的无监督方法都有指导意义
固定优势值的简洁性：用最简单的 \(+1/-1\) 固定优势替代复杂的组内归一化，效果反而更好，体现了"在噪声环境中简单更鲁棒"的原则

局限与展望¶

仅在数学推理任务上验证，其他推理任务（如代码、逻辑）未测试
频率阈值（区分高/中/低频）的设定可能需要针对不同任务调整
离线精炼阶段增加了额外的计算成本
当模型能力极弱（多数投票本身不可靠）时，DDRL 的效果可能有限

评分¶

新颖性: ⭐⭐⭐⭐ 虚假信号的系统分析有洞察力，但解决方案（固定优势+采样过滤）技术上不算复杂
实验充分度: ⭐⭐⭐⭐ 三个模型+多个基准+逐步消融，较充分
写作质量: ⭐⭐⭐⭐⭐ 问题分析（频率-可靠性+GRPO偏差）的逻辑链非常清晰代码: 待确认
领域: image_restoration
关键词: 待补充

一句话总结¶

待深读论文后补充

研究背景与动机¶

待深读论文后补充

方法详解¶

待深读论文后补充

实验关键数据¶

待深读论文后补充

亮点与洞察¶

待深读论文后补充

局限性 / 可改进方向¶

待深读论文后补充

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评

Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

实验关键数据¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶