Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation¶

会议: ICLR 2026
arXiv: 2601.20614
代码: GitHub
领域: LLM推理 / 强化学习
关键词: GRPO, difficulty-aware, mathematical reasoning, RLVR, data augmentation

一句话总结¶

揭示GRPO的优势函数（std归一化）导致更新幅度在中等难度题目处最大、对难题和易题均隐式抑制的问题，提出MathForge框架——DGPO（用MAD替换std实现难度均衡 + softmax难度加权）+ MQR（添加故事背景/抽象术语/嵌套子问题三方面改写增加难度但保留原答案），在Qwen2.5-Math-7B上在6个数学推理benchmark上平均超GRPO +4.56%。

研究背景与动机¶

领域现状：RLVR（验证奖励强化学习）已成为提升LLM数学推理能力的主流范式（DeepSeek-R1等），GRPO是其中最具代表性的算法——通过组内相对优势估计替代价值网络。

现有痛点：

算法层面：GRPO的优势函数 \(\hat{A}_{GR,i} = \frac{r_i - \text{mean}}{\text{std}}\) 使用标准差归一化，导致更新幅度 \(\sum|A|\) 与准确率 \(p\) 的关系为 \(2G\sqrt{p(1-p)}\)——在 \(p=0.5\) 时最大，而在 \(p\) 接近0或1时衰减。这意味着更难的题目（\(p\) 小但非零）的更新幅度小于中等难度题目
数据层面：现有RLVR数据增强（如Liang et al. 2025）主要做题目改述提升多样性，未系统性增加题目难度。缺乏挑战性的训练数据限制了模型推理能力的上界

核心矛盾：难但可解的题目是最理想的训练材料（暴露模型弱点且有正确答案可学），但GRPO恰恰在这类题目上更新幅度最小。

本文切入角度：在算法端和数据端同时解决"忽视难题"问题——DGPO修正GRPO的内在失衡并加权难题，MQR生成更难的训练题目。

方法详解¶

整体框架¶

原始训练数据 → MQR（三方面改写增加难度，保留原答案）→ 增强数据集（原始+改写）→ DGPO训练（MAD归一化 + 难度加权 + 有效token平均）→ 增强后的策略模型。MathForge形成协同循环：MQR扩展数据难度前沿，DGPO高效从增强数据中学习。

关键设计¶

DGPO：难度感知群组策略优化
- 难度均衡优势估计 (DGAE)：将GRPO的标准差归一化替换为均值绝对偏差（MAD）归一化：\(\hat{A}_{DG,i} = \frac{r_i - \text{mean}(\{r_i\})}{\text{MAD}(\{r_i\})}\)，其中 \(\text{MAD} = \frac{1}{G}\sum|r_i - \text{mean}|\)
- 定理2证明：DGAE下单题的总更新幅度 \(\sum|\hat{A}_{DG,i}| = G\)，为常数，不随难度变化——彻底消除了GRPO中 \(2G\sqrt{p(1-p)}\) 的钟形偏差。且无需二值奖励假设
- 难度感知问题级加权 (DQW)：在均衡基础上进一步通过softmax加权优先更新难题：\(\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum\exp(D_s/T)}\)，其中 \(D_s = -\text{mean}(\{r_{si}\})\) 为难度度量，\(T=2.0\) 为温度
- 有效token级平均：仅在有效查询（非全对或全错）上计算token级平均损失，防止梯度波动
MQR：多方面问题改写
- 使用大推理模型（默认o3）对训练题目进行三种改写：
  - 添加故事背景：嵌入叙事噪声，挑战模型从噪声中提取关键数学信息
  - 引入抽象术语：抽象化具体概念，挑战模型理解抽象数学概念
  - 嵌套子问题：增加推理步骤和跨领域知识要求
- 关键约束：所有改写必须保留原始gold answer，免去答案重生成的开销
- 设计动机：数学推理需要多种技能，系统性增加题目难度可推动模型性能边界

损失函数 / 训练策略¶

DGPO目标函数：

\[\mathcal{J}_{DGPO}(\theta) = \frac{1}{\sum_{s=1}^{B_v}\sum_{i=1}^{G}|o_{si}|}\sum_{s=1}^{B_v}\lambda_s\sum_{i=1}^{G}\sum_{t=1}^{|o_{si}|}\min[I_{sit}\hat{A}_{DG,si}, \text{clip}(I_{sit}, 1-\varepsilon, 1+\varepsilon)\hat{A}_{DG,si}]\]

使用纯准确率奖励（\(r \in \{0,1\}\)），无KL散度
8×NVIDIA H20 GPU，基于Open-R1代码库
DQW温度 \(T=2.0\)（保证batch内最大/最小权重比 \(\leq e^{0.5} \approx 1.65\)）

实验关键数据¶

主实验¶

Qwen2.5-Math-7B在MATH数据集训练，6个benchmark平均表现：

方法	AIME24	AIME25	AMC23	MATH500	Minerva	Olympiad	Avg.	\(\Delta_{GRPO}\)
Base	12.19	4.79	35.23	48.60	15.07	16.33	22.04	-
GRPO	20.94	8.44	58.98	72.20	27.76	37.33	37.61	-
Dr.GRPO	21.04	8.23	58.59	72.05	28.58	35.89	37.40	-0.21
DAPO	21.25	8.75	58.20	72.70	29.50	37.22	37.94	+0.33
GRPO-AD	21.56	9.48	59.06	73.25	29.14	37.07	38.26	+0.65
DGPO	23.85	10.21	61.02	74.25	31.07	38.33	39.79	+2.18
MQR	25.00	11.77	59.38	77.85	31.43	40.81	41.04	+3.43
MathForge	24.58	12.60	59.84	79.95	33.36	42.67	42.17	+4.56

消融实验¶

DGPO组件消融（Qwen2.5-Math-7B）：

设置	Avg.	\(\Delta_{GRPO}\)
GRPO	37.61	-
+有效token平均	37.71	+0.10
+DGAE	38.65	+1.04
+DGAE+DQW (full DGPO)	39.79	+2.18

DQW温度敏感性：\(T=1.0\) → 39.03, \(T=2.0\) → 39.79, \(T=5.0\) → 39.53, \(T=10.0\) → 39.27

跨模型泛化（均超GRPO）：Qwen2.5-Math-1.5B +4.45, Qwen2.5-3B +3.54, DeepSeek-Math-7B +2.86

关键发现¶

DGAE和DQW分别贡献+0.94%和+1.14%，两者互补
MathForge在所有测试模型（4种）上均一致性超过GRPO，证明模型无关性
DGPO可与其他方法叠加：+GPG→+0.99, +DAPO→+1.97, +GSPO→+1.61
DGPO训练的模型输出更简洁（Fig. 1b），说明学会了更高效的推理路径

亮点与洞察¶

理论贡献扎实：定理1/2严格证明了GRPO更新幅度的钟形偏差和DGAE的常数均衡，数学推导清晰
"先均衡再加权"的两步设计（DGAE→DQW）比直接在GRPO上做难度加权（如GRPO-AD）更有效
MQR的"保留答案"约束是关键设计：既增加难度又免去答案重生成，大幅降低数据增强成本
DGPO+MQR的协同效应（42.17 > 39.79 + 41.04 - 37.61），而非简单加和

局限与展望¶

MQR依赖大推理模型（o3）作为改写器，增加数据增强成本
仅在数学推理领域验证，未测试代码生成/逻辑推理等其他推理任务
DQW的温度超参数需要调优（虽然\(T=2.0\)在所有实验中表现稳健）
MAD归一化在奖励分布对称时等价于std归一化，理论优势在非二值奖励下更显著但未充分验证

评分¶

新颖性: ⭐⭐⭐⭐ 理论洞察（定理1/2）深刻，MAD替换std的修正虽简单但有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 6个benchmark×4个模型×多组消融+动态分析+叠加实验
写作质量: ⭐⭐⭐⭐ 理论与实验结合紧密，消融全面
价值: ⭐⭐⭐⭐ 对RLVR训练的通用优化，DGPO可直接叠加到现有管线中