GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO¶

会议: ACL 2026 Findings
arXiv: 2601.06767
代码: 网站
领域: 低资源语言推理 / 数学推理
关键词: 孟加拉语数学推理, 课程学习, GRPO冷启动, 难度感知, 低资源语言

一句话总结¶

本文提出 GanitLLM，首个真正用孟加拉语进行推理（而非翻译或用英语推理）的数学推理模型，构建了难度标注的孟加拉语数学数据集 Ganit，并提出 Curriculum-GRPO 解决低资源语言 GRPO 训练中的冷启动问题，4B 模型在 Bn-MGSM 上提升 8 个准确率百分点，孟加拉语推理 token 从 14% 提升至 88%。

研究背景与动机¶

领域现状：LLM 在高资源语言（英语）的数学推理上取得显著进展（DeepSeek-R1、OpenAI o1），GRPO 等 RL 方法已被证明可有效提升数学推理能力。然而，低资源语言的推理进展严重滞后——孟加拉语是全球第七大语言，但现有 LLM 对孟加拉语数学问题要么用英语推理再翻译答案，要么直接失败。

现有痛点：(1) 现有 LLM 即使被显式要求用孟加拉语推理，仍倾向于用英语推理再输出孟加拉语答案——这对母语用户的可理解性极差；(2) 标准 GRPO 训练在低资源语言上遭遇"冷启动问题"——策略模型因目标语言能力不足无法在 rollout 组中生成任何正确解，导致零奖励、零梯度、无效训练；(3) 孟加拉语数学数据集质量参差不齐，缺乏难度标注和系统的质量过滤。

核心矛盾：GRPO 需要在 rollout 组中至少有部分正确答案来计算有效的优势值，但低资源语言模型在困难问题上完全无法生成正确答案——"需要先会才能学会"的鸡生蛋问题。

本文目标：构建高质量难度标注的孟加拉语数学数据集，设计解决冷启动问题的训练策略，使模型真正用孟加拉语推理而非英语。

切入角度：将问题分解为三步——(1) 数据：构建质量过滤+难度标注的数据集；(2) SFT：先教模型用孟加拉语推理（而非追求正确性）；(3) GRPO：用课程学习策略从易到难逐步训练。

核心 idea：通过 Curriculum-GRPO 按难度从易到难排列训练数据，确保模型在每个阶段都能生成部分正确答案以获得有效梯度，避免冷启动。

方法详解¶

整体框架¶

两阶段训练：(1) SFT 阶段——在 CoT-SFT 数据上教模型用孟加拉语逐步推理，关注语言而非正确性；(2) Curriculum-GRPO 阶段——在难度排序的 RL 数据上用 GRPO 训练，从简单问题开始逐步增加难度。数据集 Ganit 从 ~1.5M 原始样本经多阶段过滤和难度标注得到，其难度信号同时供 GRPO 阶段排课程；GRPO 的优化方向则由三维奖励函数控制，把「答对」和「用孟加拉语想」一起写进目标。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["原始语料<br/>9 个公开数据集 ~1.5M 样本"]
    subgraph GANIT["难度感知数据集 Ganit"]
        direction TB
        B["质量过滤<br/>准确率>95% + 规则过滤 + 去重"]
        C["难度标注<br/>Qwen3-32B 每题解 32 次<br/>按 pass@k 分 Easy/Medium/Hard/Olympiad"]
        D["基准去污染"]
        B --> C --> D
    end
    A --> GANIT
    GANIT -->|CoT-SFT 数据| E["SFT 阶段（脚手架）<br/>先教模型用孟加拉语逐步推理"]
    E --> F["Curriculum-GRPO 训练策略<br/>难度桶 60/40 采样，从易到难推进"]
    G["三维奖励函数<br/>R = 格式 + 正确性 + 孟加拉语占比"] --> F
    F --> H["GanitLLM<br/>真正用孟加拉语推理的数学模型"]

关键设计¶

1. 难度感知数据集 Ganit：把质量参差的原始语料炼成有难度刻度的训练集

现有孟加拉语数学数据集质量良莠不齐，而且标准评估集 Bn-MGSM / Bn-MSVAMP 对现代 LLM 太简单（77-86% 的题都是 Easy 级别），既训不出能力也测不出差异。Ganit 用一条多级流水线解决这两件事：先从 9 个公开数据集收集约 1.5M 样本，再做人工评估、只保留准确率 >95% 的数据集（降到约 1.1M），接着用规则过滤（仅保留数值解、孟加拉字符占比 >99%、排除选择题），并做模糊去重 + MinHash 去重。最关键的一步是难度标注：用 Qwen3-32B 对每道题独立生成 32 次解答，按 pass@k 把题目分成 Easy / Medium / Hard / Olympiad 四级——一道题被解对的次数越少，难度越高。最后对评估基准做去污染，保证测试题不泄漏进训练集。这样得到的不只是干净数据，而是带有连续难度信号的数据，为后面的课程训练提供刻度。

2. Curriculum-GRPO 训练策略：用从易到难的混合采样躲开低资源语言的冷启动

标准 GRPO 需要 rollout 组里至少出现部分正确答案才能算出有效优势，但孟加拉语弱模型在难题上一道都解不对，就会零奖励、零梯度、空转——这就是冷启动。Curriculum-GRPO 复用上一步的细粒度难度信号（1-32 的正确生成次数）：把题目分进难度桶，每个训练批次 60% 取自当前桶、40% 从其余 31 个桶各取 3 个，再按主桶难度从易到难排序推进。这套 60/40 的设计同时照顾三件事——模型先在简单题上攒到正确经验从而拿到非零梯度；混入的 40% 杂样本防止只刷一个难度导致遗忘；混合比例本身在「课程信号够强」和「样本够多样」之间取平衡。对比之下，100% 严格按难度的全排序会让模型早期在简单题上过拟合，而完全随机打乱又会让难题过早出现、直接触发冷启动。

3. 三维奖励函数：把「用孟加拉语推理」直接写进奖励，而不只奖励答对

传统 GRPO 只看最终答案对不对，于是模型学会一条捷径——用英语推理、最后翻译出孟加拉语答案，对母语用户毫无可读性。本文把奖励拆成三项相加：

\[R = R_{format} + R_{correctness} + R_{bengali}\]

其中 \(R_{format} \in \{0,1\}\) 检查输出格式是否合规，\(R_{correctness} \in \{0,1,2\}\) 奖励答案正确、且用孟加拉语作答额外加一分，\(R_{bengali} \in \{0,1\}\) 在推理过程中孟加拉语 token 占比 ≥80% 时给奖励。80% 而非 100% 的阈值留出了数学符号、公式这些语言无关成分的空间。三项合力把「答对」和「用目标语言想」绑在一起优化，正是把基座模型 14% 的孟加拉语推理比例拉到 88% 的直接动力。

损失函数 / 训练策略¶

SFT 阶段使用标准交叉熵损失。GRPO 阶段使用标准 GRPO 损失 + 超长过滤器 + token 级损失。基座模型 Qwen3-4B。

实验关键数据¶

主实验¶

模型	Bn-MGSM	Bn-MSVAMP	孟加拉语%	平均长度(词)
Qwen3-4B (基座)	69	78	14%	943
+ SFT only	73	81	82%	210
+ Curriculum-GRPO	77	84	88%	193
Qwen3-8B	76	83	18%	876
GPT-5-mini	82	88	45%	520

消融实验¶

训练策略	Bn-MGSM	冷启动率
随机打乱 GRPO	72	35%
全排序（易→难）	74	12%
Curriculum-GRPO (60/40)	77	5%

关键发现¶

Curriculum-GRPO 将冷启动率从 35% 降至 5%，是解决低资源语言 GRPO 训练的关键
SFT 阶段对语言切换至关重要——仅靠 GRPO 的孟加拉语奖励无法将推理语言从英语转为孟加拉语
4B 模型通过 Curriculum-GRPO 达到了 8B 基座模型的准确率水平，同时推理 token 减少 79.5%
Ganit-Dev 的难度分布远比标准评估集均衡（各级约 21-29% vs 标准集 77-86% 是 Easy），提供了更有区分度的评估

亮点与洞察¶

"冷启动问题"的识别和解决对所有低资源语言的 RL 训练都有参考价值
三维奖励函数的设计优雅——不仅优化正确性，还显式激励目标语言推理
80% 的孟加拉语阈值设计考虑了数学符号的语言无关性，体现了领域理解

局限与展望¶

仅在 4B 模型上验证，更大模型上冷启动问题可能不同
Curriculum 的 60/40 比例是经验调优的，缺乏理论指导
难度标签依赖于 Qwen3-32B 的能力，随评估模型能力变化可能需要更新
仅在数学推理上验证，对逻辑推理、常识推理等其他推理任务的适用性未知

评分¶

新颖性: ⭐⭐⭐⭐ Curriculum-GRPO 和冷启动问题的识别是新颖的贡献
实验充分度: ⭐⭐⭐⭐ 详细的消融+数据集质量分析+语言比例统计
写作质量: ⭐⭐⭐⭐ 问题定义清晰，数据构建过程详尽
价值: ⭐⭐⭐⭐ 对低资源语言 RL 训练提供了实用的解决方案