Beyond English-Centric Training: How Reinforcement Learning Improves Cross-Lingual Reasoning in LLMs¶
会议: ICLR2026
OpenReview: hdrG6SaTcA
代码: 待确认
领域: LLM推理 / 跨语言泛化 / 强化学习
关键词: 跨语言推理, RL vs SFT, GRPO, 多语言泛化, 语言不一致性
一句话总结¶
作者用 Qwen2.5-3B-Base 做受控对比,首次系统证明:在多语言推理上 RL(GRPO)比 SFT 拥有显著更强的跨语言泛化,而且反直觉地——用非英语(德语/中文)数据做 RL,效果还优于用英语数据,并从「推理时语言不一致、采样探索、语义空间漂移」三个角度给出机制解释。
研究背景与动机¶
领域现状:大模型的复杂推理能力近两年靠 RL(尤其是 GRPO 这类以最终答案正确性为奖励的方法)取得飞跃,而多语言推理要求模型既能理解不同语言的语义、又能在各种语言环境下做逻辑推断。现有的多语言推理增强工作大多停留在 prompting 层面(如"先翻译成英语再求解"的 translate-then-solve),很少有人去问:不同的训练范式(SFT vs RL)本身,会怎样影响模型内在的跨语言泛化能力?
现有痛点:SFT 通过模仿高质量 CoT 轨迹来提升推理,但它的本质是"记忆并复述给定的专家轨迹",容易过拟合到训练数据的语言和模式——在某种语言上学到的推理能力,换一种语言就用不上了。而 RL 虽然在英语数学/逻辑推理上表现出更强的跨任务泛化,但它在跨语言维度上到底是否、以及为什么更优,此前是空白。
核心矛盾:绝大多数 LLM 的预训练语料是英语主导的(English-centric),常规直觉是"用英语数据做 RL 最能榨干模型潜力"。但如果 RL 学到的是一种不依赖具体语言的鲁棒推理策略,那训练语言的选择就可能完全不按这个直觉走——这正是本文要验证的张力。
本文目标:拆成两个可验证的子问题——(1) 同一个 base 模型、同样的训练数据,RL 和 SFT 谁的跨语言泛化更强?(2) 训练数据用什么语言最好,是不是英语?并进一步追问"为什么"。
切入角度:固定 base 模型(Qwen2.5-3B-Base)和数据来源(GSM8K/LUFFY 的多语言翻译版),只变动"训练范式"和"训练语言"这两个变量,做一次干净的受控实验;再用三组机制探针(probe)去解释观察到的现象。
核心 idea:这是一篇实证分析(empirical study)论文——它的贡献不是提出新方法,而是用严格对照实验给出两个反直觉结论(RL≫SFT 的跨语言泛化、非英语 RL 优于英语 RL),并把背后的机制归因到"推理时语言不一致 + 采样探索 + 语义空间最小漂移"三件事。
方法详解¶
整体框架¶
本文不是一个新模型,而是一套"训练—评测—归因"的研究设计。整体分三层:第一层固定 base 模型与数据来源,只对照 SFT 与 RL(GRPO)两种范式、以及英语/中文/德语三种训练语言,跑出多语言推理基准上的准确率;第二层用一个归一化的泛化分数 Gen 把"模型把每种语言的提升潜力榨取了多少"量化出来,从而得到两个核心发现;第三层用三组机制探针去解释发现背后的原因。
具体地,训练数据是 GSM8K(每语言 8K 条)和 LUFFY(每语言 45K 条)经 Qwen3-30B-A3B 翻译、再用 DeepSeek-V3 校验质量后的多语言版本。SFT 在 LlamaFactory 上做全参微调,RL 用 verl 平台跑 GRPO(答案用 \boxed{} 包裹、按最终答案正确性给奖励)。评测覆盖四类推理任务:数学(MGSM / MMath500 / MAIME2024)、常识(MMLU-ProX-Lite)、科学(MGPQA-D)、逻辑(Multilingual LogiQA),外加指令跟随(M-ifEval),横跨英、中、德、西、法、日、俄、泰、斯瓦希里、孟加拉共 10 种语言。结论还在 SmolLM3-3B-Base、Qwen2.5-7B-Base 上复现,排除"只是某个模型的偶然"。
关键设计¶
1. 受控对照设计:把"范式"和"训练语言"分离成两个独立变量
要回答"RL 比 SFT 强在哪、训练语言该选谁",最大的陷阱是混淆变量——如果 base 模型、数据来源、数据量不一致,结论就不可信。本文把所有其他因素钉死:同一个 Qwen2.5-3B-Base、同一批由 GSM8K/LUFFY 翻译得到、且过了质量校验的平行语料、同样 3 个 epoch、全参微调,唯一变动的就是"用 SFT 还是 RL"以及"训练语言是 En/Zh/De"。这样得到的差异才能干净地归因。为保证 RL 各设置公平,GRPO 也统一超参:学习率 \(1\times10^{-6}\)、rollout batch 512、采样温度 1.0、KL 系数 0.001。正是这套设计让"非英语 RL 反而更好"这种反直觉结论站得住——因为 SFT 在同一组语言上几乎没有这种差异(Avg 在 46.3%~47.6% 之间波动,落在统计噪声内),从而把"数据质量差异"这个备择解释排除掉了。
2. 泛化分数 Gen:用"剩余可提升空间"归一化,避免被高基线语言带偏
不同语言的 base 准确率天差地别(英语 63.4%,孟加拉只有 1.2%),如果直接看"提升了多少绝对点数",低基线语言天然占便宜、高基线语言天然吃亏,没法横向比较"模型把每种语言的潜力榨取了多少"。作者定义泛化分数:
分母 \(1-\text{Acc}(M_{\text{base}}, l)\) 是该语言"还能涨多少"的上限,分子是实际涨幅,比值就是"把剩余空间填满了百分之几",再对所有评测语言取平均。这个指标让"RL(De) 的 Gen=60.4 远超 SFT(De) 的 19.3"这种比较有了公平的尺子。
3. 机制探针之一——语言一致性:用 prompt/reward 强行约束语言,看性能怎么塌
作者观察到一个关键现象:用德语数据做 RL 后,模型在解德语题时并不老老实实用德语思考,而是自发切到英语或中英德混合来推理(Table 6 里 RL(Zh)、RL(De) 在训练语言上的一致性直接是 0.0%)。于是提出假设:这种"语言不一致"正是跨语言泛化的来源。验证方式有两种——(a) 用 prompt 强制模型只用某语言;(b) 在 RL 训练里加一个语言一致性奖励 \(r_{\text{overall}} = 0.5\,r_{\text{acc}} + 0.5\,r_{\text{consistency}}\)(用 langid 检测输出主语言,匹配给正奖励、否则惩罚)。结果:越强制一致、性能越差——RL(De) 从 61.4% 依次掉到 60.5%(prompt)、52.0%(prompt+reward)。这说明把模型锁死在单一语言,会切断它访问预训练里建立的、更鲁棒的多语言推理模块。一个值得注意的细节:允许模型自由选择语言(纯 RL)比"鼓励不一致"还要好,说明不一致是关键、但"自由探索不被约束"同样重要。
4. 机制探针之二、之三——采样探索与语义漂移:从"训练动力学"和"表示几何"两侧补证
第二个探针引入 RFT(拒绝采样微调)作为介于 SFT 和完整 RL 之间的中间态:它从 RL 后的模型采样多次、只拿答对的样本回去微调,比 SFT 更 on-policy。性能呈清晰阶梯——SFT 46.3% → RFT 66.8% → RL 71.5%,说明"模型自己探索解题路径"是提升关键;RFT 数据更贴合模型分布,而完整 RL 还多了在线、含正负样本的持续采样,超越了单纯模仿。作者进一步用困惑度(PPL)和自相似度(采样响应间的 BLEU)解释"为什么德语数据更好":德语题 PPL 最高(1.414)、自相似度最低(0.425),即模型面对德语不确定性更大,这种不确定性恰恰在 RL 探索阶段逼模型跳出单语言约束、去试混合语言或其主导语言(英语)的推理路径,无意中激活了更强的跨语言泛化。第三个探针看表示几何:取末层隐状态、PCA 投影后算漂移向量 \(h_{\text{diff}} = h_{\text{RL}} - h_{\text{Base}}\),发现 RL-De 的分布最集中(偏离 base 最小)、RL-En 更分散,且这个"漂移越小、泛化越强"的排序与准确率排序一致;加语言一致性约束会让漂移变大、性能同步下降。结论是:预训练已经建立了通用的多语言推理结构,漂移越小越能保住这套结构,所以 RL 的"语言不一致"反而通过保留预训练结构、悖论式地增强了跨语言迁移。
实验关键数据¶
主实验¶
MGSM 上 Qwen2.5-3B-Base 的对照(Avg=10 语言平均准确率,Gen=泛化分数):
| 训练设置 | En | Zh | De | Avg | Gen |
|---|---|---|---|---|---|
| Base | 63.4 | 48.3 | 33.5 | 31.8 | 0.0 |
| SFT (En) | 64.7 | 54.5 | 50.7 | 45.2 | 18.1 |
| RL (En) | 85.8 | 72.1 | 70.8 | 62.7 | 49.1 |
| SFT (Zh) | 65.7 | 58.7 | 48.4 | 46.9 | 20.4 |
| RL (Zh) | 86.1 | 76.3 | 74.2 | 66.0 | 52.6 |
| SFT (De) | 63.9 | 54.2 | 57.5 | 46.3 | 19.3 |
| RL (De) | 91.0 | 77.6 | 80.5 | 71.5 | 60.4 |
两点直接读出来:① 同样训练语言下,RL 全面碾压 SFT,平均高出 +17.5~+25.2 点(如 RL(De) 71.5 vs SFT(De) 46.3);② 非英语 RL 优于英语 RL——RL(De) 71.5 > RL(En) 62.7,德语优势 +8.8 点,而 SFT 各训练语言间几乎不动(46.3~47.6,落在噪声里)。这一对照(RL 有差异、SFT 没差异)正是排除"数据质量"解释的关键。
消融 / 分析实验¶
| 配置 | 关键指标(MGSM Avg) | 说明 |
|---|---|---|
| RL (De) 完整 | 71.5 | 自由选语言,最强 |
| RL (De) + 一致性 prompt | 60.5 | 强制用德语,掉点 |
| RL (De) + 一致性 prompt+reward | 52.0 | 进一步强制,掉得更狠 |
| SFT → RFT → RL(德语) | 46.3 → 66.8 → 71.5 | 探索程度递增、性能阶梯上升 |
| SFT+RL (De) 冷启动 | 52.6 | 反而不如直接 RL(De) 71.5 |
| RL (Mix 三语混合) | 68.1 | 不如单用德语 RL(De) 71.5 |
关键发现¶
- 强制语言一致 = 砍泛化:把 RL 模型锁在训练语言上推理会显著掉点(RL(De) 61.4→52.0),而无约束 RL 在训练语言上的一致性竟是 0.0%——模型自发跨语言混合思考才是它强的原因。
- 采样探索是 RL 优于 SFT 的根:Base<SFT<RFT<RL 的严格阶梯说明,越靠近"模型自己采样、在线优化",泛化越强;纯模仿专家轨迹(SFT)天花板最低。
- 德语为何最好:德语题对模型不确定性最大(PPL 1.414、自相似度 0.425 最低),逼出更多样的探索路径;同时 RL-De 的表示漂移最小,保住了预训练的通用多语言推理结构。
- 冷启动反而有害:先 SFT 再 RL(cold-start)不如直接 RL,作者推测 SFT 会让模型过早收敛到特定语言模式/局部最优,限制了 RL 的探索空间。
- 跨规模/跨模型稳健:SmolLM3-3B、Qwen2.5-7B 上两个发现都复现,RL(De) 仍是最高(7B 趋势与 3B 高度一致)。
亮点与洞察¶
- "语言不一致是特性不是 bug"这个反转最让人啊哈:直觉上我们会想让模型"用什么语言提问就用什么语言回答",本文却用一致性奖励做了个负向消融,证明强制一致会切断模型访问预训练里更强推理回路的通道——一个漂亮的"反着做来证明因果"的实验设计。
- 三探针互相印证形成闭环:语言不一致(行为层)、采样探索(训练动力学层)、语义最小漂移(表示几何层)从三个不同切面指向同一结论"RL 通过保留预训练结构实现泛化",比单看准确率有说服力得多。
- 可迁移的实践启发:如果你在做小模型的多语言推理 post-training,本文的直接建议是——优先用 RL 而非 SFT,且别默认用英语数据,挑一个对模型不确定性更高、语言距离更远的源语言(如德语)可能更划算;不要画蛇添足地加语言一致性约束,也别先 SFT 冷启动。
- Gen 指标本身可复用:用"剩余可提升空间"归一化的泛化分数,适合任何 base 准确率差异极大的多语言/多任务评测,避免低基线语言虚高。
局限与展望¶
- 作者承认的局限:机制分析是"初步探索(preliminary)"——三个因素是相关性证据而非严格因果,语言不一致与泛化的负相关、漂移与性能的同序关系都还停留在观察层面。
- 规模与模型族偏窄:主结论建立在 3B 模型上,虽在 7B 和 SmolLM3 上复现,但都还是中小模型;更大规模、不同预训练语料配比的模型上是否仍成立(尤其"非英语优于英语"),需要更多验证。
- "德语最好"的解释可能过拟合:把德语优势归因于"语法复杂、语言距离大、不确定性高"是合理但事后的叙事;换一组语言、换一个 base 模型,最优源语言是否还是德语并不清楚,缺少一个能事先预测"哪种源语言最好"的量化判据。
- 任务局限于推理:结论是否能推广到非推理类任务(如开放生成、对话)未验证;奖励信号都是可验证的最终答案正确性,软奖励/主观任务上是否还有同样的语言不一致红利存疑。
- 改进思路:可以把"源语言不确定性(PPL/自相似度)"做成一个选源语言的指标,在训练前就挑出最能激发探索的语言;或显式设计奖励去鼓励"受控的语言混合",在保留泛化的同时不至于完全失控。
相关工作与启发¶
- vs translate-then-solve(Qin et al. 2023 / Huang et al. 2023):他们靠 prompting 把非英语题先翻成英语再求解,改善的是推理时的外部流程、依赖闭源强模型;本文不动推理流程,而是研究训练范式如何塑造模型内在的跨语言能力,发现 RL 能让模型不依赖特定语言地学会推理。
- vs SFT-based 推理蒸馏(MAmmoTH/MetaMath 等用大教师生成 CoT):那条线的本质是模仿专家轨迹,本文指出这种"记忆专家轨迹"恰恰是跨语言泛化的瓶颈——会把模型困在训练语言的思维模式里;RL 的探索式优化才跳出了模仿。
- vs 英语中心的 RL 推理工作(多数 RL-for-reasoning 默认用英语数据):本文是第一个系统证明"非英语数据做 RL 反而更优"的工作,直接挑战了 English-centric 训练的默认假设。
- vs 跨任务泛化研究(Huan et al. 2025 等发现 RL 跨任务泛化好于 SFT):本文把"RL 泛化更强"这一结论从跨任务维度拓展到了跨语言维度,并补上了多语言场景特有的机制(语言不一致、源语言不确定性)。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统对照 RL vs SFT 的跨语言推理泛化,且"非英语 RL 更优"的反直觉发现有真正的认知增量。
- 实验充分度: ⭐⭐⭐⭐ 10 语言 × 多任务 × 3 base 模型 + 三组机制探针,对照干净;扣分在机制分析自承"初步"、规模偏中小。
- 写作质量: ⭐⭐⭐⭐ 逻辑链清晰(两发现→三机制),用反向消融证因果的设计很漂亮。
- 价值: ⭐⭐⭐⭐ 给多语言推理 post-training 提供了"用 RL、选非英语源语言、别强制语言一致"的可操作指导。