Beyond English-Centric Training: How Reinforcement Learning Improves Cross-Lingual Reasoning in LLMs¶

会议: ICLR2026
OpenReview: hdrG6SaTcA
代码: 待确认
领域: LLM推理 / 跨语言泛化 / 强化学习
关键词: 跨语言推理, RL vs SFT, GRPO, 多语言泛化, 语言不一致性

一句话总结¶

作者用 Qwen2.5-3B-Base 做受控对比，首次系统证明：在多语言推理上 RL（GRPO）比 SFT 拥有显著更强的跨语言泛化，而且反直觉地——用非英语（德语/中文）数据做 RL，效果还优于用英语数据，并从「推理时语言不一致、采样探索、语义空间漂移」三个角度给出机制解释。

研究背景与动机¶

领域现状：大模型的复杂推理能力近两年靠 RL（尤其是 GRPO 这类以最终答案正确性为奖励的方法）取得飞跃，而多语言推理要求模型既能理解不同语言的语义、又能在各种语言环境下做逻辑推断。现有的多语言推理增强工作大多停留在 prompting 层面（如"先翻译成英语再求解"的 translate-then-solve），很少有人去问：不同的训练范式（SFT vs RL）本身，会怎样影响模型内在的跨语言泛化能力？

现有痛点：SFT 通过模仿高质量 CoT 轨迹来提升推理，但它的本质是"记忆并复述给定的专家轨迹"，容易过拟合到训练数据的语言和模式——在某种语言上学到的推理能力，换一种语言就用不上了。而 RL 虽然在英语数学/逻辑推理上表现出更强的跨任务泛化，但它在跨语言维度上到底是否、以及为什么更优，此前是空白。

核心矛盾：绝大多数 LLM 的预训练语料是英语主导的（English-centric），常规直觉是"用英语数据做 RL 最能榨干模型潜力"。但如果 RL 学到的是一种不依赖具体语言的鲁棒推理策略，那训练语言的选择就可能完全不按这个直觉走——这正是本文要验证的张力。

本文目标：拆成两个可验证的子问题——(1) 同一个 base 模型、同样的训练数据，RL 和 SFT 谁的跨语言泛化更强？(2) 训练数据用什么语言最好，是不是英语？并进一步追问"为什么"。

切入角度：固定 base 模型（Qwen2.5-3B-Base）和数据来源（GSM8K/LUFFY 的多语言翻译版），只变动"训练范式"和"训练语言"这两个变量，做一次干净的受控实验；再用三组机制探针（probe）去解释观察到的现象。

核心 idea：这是一篇实证分析（empirical study）论文——它的贡献不是提出新方法，而是用严格对照实验给出两个反直觉结论（RL≫SFT 的跨语言泛化、非英语 RL 优于英语 RL），并把背后的机制归因到"推理时语言不一致 + 采样探索 + 语义空间最小漂移"三件事。

方法详解¶

整体框架¶

本文不是一个新模型，而是一套"训练—评测—归因"的研究设计。整体分三层：第一层固定 base 模型与数据来源，只对照 SFT 与 RL（GRPO）两种范式、以及英语/中文/德语三种训练语言，跑出多语言推理基准上的准确率；第二层用一个归一化的泛化分数 Gen 把"模型把每种语言的提升潜力榨取了多少"量化出来，从而得到两个核心发现；第三层用三组机制探针去解释发现背后的原因。

具体地，训练数据是 GSM8K（每语言 8K 条）和 LUFFY（每语言 45K 条）经 Qwen3-30B-A3B 翻译、再用 DeepSeek-V3 校验质量后的多语言版本。SFT 在 LlamaFactory 上做全参微调，RL 用 verl 平台跑 GRPO（答案用 \boxed{} 包裹、按最终答案正确性给奖励）。评测覆盖四类推理任务：数学（MGSM / MMath500 / MAIME2024）、常识（MMLU-ProX-Lite）、科学（MGPQA-D）、逻辑（Multilingual LogiQA），外加指令跟随（M-ifEval），横跨英、中、德、西、法、日、俄、泰、斯瓦希里、孟加拉共 10 种语言。结论还在 SmolLM3-3B-Base、Qwen2.5-7B-Base 上复现，排除"只是某个模型的偶然"。

关键设计¶

1. 受控对照设计：把"范式"和"训练语言"分离成两个独立变量

要回答"RL 比 SFT 强在哪、训练语言该选谁"，最大的陷阱是混淆变量——如果 base 模型、数据来源、数据量不一致，结论就不可信。本文把所有其他因素钉死：同一个 Qwen2.5-3B-Base、同一批由 GSM8K/LUFFY 翻译得到、且过了质量校验的平行语料、同样 3 个 epoch、全参微调，唯一变动的就是"用 SFT 还是 RL"以及"训练语言是 En/Zh/De"。这样得到的差异才能干净地归因。为保证 RL 各设置公平，GRPO 也统一超参：学习率 \(1\times10^{-6}\)、rollout batch 512、采样温度 1.0、KL 系数 0.001。正是这套设计让"非英语 RL 反而更好"这种反直觉结论站得住——因为 SFT 在同一组语言上几乎没有这种差异（Avg 在 46.3%~47.6% 之间波动，落在统计噪声内），从而把"数据质量差异"这个备择解释排除掉了。

2. 泛化分数 Gen：用"剩余可提升空间"归一化，避免被高基线语言带偏

不同语言的 base 准确率天差地别（英语 63.4%，孟加拉只有 1.2%），如果直接看"提升了多少绝对点数"，低基线语言天然占便宜、高基线语言天然吃亏，没法横向比较"模型把每种语言的潜力榨取了多少"。作者定义泛化分数：

\[\text{Gen}(M_{\text{tuned}}) = \frac{1}{|L|}\sum_{l\in L} \frac{\text{Acc}(M_{\text{tuned}}, l) - \text{Acc}(M_{\text{base}}, l)}{1 - \text{Acc}(M_{\text{base}}, l)}\]

分母 \(1-\text{Acc}(M_{\text{base}}, l)\) 是该语言"还能涨多少"的上限，分子是实际涨幅，比值就是"把剩余空间填满了百分之几"，再对所有评测语言取平均。这个指标让"RL(De) 的 Gen=60.4 远超 SFT(De) 的 19.3"这种比较有了公平的尺子。

3. 机制探针之一——语言一致性：用 prompt/reward 强行约束语言，看性能怎么塌

作者观察到一个关键现象：用德语数据做 RL 后，模型在解德语题时并不老老实实用德语思考，而是自发切到英语或中英德混合来推理（Table 6 里 RL(Zh)、RL(De) 在训练语言上的一致性直接是 0.0%）。于是提出假设：这种"语言不一致"正是跨语言泛化的来源。验证方式有两种——(a) 用 prompt 强制模型只用某语言；(b) 在 RL 训练里加一个语言一致性奖励 \(r_{\text{overall}} = 0.5\,r_{\text{acc}} + 0.5\,r_{\text{consistency}}\)（用 langid 检测输出主语言，匹配给正奖励、否则惩罚）。结果：越强制一致、性能越差——RL(De) 从 61.4% 依次掉到 60.5%（prompt）、52.0%（prompt+reward）。这说明把模型锁死在单一语言，会切断它访问预训练里建立的、更鲁棒的多语言推理模块。一个值得注意的细节：允许模型自由选择语言（纯 RL）比"鼓励不一致"还要好，说明不一致是关键、但"自由探索不被约束"同样重要。

4. 机制探针之二、之三——采样探索与语义漂移：从"训练动力学"和"表示几何"两侧补证

第二个探针引入 RFT（拒绝采样微调）作为介于 SFT 和完整 RL 之间的中间态：它从 RL 后的模型采样多次、只拿答对的样本回去微调，比 SFT 更 on-policy。性能呈清晰阶梯——SFT 46.3% → RFT 66.8% → RL 71.5%，说明"模型自己探索解题路径"是提升关键；RFT 数据更贴合模型分布，而完整 RL 还多了在线、含正负样本的持续采样，超越了单纯模仿。作者进一步用困惑度（PPL）和自相似度（采样响应间的 BLEU）解释"为什么德语数据更好"：德语题 PPL 最高（1.414）、自相似度最低（0.425），即模型面对德语不确定性更大，这种不确定性恰恰在 RL 探索阶段逼模型跳出单语言约束、去试混合语言或其主导语言（英语）的推理路径，无意中激活了更强的跨语言泛化。第三个探针看表示几何：取末层隐状态、PCA 投影后算漂移向量 \(h_{\text{diff}} = h_{\text{RL}} - h_{\text{Base}}\)，发现 RL-De 的分布最集中（偏离 base 最小）、RL-En 更分散，且这个"漂移越小、泛化越强"的排序与准确率排序一致；加语言一致性约束会让漂移变大、性能同步下降。结论是：预训练已经建立了通用的多语言推理结构，漂移越小越能保住这套结构，所以 RL 的"语言不一致"反而通过保留预训练结构、悖论式地增强了跨语言迁移。

实验关键数据¶

主实验¶

MGSM 上 Qwen2.5-3B-Base 的对照（Avg=10 语言平均准确率，Gen=泛化分数）：

训练设置	En	Zh	De	Avg	Gen
Base	63.4	48.3	33.5	31.8	0.0
SFT (En)	64.7	54.5	50.7	45.2	18.1
RL (En)	85.8	72.1	70.8	62.7	49.1
SFT (Zh)	65.7	58.7	48.4	46.9	20.4
RL (Zh)	86.1	76.3	74.2	66.0	52.6
SFT (De)	63.9	54.2	57.5	46.3	19.3
RL (De)	91.0	77.6	80.5	71.5	60.4

两点直接读出来：① 同样训练语言下，RL 全面碾压 SFT，平均高出 +17.5~+25.2 点（如 RL(De) 71.5 vs SFT(De) 46.3）；② 非英语 RL 优于英语 RL——RL(De) 71.5 > RL(En) 62.7，德语优势 +8.8 点，而 SFT 各训练语言间几乎不动（46.3~47.6，落在噪声里）。这一对照（RL 有差异、SFT 没差异）正是排除"数据质量"解释的关键。

消融 / 分析实验¶

配置	关键指标（MGSM Avg）	说明
RL (De) 完整	71.5	自由选语言，最强
RL (De) + 一致性 prompt	60.5	强制用德语，掉点
RL (De) + 一致性 prompt+reward	52.0	进一步强制，掉得更狠
SFT → RFT → RL（德语）	46.3 → 66.8 → 71.5	探索程度递增、性能阶梯上升
SFT+RL (De) 冷启动	52.6	反而不如直接 RL(De) 71.5
RL (Mix 三语混合)	68.1	不如单用德语 RL(De) 71.5

关键发现¶

强制语言一致 = 砍泛化：把 RL 模型锁在训练语言上推理会显著掉点（RL(De) 61.4→52.0），而无约束 RL 在训练语言上的一致性竟是 0.0%——模型自发跨语言混合思考才是它强的原因。
采样探索是 RL 优于 SFT 的根：Base<SFT<RFT<RL 的严格阶梯说明，越靠近"模型自己采样、在线优化"，泛化越强；纯模仿专家轨迹（SFT）天花板最低。
德语为何最好：德语题对模型不确定性最大（PPL 1.414、自相似度 0.425 最低），逼出更多样的探索路径；同时 RL-De 的表示漂移最小，保住了预训练的通用多语言推理结构。
冷启动反而有害：先 SFT 再 RL（cold-start）不如直接 RL，作者推测 SFT 会让模型过早收敛到特定语言模式/局部最优，限制了 RL 的探索空间。
跨规模/跨模型稳健：SmolLM3-3B、Qwen2.5-7B 上两个发现都复现，RL(De) 仍是最高（7B 趋势与 3B 高度一致）。

亮点与洞察¶

"语言不一致是特性不是 bug"这个反转最让人啊哈：直觉上我们会想让模型"用什么语言提问就用什么语言回答"，本文却用一致性奖励做了个负向消融，证明强制一致会切断模型访问预训练里更强推理回路的通道——一个漂亮的"反着做来证明因果"的实验设计。
三探针互相印证形成闭环：语言不一致（行为层）、采样探索（训练动力学层）、语义最小漂移（表示几何层）从三个不同切面指向同一结论"RL 通过保留预训练结构实现泛化"，比单看准确率有说服力得多。
可迁移的实践启发：如果你在做小模型的多语言推理 post-training，本文的直接建议是——优先用 RL 而非 SFT，且别默认用英语数据，挑一个对模型不确定性更高、语言距离更远的源语言（如德语）可能更划算；不要画蛇添足地加语言一致性约束，也别先 SFT 冷启动。
Gen 指标本身可复用：用"剩余可提升空间"归一化的泛化分数，适合任何 base 准确率差异极大的多语言/多任务评测，避免低基线语言虚高。

局限与展望¶

作者承认的局限：机制分析是"初步探索（preliminary）"——三个因素是相关性证据而非严格因果，语言不一致与泛化的负相关、漂移与性能的同序关系都还停留在观察层面。
规模与模型族偏窄：主结论建立在 3B 模型上，虽在 7B 和 SmolLM3 上复现，但都还是中小模型；更大规模、不同预训练语料配比的模型上是否仍成立（尤其"非英语优于英语"），需要更多验证。
"德语最好"的解释可能过拟合：把德语优势归因于"语法复杂、语言距离大、不确定性高"是合理但事后的叙事；换一组语言、换一个 base 模型，最优源语言是否还是德语并不清楚，缺少一个能事先预测"哪种源语言最好"的量化判据。
任务局限于推理：结论是否能推广到非推理类任务（如开放生成、对话）未验证；奖励信号都是可验证的最终答案正确性，软奖励/主观任务上是否还有同样的语言不一致红利存疑。
改进思路：可以把"源语言不确定性（PPL/自相似度）"做成一个选源语言的指标，在训练前就挑出最能激发探索的语言；或显式设计奖励去鼓励"受控的语言混合"，在保留泛化的同时不至于完全失控。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统对照 RL vs SFT 的跨语言推理泛化，且"非英语 RL 更优"的反直觉发现有真正的认知增量。
实验充分度: ⭐⭐⭐⭐ 10 语言 × 多任务 × 3 base 模型 + 三组机制探针，对照干净；扣分在机制分析自承"初步"、规模偏中小。
写作质量: ⭐⭐⭐⭐ 逻辑链清晰（两发现→三机制），用反向消融证因果的设计很漂亮。
价值: ⭐⭐⭐⭐ 给多语言推理 post-training 提供了"用 RL、选非英语源语言、别强制语言一致"的可操作指导。