跳转至

Learning to Route Languages for Multilingual Policy Optimization

会议: ICML 2026
arXiv: 2605.25360
代码: https://github.com/Guochry/LRPO (有)
领域: 对齐RLHF / 多语言LLM / 在线策略优化
关键词: 多语言 RL, GRPO, 语言路由器, 多臂老虎机, 跨语言奖励校准

一句话总结

本文提出 LRPO(Language-Routed Policy Optimization),把"用哪个语言生成 rollout"当作可学习变量,用一个上下文 bandit 形式的语言路由器为每条训练样本在固定 rollout 预算下挑选最有信息量的语言组合,并通过离线估计 + 在线校准的跨语言相似度奖励把多语言 rollout 拉到同一个尺度上做 GRPO,在 Qwen/Llama/Gemma 三族骨干、五个多语言基准上稳定优于 GRPO 与各种 dominant-language 基线。

研究背景与动机

领域现状:现有把 LLM 推向多语言场景的 RL 流派主要有两条路线。一条是直接套用 GRPO(shao2024deepseekmath):对每条训练问题在原语言里采样一组 rollout、用 reward 模型打分、组内归一化后做策略更新;另一条是显式构造跨语言偏好对(MAPO/LIDR/MPO),把英文(或其它"主导语言")的回答当成天然更高质量的 anchor,让其他语言的回答去对齐它。

现有痛点:GRPO 路线把每个问题钉死在一种语言上,让"哪种语言能更准确地回答这个问题"完全交给模型内部的隐式机制,浪费了 LLM 在不同语言里编码的互补知识;主导语言路线则假设英文永远是更好的监督源,但这条假设在区域知识、文化语境强的问题上常常失效——比如关于"希腊礼节"的问题,阿拉伯语 rollout 反而比英文/中文 rollout 更接近正确答案。

核心矛盾:rollout 预算(每条问题 \(K\) 条采样)有限的前提下,"用哪些语言来采"本身就是一个需要在线决策的探索-利用问题,但现有方法要么完全不决策(单语),要么用一个固定且常常错的先验(英文优先)。

本文目标:在固定 \(K\) 个 rollout 的预算下,让模型自己学会"对哪种主题/区域的问题应该多采哪几种语言",并把跨语言的 rollout 组合到同一个 GRPO 框架里做策略更新。

切入角度:把 "语言选择" 显式建模为一个 contextual multi-armed bandit——每条问题有它的主题 \(t(x)\) 与可选区域 \(g(x)\) 作为上下文,每种语言是一只 arm,arm 的回报就是该语言在该上下文下产生的平均 GRPO 奖励。同时,跨语言相似度作为 reward 信号本身需要先校准,否则不同语言对之间的 raw similarity 量纲不一致会把组内偏好搅乱。

核心 idea:用一个轻量的"主题×语言 + 区域×语言"双矩阵路由器在线学习语言选择策略,用离线统计 + 在线校准把多语言相似度 reward 拉到同一尺度,再喂回 GRPO 做联合优化。

方法详解

LRPO 把传统 GRPO 的 "采样 → 打分 → 更新" 三段式扩展成四段式:路由器先决定本轮要用哪些语言、策略按指定语言生成 rollout、跨语言校准 reward、最后 GRPO 更新策略并按 EMA 更新路由器。

整体框架

  • 输入:训练问题 \(x\)(原语言 \(\ell_x\)、主题 \(t(x)\)、可选区域 \(g(x)\)),策略 \(\pi_\theta\),路由参数 \((\mathbf{A},\mathbf{B})\),rollout 预算 \(K\),on-policy 配额 \(K_{\text{on}}\)
  • 路由阶段:从主题矩阵 \(\mathbf{A}_{t(x)}\) 与(若存在)区域矩阵 \(\mathbf{B}_{g(x)}\) 合成 logits,经温度 \(\tau\) softmax 得到语言分布 \(p(\ell\mid x)\),先保留 \(K_{\text{on}}\) 个在 \(\ell_x\) 下采样(保 on-policy),剩余 \(K-K_{\text{on}}\) 个按 \(p\) 采样并叠加 \(\epsilon\)-greedy 保证最低探索。
  • rollout 阶段:按采到的 \(\{\ell_k\}\) 用语言 tag / target-language system prompt 引导 \(\pi_\theta\) 生成 \(\{y_k\}\)
  • 奖励阶段:用 mmBERT 算每个 rollout 与参考回答的跨语言语义相似度,再做语言对级别的均值或分位数校准,乘以"是否真的生成了目标语言"的指示器作为最终 reward。
  • 更新阶段:组内归一化后做 GRPO 梯度步;每 \(M\) 步把按 \((t,g,\ell)\) 桶聚合的平均 reward 用 EMA 写回 \(\mathbf{A},\mathbf{B}\)

关键设计

  1. 主题/区域双矩阵语言路由器(contextual bandit):

    • 功能:为每条问题在固定 rollout 预算下挑出一组最有信息量的语言。
    • 核心思路:用两个低秩 logits 矩阵—— \(\mathbf{A}\in\mathbb{R}^{T\times L}\)(主题×语言)和 \(\mathbf{B}\in\mathbb{R}^{G\times L}\)(区域×语言),分布为 \(p(\ell\mid x)\propto\exp\!\big((A_{t(x),\ell}+\mathbb{I}[g(x)\neq\varnothing]B_{g(x),\ell})/\tau\big)\);保留 \(K_{\text{on}}\) 个原语言 rollout 以维持 on-policy 性质,剩余位置按 \(p\) + \(\epsilon\)-greedy 采样;每 \(M\) 步把按 \((t,g,\ell)\) 桶累计的平均 reward \(\bar r_{t,g,\ell}\) 用 EMA 写回 \(\mathbf{A},\mathbf{B}\)\(A_{t,\ell}\leftarrow(1-\alpha)A_{t,\ell}+\alpha\bar r_{t,g,\ell}\)),同时对 \(\epsilon\)\(\tau\) 做 simulated annealing,前期重探索、后期重利用。
    • 设计动机:把"哪种语言产生的 rollout 对当前模型最有信息量"从隐式机制升级成可学习的上下文 bandit,避免固定 dominant-language 假设带来的 bias,并能自然处理"区域知识需要本地语言"这种结构(如希腊问题更适合希腊语,区域 logits 给出额外偏置)。
  2. 跨语言相似度奖励的离线估计 + 在线校准:

    • 功能:把 mmBERT 在不同语言对下量纲不一致的 raw similarity 校准成可在组内直接比较的 quality reward。
    • 核心思路:离线阶段,对每对语言 \(\langle\ell_i,\ell_j\rangle\) 收集三类回答对——语义等价对(上界对齐)、自然不匹配对、最难的硬负例——形成经验分布 \(\mathcal{S}_{\ell_i,\ell_j}\)。在线 RL 阶段,对每个 rollout \(y^{(\ell_j)}\) 与参考 \(z^{(\ell_i)}\)\(s=\mathrm{sim}(y,z)\) 后两种校准任选其一:均值校准 \(r^{\text{qual}}=s-\lambda(\mu_{\ell_i,\ell_j}-\mu_{\text{ref}})\),把每对语言的等价对均值拉到全局参考均值;或分位数校准 \(r^{\text{qual}}=\mathcal{Q}_{\ell_i,\ell_j}(s)\),把 raw 分数直接映射成跨语言可比的经验分位数。
    • 设计动机:raw similarity 在不同语言对上有系统偏差(比如中-英 等价对均值 \(\approx 0.85\)、中-阿 \(\approx 0.65\) 是常见现象),如果不校准,多语言 rollout 组内归一化时低资源语言的 rollout 永远被压低,路由器学到的"语言效用"也会被这种 measurement bias 污染,最终退化为单语 GRPO。
  3. 语言一致性门控 + GRPO 联合更新:

    • 功能:保证策略真的按路由器指定的语言输出,让"语言通道"对外可观测、对内能拿到学习信号。
    • 核心思路:用语言识别器算 \(r^{\text{lang}}(y_k)=\mathbb{I}[\mathrm{Lang}(y_k)=\ell_k]\),与 quality reward 相乘得到最终 reward \(r_k=r^{\text{qual}}_k\cdot r^{\text{lang}}_k\)——只要语言不对就把 reward 清零;再用 GRPO 目标在多语言 rollout 组内做归一化与策略梯度更新,路由器更新延后 \(M\) 步、用最近窗口的 reward 桶均值做 EMA,避免单步噪声把路由器打偏。
    • 设计动机:如果不加 \(r^{\text{lang}}\),策略很容易学会"不管让我用哪种语言我都用英文回答",从而绕过路由器;乘性门控把"语言遵从"变成 hard constraint,同时也让路由器看到的 \(\bar r_{t,g,\ell}\) 真实反映了"在 \(\ell\) 下生成对该主题的有用程度"。

损失函数 / 训练策略

策略侧沿用 GRPO 目标,在每个多语言 rollout 组内做 reward 归一化;路由侧不走梯度,按 EMA 更新 logits 矩阵,每 \(M\) 个策略步触发一次。训练数据用 HelpSteer3 + CARE 共 4,885 样本、覆盖 14 种语言;主题用 gpt-oss-120b 自动归到 6 类(区域知识、通用知识、聊天、推理、安全、翻译),与人工标注一致率 98%。

实验关键数据

主实验

五个多语言基准(CARE / CARE-pro / mGSM-v2 / Global-MMLU-Lite / Include-Lite),三种骨干。下表是 Qwen2.5-1.5b-it 上的代表性结果(mGSM-v2 平均分 + 整体 Overall 平均分)。

方法 mGSM-v2 Avg. Overall Avg.
Vanilla 24.87 28.64
DPO 27.02 29.33
MAPO 25.64 28.40
MPO 25.05 28.38
GRPO 32.33 30.42
LRPO (Ours) 38.25 32.15

在 Qwen2.5-1.5b 上 LRPO 把 mGSM-v2 从 24.87 推到 38.25(+13.38),Overall 比 GRPO 再提 +1.73;论文摘要给出的跨基准 seen-language 平均 LRPO 比 instruction-tuned 起点 +5.08、比 GRPO +2.85。在更强的 Gemma3-4b-it 上 Overall 仍能小幅领先(46.89 vs GRPO 46.67),说明改进不止来自小模型容易吃多语言信号。

消融实验

路由器变体 mGSM-v2 Avg. Overall Avg. 说明
Monolingual(只用原语言) 32.33 30.42 退化为 GRPO
Input-dominant(强偏原语言) 36.25 31.78 固定路由,偏 on-policy
EN-dominant(强偏英文) 37.89 模拟 MAPO 风格的主导语言
LRPO(可学习路由 + 校准) 38.25 32.15 完整模型

固定路由(无论偏输入语言还是偏英文)都不如可学习路由,且偏英文的 EN-dominant 变体在 mGSM-v2 上虽然接近 LRPO,但在区域知识强的 CARE 系列上明显落后——印证了"主导语言假设"在 region-grounded 任务上的失效。

关键发现

  • 路由器最大贡献:把每条问题从"单语"扩到"路由分配的几种语言"后,GRPO 组内对比能利用跨语言的互补知识,是 mGSM-v2 上 +5.92 提升(vs GRPO)的主要来源。
  • 跨语言校准不可少:若直接用 raw mmBERT 相似度做 reward,组内归一化会被语言对偏差污染,路由器会逐渐塌缩到"和参考语言相同"的那种语言,退化成 Monolingual 变体。
  • 区域矩阵 \(\mathbf{B}\) 对 CARE / Include-Lite 类区域问题的增益显著大于 mGSM-v2 等纯推理任务,对应"区域知识应由本地语言承载"的先验。

亮点与洞察

  • 把"语言选择"显式做成 contextual bandit 是个干净的形式化——传统多语言 RL 论文要么写死语言、要么默认英文优先,本文用 \(\mathbf{A}+\mathbb{I}\cdot\mathbf{B}\) 的低秩参数化让"主题 × 语言"和"区域 × 语言"两套先验都能在线学,几乎零额外算力开销但效果显著。
  • 跨语言相似度校准的离线 + 在线两段式很值得借鉴:任何用 embedding 相似度做 reward 的多模态/多语言 RLHF(图文、视频文本、跨域代码)都会撞到 raw similarity 量纲不一致的同一个问题,分位数校准 \(\mathcal{Q}_{\ell_i,\ell_j}(s)\) 是一种不依赖参数化校准模型、可即插即用的解决方案。
  • \(r^{\text{qual}}\cdot r^{\text{lang}}\) 的乘性门控很简洁地处理了"指定语言但模型偷换"的退化解,本质是把"语言条件"从软约束升级成硬约束,对未来"指定风格 / 指定格式 / 指定工具"的 RLHF 同样有借鉴价值。

局限与展望

  • 路由器是 tabular 的,主题数 \(T\) 与区域数 \(G\) 都靠粗分类(6 类主题)撑起来;当主题/区域更细粒度(数千类)时需要换成 embedding 参数化,否则数据稀疏会让 EMA 估计极不稳。
  • 跨语言校准依赖 mmBERT,离线 \(\mathcal{S}_{\ell_i,\ell_j}\) 的"语义等价对"质量直接决定校准上界;对于真正低资源、平行语料稀缺的语言对,校准本身就是一个 open problem。
  • 实验只覆盖到 Qwen/Llama/Gemma 的 1B–4B 量级,未在 30B+ 规模上验证;规模更大时 GRPO 本身已经能学到不少 cross-lingual transfer,LRPO 的相对增益可能收窄。
  • 训练数据仍是人工偏好集(HelpSteer3 + CARE),路由器学到的"语言效用"会被数据分布偏置——例如 CARE 中区域问题的语言覆盖直接决定 \(\mathbf{B}\) 能学到的范围,部署到全新区域时需要冷启动机制。

相关工作与启发

  • vs MAPO / LIDR / MPO:这几篇都假设英文 anchor 更可靠,用翻译或 log-odds 对齐把其他语言往英文上拉;LRPO 反过来——不预设主导语言,让数据告诉路由器哪种语言对哪类问题最有用,并通过校准 + 门控避免把"语言识别误差"和"内容质量误差"混在一个 reward 里。
  • vs GRPO:本文是 GRPO 在多语言场景的扩展版,rollout 组从单语扩到多语、reward 加入跨语言校准、再额外学一个语言路由器;从工程角度看几乎完全兼容现有 GRPO infra,可以作为多语言 SFT/RL pipeline 的低成本升级方案。
  • vs CCL/CoT 等推理时跨语言:那些方法在 inference 阶段做跨语言思维链拼接,本文则把跨语言信号下放到训练 reward,二者方向正交,理论上可以叠加。