跳转至

RouteLMT: Learned Sample Routing for Hybrid LLM Translation Deployment

会议: ACL2026
arXiv: 2604.22520
代码: 未在论文中提供公开代码
领域: 机器翻译 / LLM部署 / 样本路由
关键词: 混合翻译部署, 边际收益预测, in-model router, 预算分配, XCOMET

一句话总结

RouteLMT 将混合 LLM 翻译中的路由问题形式化为固定大模型预算下的边际收益分配,并用小翻译模型最后 prompt token 的内部表示预测“大模型相对小模型能带来多少提升”,在四个翻译方向上比长度、质量估计和外部路由器获得更好的质量-预算 Pareto 前沿。

研究背景与动机

领域现状:大语言模型在机器翻译上表现很强,但生产部署不能把所有请求都交给大模型,因为成本、尾延迟和算力容量都会迅速失控。常见工程方案是 hybrid deployment:大部分请求由小模型处理,只有一部分高价值或高难度请求交给大模型。

现有痛点:路由策略看似简单,实际很容易错配预算。按长度、罕见词或熵等启发式方法路由,可能把大模型调用浪费在大模型也提升不大的样本上;按小模型绝对质量或困难度路由,也不一定等价于“大模型会有显著提升”。一些后路由 QE 方法还需要先让小模型解码再评分,增加延迟和计算。

核心矛盾:混合翻译的目标不是找“最难的句子”,而是在有限大模型调用预算下,找“大模型相对小模型提升最大”的句子。困难样本可能两个模型都翻不好,简单样本也可能因成语、缩写或代码切换而被大模型显著修正。

本文目标:作者希望提出一个轻量、无外部模型、无需小模型先生成译文的路由器,直接预测边际收益,并证明边际收益是预算化路由的正确优化信号。

切入角度:论文利用小翻译模型在 prompt prefill 阶段的最后 token hidden state。这个表示已经编码了源句、翻译方向和模型对输入的内部判断,因此可以用一个简单回归头预测大模型升级的收益。

核心 idea:与其预测小模型质量或输入难度,不如直接预测 g(x;d)=q_large(x;d)-q_small(x;d),然后把固定预算分配给预测收益最高的样本。

方法详解

RouteLMT 的方法核心是把路由视为一个预算分配问题。系统有小模型 M_s 和大模型 M_l。对每个源句和方向,小模型与大模型都有各自翻译质量分数。若大模型调用比例最多为 p,最优策略就是选择边际收益 g=q_l-q_s 最大的 top-p 样本。因此训练目标不应是绝对质量,而应是边际收益回归。

整体框架

训练阶段,作者先让小模型和大模型分别翻译训练样本,用 XCOMET-XXL 与人工参考计算两个质量分数,然后得到 gain label。RouteLMT 运行小翻译模型的一次 prefill,从翻译 prompt 的最后 token hidden state 提取表示,并通过轻量线性头预测 gain。模型使用 LoRA 适配小翻译模型,同时训练回归头。

推理阶段,系统不需要先生成小模型译文,也不需要外部 QE。对于离线批处理,按预测 gain 排序并选择 top-p 样本交给大模型;对于流式部署,可在 held-out traffic 上校准阈值 tau_p,让约 p 比例请求触发大模型。

关键设计

  1. 边际收益作为路由信号:

    • 功能:让路由目标与预算优化目标一致。
    • 核心思路:总质量可写成小模型质量常数项加上被路由样本的 gain 期望,因此在预算固定时,只需要最大化被选样本的 gain 总和。
    • 设计动机:难度、长度、罕见词和小模型绝对质量都只是 proxy,可能与真正的大模型增益不一致;gain 是直接面向部署目标的信号。
  2. in-model hypothesis-free router:

    • 功能:低开销地预测某个样本是否值得升级到大模型。
    • 核心思路:对源句和方向构造翻译 prompt,只跑小模型 prefill,不解码译文;取最后 prompt token hidden state,用线性头输出 g_hat。翻译方向写在 prompt 中,因此同一个路由器天然 direction-aware。
    • 设计动机:外部路由器忽略小翻译模型内部表示,后路由 QE 又要先生成小模型译文。RouteLMT 把路由器嵌入小模型,兼顾信号质量和延迟。
  3. 质量 guard 控制负收益风险:

    • 功能:减少大模型反而翻得更差的严重回归。
    • 核心思路:先按 gain 选择候选,再加入质量过滤器。Quality predict 使用 in-model 质量预测;Quality hypo 则先解码小模型译文并用质量评分器过滤。
    • 设计动机:gain ranking 能提高平均收益,但不能完全消除大模型错误消歧、过度意译等负收益样本;部署时可用额外 guard 换取更低风险。

损失函数 / 训练策略

训练标签来自 g(x;d)=Phi(x,y_l,y*)-Phi(x,y_s,y*),其中 Phi 为 XCOMET-XXL 参考质量评分。RouteLMT 用 MSE 损失回归 g_hat 与真实 gain。实验中小模型为 LMT-60-0.6B,大模型为 LMT-60-8B,LoRA 作用于小模型所有线性层,rank 为 8,alpha 为 32。评估方向包括 En-Zh、En-Ru、Zh-En、Ru-En。

实验关键数据

主实验

固定大模型预算 p=0.3 时,RouteLMT 在 Spearman、HitRate@p 和 MeanDelta@p 上都是实用路由器里最强。

方法 Spearman HitRate@p Avg. MeanDelta@p Avg. 说明
Gain Oracle 1.00 100.00 19.48 理想上界,按真实 gain 路由
Quality Oracle 0.67 75.10 16.73 说明质量上界也不等价于 gain 上界
Random 0.00 30.00 5.83 随机使用 30% 大模型预算
Length 0.24 46.39 9.35 最强启发式之一
Entropy 0.09 37.25 7.45 小模型不确定性不够可靠
sentinel-src-24 0.34 55.00 11.27 外部 QE/难度估计强基线
XLM-R-Delta 0.32 53.59 11.02 外部模型预测 gain
RouteLMT-Q 0.37 56.04 11.77 in-model 预测小模型质量
RouteLMT 0.40 57.33 12.13 in-model 预测边际收益,实用方法最佳

消融实验

配置 Severe loss MeanDelta@p 说明
Random 7.10% 5.83 随机路由收益低
Gain 8.19% 12.13 平均收益高,但仍有严重负收益
Gain + Quality predict 8.19% 12.24 预测质量 guard 改善有限
Gain + Quality hypo 5.69% 16.73 解码后质量 guard 明显降低严重损失并提高收益

关键发现

  • RouteLMT 的 MeanDelta@p 为 12.13,比最强启发式 Length 的 9.35 高 2.78,也超过 Random 的两倍,说明边际收益预测更贴近预算目标。
  • RouteLMT 优于 RouteLMT-Q,证明“预测大模型会带来多少提升”比“预测小模型翻得好不好”更有效。
  • in-model 方法优于 XLM-R 等外部路由器,说明小翻译模型内部 prompt 表示包含对翻译方向和输入难点的有用信号。
  • 严重负收益并未因学习路由完全消失,约 8-9% 仍存在;案例分析显示错误实体消歧和过度意译是大模型退化的重要来源。

亮点与洞察

  • 论文最好的地方是把部署问题形式化清楚:预算化混合翻译优化的是边际收益,不是难度。这个数学重写直接解释了很多启发式路由为什么会失效。
  • 只用 prefill hidden state 做路由很实用。它避免了小模型先翻译再判定的额外延迟,也避免部署一个额外 QE 模型,比较符合生产系统对简单性的要求。
  • 质量 oracle 仍明显低于 gain oracle,这个结果很有说服力:即便知道小模型绝对质量,也不一定知道大模型是否值得调用。
  • Guarded routing 提供了一个现实折中:平时用轻量 pre-routing 控制成本,高风险场景再用 post-route verifier 降低严重退化。

局限与展望

  • 训练监督来自 XCOMET-XXL 参考指标,可能继承自动指标偏差,未必完全代表用户偏好或特定业务效用。
  • 实验只研究两个模型的 hybrid 设置和固定 route-to-large budget,多层级 cascade、动态预算、延迟约束和成本波动尚未深入处理。
  • 模型组合固定为 LMT-60-0.6B 与 LMT-60-8B,不同模型家族、不同能力差距和更大规模模型是否有相同规律还需要验证。
  • 语言方向只覆盖 En-Zh、En-Ru、Zh-En、Ru-En,低资源语言、形态丰富语言和多脚本场景可能呈现不同路由行为。

相关工作与启发

  • vs QE-based deferral: 后路由 QE 需要先生成小模型译文再判断,延迟更高;RouteLMT 在生成前就做路由,更适合低延迟部署。
  • vs external router: XLM-R 和 sentinel 类方法只看源句外部表示,RouteLMT 使用小翻译模型内部表示,因此能捕捉模型自身对输入的翻译难点感知。
  • vs difficulty routing: 难句不一定值得大模型处理,因为两个模型都可能失败;RouteLMT 直接预测大模型相对收益,目标更准确。
  • 启发: 在 LLM 系统部署中,路由器不应只问“这个请求难不难”,而应问“升级模型能多赚多少质量”。这种 gain-aware 思路可迁移到摘要、客服回复、代码生成等混合模型服务。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 预算化 gain routing 的形式化很清晰,in-model 表示预测也实用;整体问题设定延续已有 routing 方向。
  • 实验充分度: ⭐⭐⭐⭐☆ 四个方向、多个路由器和风险分析充分,但缺少更广语言覆盖和人工偏好验证。
  • 写作质量: ⭐⭐⭐⭐☆ 动机和公式推导很顺,实验表格能直接支撑结论。
  • 价值: ⭐⭐⭐⭐☆ 对机器翻译生产部署很有参考价值,尤其适合已有小/大翻译模型组合的系统。