Universal Model Routing for Efficient LLM Inference¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ka82fvJ5f1
代码: 无
领域: LLM效率
关键词: 模型路由, 动态 LLM 池, 推理成本, 零样本泛化, 聚类表示
一句话总结¶
本文提出 UniRoute,把每个 LLM 编码成"在一小批代表性提示上的预测错误向量",配合双线性打分器,让训练好的路由器不重训就能路由到测试时才出现的新 LLM,在 30+ 个未见模型上取得更好的成本-质量权衡。
研究背景与动机¶
领域现状:模型路由(model routing)是降低 LLM 推理成本的简单有效手段——维护一个不同规模/能力的候选 LLM 池,给每个提示预测"能搞定它的最小代价模型",从而把昂贵的大模型只留给少数"难"输入。现有路由器几乎都是在固定的 LLM 池上学一个打分函数 \(\gamma^{(m)}(x)\),再按 \(r(x)=\arg\min_m[\gamma^{(m)}(x)+\lambda\cdot c^{(m)}]\) 路由。
现有痛点:实际部署中 LLM 池是动态的——新模型频繁发布、旧模型被弃用,甚至同一组模型因 GPU 供给、授权、任务适配等原因在测试时可用集都会变。固定池路由器的结构(线性层 \(w_m^\top\phi(x)+b_m\)、矩阵分解、BERT 头)每个输出对应一个具体模型,新模型一来就对不上。
核心矛盾:处理动态池只有两条朴素路——复用旧路由器,或每次变动就重训。复用会浪费新模型(小模型尤其多、对低成本区间至关重要);重训则要为每个新模型在标注样本上重新打标签、再训练再部署,开销大且小样本上容易过拟合。
本文目标:设计一个路由器,使其能在测试时接纳任意新 LLM(含训练时完全没见过的)而无需任何梯度重训,同时仍保持接近最优的成本-质量权衡。
切入角度:作者观察到,路由的本质是预测"某模型在某提示上会不会错"。如果能给每个 LLM 一个与池无关、可廉价计算的特征表示,路由就能像零样本分类那样泛化到新模型。两个 LLM "相似"应当意味着它们在同一批验证提示上"对错模式相近"。
核心 idea:把模型身份的 one-hot 表示,换成 LLM 在一组代表性提示上的预测错误向量——用"它在哪些提示上错"来刻画一个模型,从而把路由器写成提示特征与模型特征的双线性内积,天然支持任意新模型。
方法详解¶
整体框架¶
UniRoute 要解决的是"动态池路由":训练时见到模型集 \(H_{tr}\),测试时却要在另一组模型 \(H_{te}\)(可能与 \(H_{tr}\) 完全不交)里挑最优。它的关键转变是把打分器参数化为提示特征 \(\Phi(x)\in\mathbb{R}^K\) 与模型特征 \(\Psi(h)\in\mathbb{R}^K\) 的内积:
只要 \(\Psi(\cdot)\) 对任意模型都能廉价算出,路由就能无缝接纳新模型。整条流水线分三步:①在训练集 \(S_{tr}\) 上拟合 \(\Phi,\Psi\) 的参数(训练基础路由器);②对每个测试 LLM \(h_{te}\),在一小批验证集 \(S_{val}\) 上计算其特征向量 \(\Psi(h_{te})\)("嵌入"新模型);③来一个新提示 \(x\),按 \(r(x,H_{te})=\arg\min_n[\gamma(x,h_{te}^{(n)})+\lambda\cdot c(h_{te}^{(n)})]\) 路由。第二步是一次性的、不含梯度更新,因此模型池后续怎么变都不影响已算好的向量。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["提示 x + 动态 LLM 池<br/>(含训练时未见的新 LLM)"] --> B["K-Means 无监督聚类表示<br/>训练集聚 K 簇 → 提示→簇映射 Φ(x)"]
A --> C["预测错误向量 Ψ(h)<br/>新 LLM 在验证集 Sval 上算每簇错误率"]
B -->|可选监督升级| D["学习型聚类映射<br/>软分配 Φ(x;θ)"]
B --> E["双线性打分 γ=Φ(x)ᵀΨ(h)"]
D --> E
C --> E
E --> F["cost-adjusted 最优路由<br/>argmin γ+λ·c(h)"]
F --> G["路由到选中的 LLM"]
关键设计¶
1. 把每个 LLM 编码成"预测错误向量",路由器变成双线性打分
固定池路由器的根本局限是模型表示绑死在池上:线性路由 \((3)\) 等价于给模型一个 one-hot 表示 \(\Psi_{oh}(h)=[\mathbf{1}(h=h_{tr}^{(m)})]_m\),新模型没有对应维度。UniRoute 用一个与池无关的表示替代它——给定带标注的小验证集 \(S_{val}=\{(x^{(j)},y^{(j)})\}_{j=1}^{N_{val}}\),把任意模型 \(h\)(包括训练时没见过的)表示成它在这些提示上的 0/1 错误向量经投影 \(F\) 后的结果:
配合 \(\gamma_{uni}(x,h)=\Phi(x)^\top\Psi(h)\),只要新模型能在 \(S_{val}\) 上跑一遍(仅需黑盒 API 访问、不需要模型权重),就能即时得到它的特征并参与路由。这正像零样本分类里的"语义输出编码":内积越大说明两模型对错模式越像。Hu et al. (2024b) 的 K-NN 路由恰是本式的一个特例(取 \(F\) 为恒等、\(\Phi\) 为验证样本的近邻指示向量时 \(\gamma_{uni}\) 精确退化为 K-NN 的 \(\gamma\)),但 K-NN 只用到 \(S_{val}\)、用不上更大的训练集信息,故泛化常较差。
2. 基于每簇错误的无监督实例化(K-Means)
直接在小验证集上聚类或建表都易过拟合。本文改为在大训练集 \(S_{tr}\) 上聚类,再把这套簇结构迁到验证集上算每簇错误。具体地,给定文本嵌入 \(\phi\):先对训练集嵌入做 K-Means 得到 \(K\) 个非重叠簇,由此定义硬分配映射 \(\Phi_{clust}(x)\in\{0,1\}^K\)(\(x\) 属于哪个簇该位为 1);再把验证样本按簇划分为 \(C_k\);最后任意模型 \(h\) 的特征取其每簇平均错误:
于是 \(\gamma_{clust}(x,h)=\Phi_{clust}(x)^\top\Psi_{clust}(h)\) 的含义非常直观:用"提示所在簇上该模型的平均错误"来估计它在这条提示上会不会错。接纳新模型只需在验证集上算一遍每簇错误——无梯度、一次性。\(K=1\) 时退化为 ZeroRouter;实验显示对 \(K\) 的取值相当鲁棒。
3. 学习型聚类映射:用训练标签把硬分配升级为软分配
无监督版的 \(\Phi_{clust}\) 只看嵌入距离、没用上 \(S_{tr}\) 里训练模型的对错标签。本文进一步在同一套簇上学一个软分配映射 \(\Phi_{clust,k}(x;\theta)\propto\exp(\theta_k^\top\phi(x))\),把提示映成簇上的分布而非硬归一簇,从而更精细地刻画"这条提示更像哪几个簇"。参数 \(\theta\in\mathbb{R}^{K\times D_P}\) 通过在 \(S_{tr}\) 上对训练模型 \(H_{tr}\) 的正误标签最小化 log 损失得到:
模型特征 \(\Psi_{clust}(h)\) 仍由验证集每簇错误给出、与池无关,所以学到的 \(\theta\) 照样能作用于新模型。这一版(LearnedMap)在多数数据集上把质量再推高一截。
4. cost-adjusted Bayes 最优路由与超额风险界
为什么"按错误打分 + 成本调整"这套式子是对的?作者证明(命题 1):在动态池设定 \((5)\) 下,最优路由器会逐模型分解为
即路由到"加上成本惩罚 \(\lambda_H c\) 后期望损失最小"的模型,\(\lambda_H\) 调节质量与成本的权衡。UniRoute 的 \((8)\) 正是用 \(\gamma\) 作为 \(\gamma^*(x,h)=P[y\neq h(x)\mid x]\) 的 plug-in 估计。针对聚类近似带来的偏差,命题 2 给出超额风险界:把数据看作 \(K\) 个隐成分的混合,则聚类路由 \((13)\) 与最优规则 \((7)\) 的 0-1 风险差,被"逐提示错误 vs 所在簇平均错误"的最大偏差所上界。这把"用簇均错误近似单点错误"的代价量化清楚了——簇内越同质,界越紧。
一个完整示例¶
设测试时来了一个训练时没见过的小模型 \(h_{new}\),外加一条新提示 \(x\)。流程是:①离线已在训练集上聚出 \(K\) 个簇并固定 \(\Phi\)(或学好的 \(\Phi(\cdot;\theta)\));②把 \(h_{new}\) 在 ~400 条验证提示上跑一遍,按式 \((12)\) 算出它在每个簇上的平均错误率,得到 \(K\) 维向量 \(\Psi(h_{new})\)(比如它在"数学簇"错 0.6、在"常识簇"错 0.1);③对新提示 \(x\),先用 \(\Phi(x)\) 判断它落在哪个簇(设为常识簇),于是 \(\gamma(x,h_{new})=\Phi(x)^\top\Psi(h_{new})\approx 0.1\),预测它大概率答对;④对池中每个模型都算 \(\gamma+\lambda c\),挑最小者——若 \(h_{new}\) 又便宜又在该簇上够准,它就会被选中。全程没有任何重训,新模型只贡献了一次验证集前向。
实验关键数据¶
主实验¶
在 EmbedLLM(112 个 LLM)、SPROUT o3-mini(15 个)、Headlines(12 个)、RouterBench(11 个)上做动态池路由:模型集按 2/3 训练、1/3 测试切分(即测试模型对路由器全新)。提示嵌入统一用冻结的 Gecko 1B(768 维)。指标:QNC(Quality-Neutral Cost,达到最准测试模型同等质量所需的最小相对成本,越低越好)与 Area(deferral 曲线下面积,越高越好)。
| 方法 | EmbedLLM QNC↓ | EmbedLLM Area↑ | SPROUT QNC↓ | SPROUT Area↑ | Headlines QNC↓ | Headlines Area↑ |
|---|---|---|---|---|---|---|
| ZeroRouter | 87.5% | .607 | 100.0% | .820 | 88.0% | .819 |
| K-NN | 45.9% | .636 | 29.6% | .844 | 43.7% | .830 |
| Retrained MLP | 35.9% | .641 | 80.9% | .829 | 74.2% | .823 |
| Retrained MatFac | 36.6% | .640 | 84.2% | .825 | 80.9% | .821 |
| UniRoute (K-Means) | 33.7% | .649 | 19.6% | .850 | 56.9% | .828 |
| UniRoute (LearnedMap) | 33.1% | .652 | 23.4% | .846 | 34.9% | .832 |
UniRoute 两个版本在 EmbedLLM、SPROUT、Headlines 上均优于全部基线,且相对 LearnedMap 的差距在 \(\alpha=0.01\) 上统计显著(原表中 \(*\) 标记的项)。在只有 11 个模型的 RouterBench 上,各法 QNC 都贴近 99%(模型间差异小、难拉开),UniRoute(K-Means) 仍以 Area .712 微弱领先。
消融实验¶
| 配置 / 变量 | 现象 | 说明 |
|---|---|---|
| 验证样本数 100→500 | UniRoute(K-Means) 的 Area 普遍高于基线且更平稳 | 大训练集聚类 + 池无关表示,小验证集也稳 |
| Retrained MLP(小验证集) | 在 EmbedLLM/SPROUT 等上明显掉点 | 为新模型重训时过拟合到几百条验证样本 |
| K-NN | 全面弱于 UniRoute | 只用验证集、用不上大训练集信息,非线性但不够强 |
| 簇数 \(K\) | 结果对 \(K\) 鲁棒(附录 G.2) | \(K{=}1\) 退化为 ZeroRouter |
| LearnedMap vs K-Means | Headlines QNC 56.9%→34.9% | 用训练标签学软分配在该集收益最大 |
关键发现¶
- "重训新路由器"反而更差:Retrained MLP/MatFac 看似直接,但在 \(O(10^3)\) 量级的小验证集上过拟合,多数数据集被 UniRoute 反超——这印证了"用池无关特征零样本接纳新模型"比"逐模型重训"更稳。
- ZeroRouter 是出了名的强基线(Hu et al. 2024b 也指出),但 UniRoute 在所有数据集上一致地超过它。
- 两个实例化各有所长:K-Means 在 SPROUT 上 QNC 最低(19.6%),LearnedMap 在 Headlines 上把 QNC 从 56.9% 砍到 34.9%——是否值得引入监督学习,取决于训练标签能否提供额外区分度。
亮点与洞察¶
- 用"错误向量"当模型指纹:把"模型在哪些提示上会错"作为特征,是个很轻但很对的表示——它只需黑盒 API 一次前向、与池规模无关,天然解耦"模型身份"与"路由器结构",这正是零样本接纳新模型的关键。
- K-NN 是特例这一观察很漂亮:把已有强基线收编为自家框架的退化情形,既给方法找了落脚点,又顺手解释了为何能做得更好(K-NN 浪费了训练集)。
- 理论与工程闭环:命题 1 说明 cost-adjusted argmin 是 Bayes 最优 plug-in,命题 2 把"簇均近似单点"的误差量化成可解释的偏差上界——这套"先证最优规则、再估计、再控误差"的范式可迁移到其他需要泛化到新动作/新臂的路由/选择问题。
- 可迁移 trick:在大集合上聚类、再把簇结构迁到小集合算统计量,能有效规避小样本过拟合,适用于任何"标注样本贵但无标注样本多"的表示学习场景。
局限与展望¶
- 强依赖验证集分布:\(\Psi(h)\) 的质量取决于 \(S_{val}\) 是否真实反映部署分布;若验证提示与线上分布偏离,错误向量就会失真。作者主要取训练集随机子集,实际部署需谨慎构造或领域定制。
- 仍需对每个新模型跑一遍验证集:虽是一次性、无梯度,但当验证集较大或新模型上线极频繁时,这笔前向推理成本仍存在;论文靠"验证集规模适中(\(O(10^3)\))"来控制。
- 只用 0-1 损失/二元正确性:所有数据集都用二元准确率,连续质量分、生成质量、多目标(延迟+成本+质量)等更复杂场景未充分验证,式 \((6)\) 虽声称可适配其他损失但实证有限。
- 与 LLMBandit (Li, 2025) 缺直接复现对比:因对方无公开实现,只能与其论文报告值比较,强基线下的相对优势仍有不确定性。
相关工作与启发¶
- vs K-NN 路由 (Hu et al., 2024b):K-NN 也能无重训接新模型,且是 UniRoute 的特例;但 K-NN 只查验证集近邻、用不上大训练集,且小样本下泛化弱。UniRoute 用聚类 + 可学投影把训练集信息压进表示里,更稳更强。
- vs Retrained MLP / MatFac (Ong et al., 2025; Zhuang et al., 2024):它们输出维度绑死模型数,新模型必须加输出头重训,在小验证集上过拟合且工程开销大;UniRoute 结构与池无关,零重训。
- vs LLMBandit (Li, 2025):同样引入 LLM 嵌入,但 Li 用 RL 策略梯度 + 回放缓冲,训练不稳且依赖提示难度估计,且其嵌入依赖池内其他模型及加入顺序;UniRoute 用标准统计学习 + 普通梯度下降,嵌入是池无关、可直接解释的"每簇错误"。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把模型路由从"固定池"推广到"动态池",并用预测错误向量给出池无关表示,角度新且自洽。
- 实验充分度: ⭐⭐⭐⭐ 四个公开基准、30+ 未见模型、400 次独立试验 + 统计显著性,较扎实;但仅二元正确性、缺 LLMBandit 直接复现。
- 写作质量: ⭐⭐⭐⭐ 问题设定、方法、理论层层递进,图 1 直观;记号偏密。
- 价值: ⭐⭐⭐⭐ 直击"LLM 池频繁变动"这一真实痛点,方法轻、可黑盒部署,实用性强。