Universal Model Routing for Efficient LLM Inference¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ka82fvJ5f1
代码: 无
领域: LLM效率
关键词: 模型路由, 动态 LLM 池, 推理成本, 零样本泛化, 聚类表示

一句话总结¶

本文提出 UniRoute，把每个 LLM 编码成"在一小批代表性提示上的预测错误向量"，配合双线性打分器，让训练好的路由器不重训就能路由到测试时才出现的新 LLM，在 30+ 个未见模型上取得更好的成本-质量权衡。

研究背景与动机¶

领域现状：模型路由（model routing）是降低 LLM 推理成本的简单有效手段——维护一个不同规模/能力的候选 LLM 池，给每个提示预测"能搞定它的最小代价模型"，从而把昂贵的大模型只留给少数"难"输入。现有路由器几乎都是在固定的 LLM 池上学一个打分函数 \(\gamma^{(m)}(x)\)，再按 \(r(x)=\arg\min_m[\gamma^{(m)}(x)+\lambda\cdot c^{(m)}]\) 路由。

现有痛点：实际部署中 LLM 池是动态的——新模型频繁发布、旧模型被弃用，甚至同一组模型因 GPU 供给、授权、任务适配等原因在测试时可用集都会变。固定池路由器的结构（线性层 \(w_m^\top\phi(x)+b_m\)、矩阵分解、BERT 头）每个输出对应一个具体模型，新模型一来就对不上。

核心矛盾：处理动态池只有两条朴素路——复用旧路由器，或每次变动就重训。复用会浪费新模型（小模型尤其多、对低成本区间至关重要）；重训则要为每个新模型在标注样本上重新打标签、再训练再部署，开销大且小样本上容易过拟合。

本文目标：设计一个路由器，使其能在测试时接纳任意新 LLM（含训练时完全没见过的）而无需任何梯度重训，同时仍保持接近最优的成本-质量权衡。

切入角度：作者观察到，路由的本质是预测"某模型在某提示上会不会错"。如果能给每个 LLM 一个与池无关、可廉价计算的特征表示，路由就能像零样本分类那样泛化到新模型。两个 LLM "相似"应当意味着它们在同一批验证提示上"对错模式相近"。

核心 idea：把模型身份的 one-hot 表示，换成 LLM 在一组代表性提示上的预测错误向量——用"它在哪些提示上错"来刻画一个模型，从而把路由器写成提示特征与模型特征的双线性内积，天然支持任意新模型。

方法详解¶

整体框架¶

UniRoute 要解决的是"动态池路由"：训练时见到模型集 \(H_{tr}\)，测试时却要在另一组模型 \(H_{te}\)（可能与 \(H_{tr}\) 完全不交）里挑最优。它的关键转变是把打分器参数化为提示特征 \(\Phi(x)\in\mathbb{R}^K\) 与模型特征 \(\Psi(h)\in\mathbb{R}^K\) 的内积：

\[\gamma_{uni}(x,h)=\Phi(x)^\top\Psi(h).\]

只要 \(\Psi(\cdot)\) 对任意模型都能廉价算出，路由就能无缝接纳新模型。整条流水线分三步：①在训练集 \(S_{tr}\) 上拟合 \(\Phi,\Psi\) 的参数（训练基础路由器）；②对每个测试 LLM \(h_{te}\)，在一小批验证集 \(S_{val}\) 上计算其特征向量 \(\Psi(h_{te})\)（"嵌入"新模型）；③来一个新提示 \(x\)，按 \(r(x,H_{te})=\arg\min_n[\gamma(x,h_{te}^{(n)})+\lambda\cdot c(h_{te}^{(n)})]\) 路由。第二步是一次性的、不含梯度更新，因此模型池后续怎么变都不影响已算好的向量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["提示 x + 动态 LLM 池<br/>(含训练时未见的新 LLM)"] --> B["K-Means 无监督聚类表示<br/>训练集聚 K 簇 → 提示→簇映射 Φ(x)"]
    A --> C["预测错误向量 Ψ(h)<br/>新 LLM 在验证集 Sval 上算每簇错误率"]
    B -->|可选监督升级| D["学习型聚类映射<br/>软分配 Φ(x;θ)"]
    B --> E["双线性打分 γ=Φ(x)ᵀΨ(h)"]
    D --> E
    C --> E
    E --> F["cost-adjusted 最优路由<br/>argmin γ+λ·c(h)"]
    F --> G["路由到选中的 LLM"]

关键设计¶

1. 把每个 LLM 编码成"预测错误向量"，路由器变成双线性打分

固定池路由器的根本局限是模型表示绑死在池上：线性路由 \((3)\) 等价于给模型一个 one-hot 表示 \(\Psi_{oh}(h)=[\mathbf{1}(h=h_{tr}^{(m)})]_m\)，新模型没有对应维度。UniRoute 用一个与池无关的表示替代它——给定带标注的小验证集 \(S_{val}=\{(x^{(j)},y^{(j)})\}_{j=1}^{N_{val}}\)，把任意模型 \(h\)（包括训练时没见过的）表示成它在这些提示上的 0/1 错误向量经投影 \(F\) 后的结果：

\[\Psi(h)=F\big([\mathbf{1}(y^{(j)}\neq h(x^{(j)}))]_{j\in[N_{val}]}\big)\in\mathbb{R}^K.\]

配合 \(\gamma_{uni}(x,h)=\Phi(x)^\top\Psi(h)\)，只要新模型能在 \(S_{val}\) 上跑一遍（仅需黑盒 API 访问、不需要模型权重），就能即时得到它的特征并参与路由。这正像零样本分类里的"语义输出编码"：内积越大说明两模型对错模式越像。Hu et al. (2024b) 的 K-NN 路由恰是本式的一个特例（取 \(F\) 为恒等、\(\Phi\) 为验证样本的近邻指示向量时 \(\gamma_{uni}\) 精确退化为 K-NN 的 \(\gamma\)），但 K-NN 只用到 \(S_{val}\)、用不上更大的训练集信息，故泛化常较差。

2. 基于每簇错误的无监督实例化（K-Means）

直接在小验证集上聚类或建表都易过拟合。本文改为在大训练集 \(S_{tr}\) 上聚类，再把这套簇结构迁到验证集上算每簇错误。具体地，给定文本嵌入 \(\phi\)：先对训练集嵌入做 K-Means 得到 \(K\) 个非重叠簇，由此定义硬分配映射 \(\Phi_{clust}(x)\in\{0,1\}^K\)（\(x\) 属于哪个簇该位为 1）；再把验证样本按簇划分为 \(C_k\)；最后任意模型 \(h\) 的特征取其每簇平均错误：

\[\Psi_{clust,k}(h)=\frac{1}{|C_k|}\sum_{(x,y)\in C_k}\mathbf{1}(y\neq h(x)).\]

于是 \(\gamma_{clust}(x,h)=\Phi_{clust}(x)^\top\Psi_{clust}(h)\) 的含义非常直观：用"提示所在簇上该模型的平均错误"来估计它在这条提示上会不会错。接纳新模型只需在验证集上算一遍每簇错误——无梯度、一次性。\(K=1\) 时退化为 ZeroRouter；实验显示对 \(K\) 的取值相当鲁棒。

3. 学习型聚类映射：用训练标签把硬分配升级为软分配

无监督版的 \(\Phi_{clust}\) 只看嵌入距离、没用上 \(S_{tr}\) 里训练模型的对错标签。本文进一步在同一套簇上学一个软分配映射 \(\Phi_{clust,k}(x;\theta)\propto\exp(\theta_k^\top\phi(x))\)，把提示映成簇上的分布而非硬归一簇，从而更精细地刻画"这条提示更像哪几个簇"。参数 \(\theta\in\mathbb{R}^{K\times D_P}\) 通过在 \(S_{tr}\) 上对训练模型 \(H_{tr}\) 的正误标签最小化 log 损失得到：

\[-\sum_{(x,y)\in S_{tr}}\sum_{h\in H_{tr}}\Big[\mathbf{1}(y\neq h(x))\log\gamma_{clust}(x,h;\theta)+\mathbf{1}(y=h(x))\log(1-\gamma_{clust}(x,h;\theta))\Big].\]

模型特征 \(\Psi_{clust}(h)\) 仍由验证集每簇错误给出、与池无关，所以学到的 \(\theta\) 照样能作用于新模型。这一版（LearnedMap）在多数数据集上把质量再推高一截。

4. cost-adjusted Bayes 最优路由与超额风险界

为什么"按错误打分 + 成本调整"这套式子是对的？作者证明（命题 1）：在动态池设定 \((5)\) 下，最优路由器会逐模型分解为

\[r^*(x,H)=\arg\min_{m}\Big[\,\mathbb{E}_{y|x}[\ell(x,y,h^{(m)})]+\lambda_H\cdot c(h^{(m)})\,\Big],\]

即路由到"加上成本惩罚 \(\lambda_H c\) 后期望损失最小"的模型，\(\lambda_H\) 调节质量与成本的权衡。UniRoute 的 \((8)\) 正是用 \(\gamma\) 作为 \(\gamma^*(x,h)=P[y\neq h(x)\mid x]\) 的 plug-in 估计。针对聚类近似带来的偏差，命题 2 给出超额风险界：把数据看作 \(K\) 个隐成分的混合，则聚类路由 \((13)\) 与最优规则 \((7)\) 的 0-1 风险差，被"逐提示错误 vs 所在簇平均错误"的最大偏差所上界。这把"用簇均错误近似单点错误"的代价量化清楚了——簇内越同质，界越紧。

一个完整示例¶

设测试时来了一个训练时没见过的小模型 \(h_{new}\)，外加一条新提示 \(x\)。流程是：①离线已在训练集上聚出 \(K\) 个簇并固定 \(\Phi\)（或学好的 \(\Phi(\cdot;\theta)\)）；②把 \(h_{new}\) 在 ~400 条验证提示上跑一遍，按式 \((12)\) 算出它在每个簇上的平均错误率，得到 \(K\) 维向量 \(\Psi(h_{new})\)（比如它在"数学簇"错 0.6、在"常识簇"错 0.1）；③对新提示 \(x\)，先用 \(\Phi(x)\) 判断它落在哪个簇（设为常识簇），于是 \(\gamma(x,h_{new})=\Phi(x)^\top\Psi(h_{new})\approx 0.1\)，预测它大概率答对；④对池中每个模型都算 \(\gamma+\lambda c\)，挑最小者——若 \(h_{new}\) 又便宜又在该簇上够准，它就会被选中。全程没有任何重训，新模型只贡献了一次验证集前向。

实验关键数据¶

主实验¶

在 EmbedLLM（112 个 LLM）、SPROUT o3-mini（15 个）、Headlines（12 个）、RouterBench（11 个）上做动态池路由：模型集按 2/3 训练、1/3 测试切分（即测试模型对路由器全新）。提示嵌入统一用冻结的 Gecko 1B（768 维）。指标：QNC（Quality-Neutral Cost，达到最准测试模型同等质量所需的最小相对成本，越低越好）与 Area（deferral 曲线下面积，越高越好）。

方法	EmbedLLM QNC↓	EmbedLLM Area↑	SPROUT QNC↓	SPROUT Area↑	Headlines QNC↓	Headlines Area↑
ZeroRouter	87.5%	.607	100.0%	.820	88.0%	.819
K-NN	45.9%	.636	29.6%	.844	43.7%	.830
Retrained MLP	35.9%	.641	80.9%	.829	74.2%	.823
Retrained MatFac	36.6%	.640	84.2%	.825	80.9%	.821
UniRoute (K-Means)	33.7%	.649	19.6%	.850	56.9%	.828
UniRoute (LearnedMap)	33.1%	.652	23.4%	.846	34.9%	.832

UniRoute 两个版本在 EmbedLLM、SPROUT、Headlines 上均优于全部基线，且相对 LearnedMap 的差距在 \(\alpha=0.01\) 上统计显著（原表中 \(*\) 标记的项）。在只有 11 个模型的 RouterBench 上，各法 QNC 都贴近 99%（模型间差异小、难拉开），UniRoute(K-Means) 仍以 Area .712 微弱领先。

消融实验¶

配置 / 变量	现象	说明
验证样本数 100→500	UniRoute(K-Means) 的 Area 普遍高于基线且更平稳	大训练集聚类 + 池无关表示，小验证集也稳
Retrained MLP（小验证集）	在 EmbedLLM/SPROUT 等上明显掉点	为新模型重训时过拟合到几百条验证样本
K-NN	全面弱于 UniRoute	只用验证集、用不上大训练集信息，非线性但不够强
簇数 \(K\)	结果对 \(K\) 鲁棒（附录 G.2）	\(K{=}1\) 退化为 ZeroRouter
LearnedMap vs K-Means	Headlines QNC 56.9%→34.9%	用训练标签学软分配在该集收益最大

关键发现¶

"重训新路由器"反而更差：Retrained MLP/MatFac 看似直接，但在 \(O(10^3)\) 量级的小验证集上过拟合，多数数据集被 UniRoute 反超——这印证了"用池无关特征零样本接纳新模型"比"逐模型重训"更稳。
ZeroRouter 是出了名的强基线（Hu et al. 2024b 也指出），但 UniRoute 在所有数据集上一致地超过它。
两个实例化各有所长：K-Means 在 SPROUT 上 QNC 最低（19.6%），LearnedMap 在 Headlines 上把 QNC 从 56.9% 砍到 34.9%——是否值得引入监督学习，取决于训练标签能否提供额外区分度。

亮点与洞察¶

用"错误向量"当模型指纹：把"模型在哪些提示上会错"作为特征，是个很轻但很对的表示——它只需黑盒 API 一次前向、与池规模无关，天然解耦"模型身份"与"路由器结构"，这正是零样本接纳新模型的关键。
K-NN 是特例这一观察很漂亮：把已有强基线收编为自家框架的退化情形，既给方法找了落脚点，又顺手解释了为何能做得更好（K-NN 浪费了训练集）。
理论与工程闭环：命题 1 说明 cost-adjusted argmin 是 Bayes 最优 plug-in，命题 2 把"簇均近似单点"的误差量化成可解释的偏差上界——这套"先证最优规则、再估计、再控误差"的范式可迁移到其他需要泛化到新动作/新臂的路由/选择问题。
可迁移 trick：在大集合上聚类、再把簇结构迁到小集合算统计量，能有效规避小样本过拟合，适用于任何"标注样本贵但无标注样本多"的表示学习场景。

局限与展望¶

强依赖验证集分布：\(\Psi(h)\) 的质量取决于 \(S_{val}\) 是否真实反映部署分布；若验证提示与线上分布偏离，错误向量就会失真。作者主要取训练集随机子集，实际部署需谨慎构造或领域定制。
仍需对每个新模型跑一遍验证集：虽是一次性、无梯度，但当验证集较大或新模型上线极频繁时，这笔前向推理成本仍存在；论文靠"验证集规模适中（\(O(10^3)\)）"来控制。
只用 0-1 损失/二元正确性：所有数据集都用二元准确率，连续质量分、生成质量、多目标（延迟+成本+质量）等更复杂场景未充分验证，式 \((6)\) 虽声称可适配其他损失但实证有限。
与 LLMBandit (Li, 2025) 缺直接复现对比：因对方无公开实现，只能与其论文报告值比较，强基线下的相对优势仍有不确定性。

评分¶

新颖性: ⭐⭐⭐⭐ 把模型路由从"固定池"推广到"动态池"，并用预测错误向量给出池无关表示，角度新且自洽。
实验充分度: ⭐⭐⭐⭐ 四个公开基准、30+ 未见模型、400 次独立试验 + 统计显著性，较扎实；但仅二元正确性、缺 LLMBandit 直接复现。
写作质量: ⭐⭐⭐⭐ 问题设定、方法、理论层层递进，图 1 直观；记号偏密。
价值: ⭐⭐⭐⭐ 直击"LLM 池频繁变动"这一真实痛点，方法轻、可黑盒部署，实用性强。