VL-RouterBench: A Benchmark for Vision-Language Model Routing¶

会议: CVPR 2026
arXiv: 2512.23562
代码: https://github.com/VL-RouterBench
领域: 多模态VLM
关键词: 模型路由, VLM, benchmark, 效率-质量权衡, 多模型选择

一句话总结¶

提出VL-RouterBench，首个面向视觉-语言模型的系统性路由基准，涵盖14个数据集、17个候选模型和519,180个样本-模型对，评估10种路由方法，并发现当前最优路由器与理想Oracle之间仍存在显著差距。

研究背景与动机¶

领域现状：多模型路由已从工程优化发展为关键基础设施。不同VLM在推理成本和能力上差异显著，单一模型无法在所有请求类型上同时保证性能和效率。LLM领域的路由研究已趋成熟（RouterBench、RouterEval、RouterArena等），但VLM领域缺乏系统性基准。

现有痛点：VLM路由面临多重独特挑战：(a) 任务类型高度多样（VQA、视觉推理、图表OCR等），不同任务强调不同能力；(b) 多模态融合机制仍是开放问题，不同VLM在模态交互和语义表示上差异大；(c) 视觉语义密度和跨模态对齐等视觉模态特有问题。

核心矛盾：现有LLM路由基准专注文本路由，无法直接适配VLM场景——VLM路由的"什么是最优路由决策"更难在统一框架下定义。

本文目标 构建VLM专用路由基准，提供统一的数据准备、训练和评估流程，推动VLM路由研究的可复现性和可比性。

切入角度：从VLM的原始推理和评分日志出发构建质量-成本矩阵，设计准确率-成本感知的软标签训练策略。

核心 idea：建立首个覆盖30,540样本×17模型的VLM路由基准，提供从数据到训练到评估的完整pipeline。

方法详解¶

整体框架¶

VL-RouterBench要解决的问题是：来一个"图像+问题"的请求，该把它交给哪个VLM回答，才能在准确率和推理成本之间取得最好的平衡——既不浪费大模型的算力，也不让小模型把简单题答错。整套基准把这件事拆成一条可复现的流水线：先收集 17 个候选模型在 14 个数据集上的真实推理日志，离线刻出"谁能答对、各花多少钱"的质量-成本矩阵；再用这张矩阵训练路由器，训练信号是一套带温度参数的软标签，可以连续调节"偏准"还是"偏省"；最后用统一的多维指标（平均准确率、平均成本、吞吐量，以及把两者拧成一个数的 Rank Score）横向比较 10 种路由方法。被评测的路由器分两类：一类是特征级——冻结文本/视觉编码器抽嵌入，后面接 KNN/MLP/Linear 之类的轻量分类器；另一类是端到端（如 RouterDC、VLC），直接从多模态输入预测该选哪个模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph DATA["质量-成本矩阵（数据准备）"]
        direction TB
        A["17 模型 × 14 数据集<br/>真实推理/评分日志"] --> B["规则化判对 → 质量矩阵 Y<br/>token×价格表 → 成本矩阵 C"]
    end
    DATA --> C["准确率-成本感知软标签<br/>温度参数 λ 连续调节偏准/偏省，训练路由器"]
    C --> D{路由器范式}
    D -->|特征级| E["冻结文/视编码器抽嵌入<br/>+ KNN/MLP/Linear 分类器"]
    D -->|端到端| F["多模态输入直接预测模型<br/>RouterDC / VLC"]
    E --> G
    F --> G
    subgraph EVAL["Rank Score 评估"]
        direction TB
        G["平均准确率 / 平均成本 / 吞吐量"] --> H["对数归一化成本 + 准确率<br/>调和平均 → Rank Score"]
    end
    EVAL --> I["路由方法排行榜<br/>+ 与 Oracle 差距诊断"]

关键设计¶

1. 质量-成本矩阵：把"谁答对、花多少钱"离线刻成可复现的训练底料

要训练和评估路由器，前提是知道每个样本交给每个模型时对不对、要花多少钱，而这两件事都不能靠主观判断。这里对正确性走规则化评估（选择题判选项、开放答案做字符串匹配），得到 0/1 的质量矩阵 $Y$；成本则直接读推理日志里的输入/输出 token 数，乘以各模型的公开价格表，$C_{i,j} = n_{i,j}^{in} \cdot c_j^{in} + n_{i,j}^{out} \cdot c_j^{out}$，得到成本矩阵 $C$。规则化加价格表这两步合起来，保证了不同人、不同时间重跑都能拿到同一张矩阵，路由器之间的比较才站得住脚。

2. 准确率-成本感知软标签：用一个温度参数 $\lambda$ 连续滑动"偏准还是偏省"

如果只给路由器一个硬标签（每个样本指定唯一最优模型），就没法表达"既要答对又要便宜"这种连续的权衡。这里把路由训练写成一个多目标优化问题，经拉格朗日求解推出解析形式的软标签

\[t_i^{(\lambda)}(j) = \frac{\mathbf{1}\{Y_{i,j}=1\} \cdot \exp(-\lambda \cdot C_{i,j})}{\sum_{j:Y_{i,j}=1} \exp(-\lambda \cdot C_{i,j})}\]

它只在能答对的模型（$Y_{i,j}=1$）之间分配概率质量，并按成本指数加权。$\lambda=0$ 时退化成在所有正确模型间均分、只在乎准确率；$\lambda \to \infty$ 时概率几乎全压到最便宜的那个正确模型上。于是同一套训练框架靠拨动一个 $\lambda$ 就能扫出整条准确率-成本曲线，比硬标签灵活得多。

3. Rank Score：把量纲不同的准确率和成本拧成一个可排名的数

准确率是 0–100 的百分比，成本是几毛到几块的美元，量纲对不上，没法直接比谁更好。这里先把成本做对数归一化压到 $[0,100]$ 区间得到 $C_{norm}$，再用一个带权重 $\beta$ 的调和平均把它和平均准确率 $\bar{A}$ 综合起来：

\[S(\beta) = \frac{(1+\beta)\cdot\bar{A}\cdot C_{norm}}{\beta\cdot\bar{A}+C_{norm}}\]

调和平均的好处是任一项太差都会把总分拖下去（不像算术平均能被另一项补偿），$\beta$ 则决定更看重准确率还是成本。统一成这一个分数后，不同准确率-成本配置的路由器才能放进同一张排行榜里比高低。

实验关键数据¶

主实验——路由方法对比¶

路由器	Avg. Acc.↑	Avg. Cost↓	Rank Score↑	排名
Oracle	95.60	$0.37	93.68	0
Strongest	78.01	$2.72	-	-
RouterDC (第1)	-	-	最高	1
VLC (第2)	-	-	-	2
MLP (第3)	-	-	-	3

消融实验——模态融合方式¶

融合方式	说明
仅文本特征	次优，缺少视觉判别信号
仅视觉特征	最弱，缺少任务指令信息
归一化拼接	最优，简单有效

关键发现¶

路由收益显著：在成本相当甚至更低时，学习型路由系统普遍比任何单一模型准确率更稳定
多模态特征有效：文本+视觉嵌入的简单归一化拼接就能支撑高竞争力路由器，始终优于单模态
与Oracle的差距：即使最优路由器仍距Oracle有明显差距，说明在视觉线索利用和文本结构建模上还有很大改进空间
模型数量覆盖：17个候选模型（1B到78B参数），参数范围跨越两个数量级

亮点与洞察¶

首个VLM路由基准：填补了VLM领域缺少统一路由评估的空白，pipeline设计完整（数据→训练→评估）且高度可扩展
软标签策略的数学优雅性：从Lagrange优化推导出解析软标签，理论上有保证，实践上通过一个 $\lambda$ 参数就能连续控制准确率-成本权衡
与Oracle差距的诊断价值：清晰指出改进方向在于"更细的视觉线索"和"文本结构建模"

局限与展望¶

仅考虑单图像输入，未覆盖多图像/视频VLM场景
正确性评估仅用规则匹配（选择题/答案匹配），排除了开放式生成任务
成本估算基于token数×价格表，未考虑实际延迟/吞吐量差异
路由器在推理时增加了额外的特征提取和分类开销，对于成本本身很低的模型可能得不偿失
未探讨路由器在分布外数据上的鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐ 首个VLM路由基准，填补研究空白
实验充分度: ⭐⭐⭐⭐⭐ 14数据集×17模型×10路由方法，消融全面
写作质量: ⭐⭐⭐⭐ 体系完整，推导清楚
价值: ⭐⭐⭐⭐ 对VLM高效部署有直接实用价值