RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs¶

会议: ICLR 2026
arXiv: 2509.25426
代码: 无
领域: 可解释性
关键词: 推理语言模型, 模型路由, 项目反应理论, 多目标优化, 自适应推理

一句话总结¶

本文提出 Radar 框架，将推理语言模型（RLM）的自适应推理问题建模为多目标优化，利用项目反应理论（IRT）联合估计可解释的查询难度和模型配置能力参数，实现轻量级、可扩展的查询级路由，在 8 个推理基准上优于 SOTA 路由方法，且仅增加约 7ms 延迟。

研究背景与动机¶

近年来推理语言模型（RLMs）如 DeepSeek-R1、o4-mini、Qwen3 等展示了在数学、科学和编程等挑战性任务上的卓越能力。选择合适的 RLM 涉及性能-成本权衡的两个关键层面：(1) 模型大小——更大的模型性能更好但成本更高；(2) 推理预算——更多的思考 token 提升性能但增加延迟和费用。

关键发现：MATH-500 上超过 50% 的查询可以用 Qwen3-0.6B 以极少推理预算正确解答，而一些困难查询则需要更强的 RLM 配置。更强的 RLM 还可能在简单问题上"过度思考"（overthinking）反而降低性能。这激发了一个核心问题：如何为每个查询选择恰好"足够强"的 RLM 配置，从而在不牺牲性能的前提下最大化成本效益？

方法详解¶

整体框架¶

Radar 要解决的是「为每个查询挑一个恰好够强的 RLM 配置」：既不让小模型在难题上力不从心，也不让大模型在简单题上过度思考又徒增延迟和费用。它整体分两步走——先用项目反应理论（IRT）拟合一个可解释的性能预测器，把「查询难度」和「模型配置能力」放进同一把标尺；再对性能与成本两个目标做多目标优化，逐查询选出 Pareto 意义下最优的配置 \(g^*\) 去生成答案。当新模型要接入时，靠自适应测试只评测一小撮信息量最大的查询就能估出它的能力，把它加进配置池而无需重训整套 IRT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["输入查询 q"] --> EMB["查询嵌入 e_q"]
    G["配置离散化<br/>(模型 × 推理预算 → 配置空间 G)"] --> IRT
    EMB --> IRT["2PL IRT 性能预测器<br/>预测 p_q(g)"]
    EMB --> COST["成本预测器<br/>预测 c_q(g)"]
    IRT --> MOO["多目标路由<br/>(切比雪夫标量化选 g*)"]
    COST --> MOO
    MOO --> OUT["用配置 g* 生成答案"]
    NEW["新模型配置"] --> AT["自适应测试<br/>(Fisher 信息选 ~12% 题估能力 θ)"]
    AT -->|加入配置池| G

关键设计¶

1. 配置离散化：把"选模型"和"选预算"压成一次路由

单看模型大小或单看推理预算都不够——大模型在简单题上会过度思考，小模型给足预算又未必划算，真正的自由度其实是「哪个模型 × 给多少思考预算」的组合。Radar 因此把每个 RLM \(m \in \mathcal{M}\) 沿其可用推理预算 \(u \in \mathcal{U}_m\) 切成若干配置 \(g = (m, u) \in \mathcal{G}\)，于是「挑模型 + 挑预算」被统一压成在配置空间 \(\mathcal{G}\) 上的单一路由问题。对开源 RLM，预算通过计数思考 token 强制执行：一旦超出 \(u\) 就追加一条中断消息逼模型收尾。本文据此构造了 35 个配置，作为后续所有路由的候选池。

2. 2PL IRT 性能预测器：把查询当考题、配置当考生

要逐查询路由，先得能预测「某配置在某查询上能不能答对」。Radar 用二参数逻辑斯蒂（2PL）IRT 模型实现性能预测器 \(p_q(g)\)：配置 \(g_i\) 答对查询 \(q_j\) 的概率为 \(p_{ij} = \sigma(a_j(\theta_i - b_j))\)，其中 \(\theta_i\) 是配置 \(g_i\) 的标量能力，\(b_j\) 是查询难度、\(a_j\) 是区分度。标量能力 \(\theta_i\) 把所有配置排在一条可解释的强弱轴上，参数量也比多维 IRT（MIRT）省。为了能泛化到训练时没见过的查询，难度和区分度并不逐题自由学，而是写成查询嵌入 \(\mathbf{e}_j\) 的线性变换 \(b_j = \mathbf{w}_b^\top \mathbf{e}_j\)、\(a_j = \mathbf{w}_a^\top \mathbf{e}_j\)，于是新查询只要算出嵌入就能直接预测其难度，无需出现在训练集里。

3. 多目标路由：用切比雪夫标量化够到 Pareto 前沿的凹陷处

性能和成本天然冲突，把两者简单加权求和会漏掉 Pareto 前沿上的非凸段——而恰恰是那些「性价比拐点」最值得选。对每个查询 \(q\)，Radar 求解 \(g^* = \arg\max_{g \in \mathcal{G}} f(p_q(g), c_q(g))\)，其中 \(p_q(g)\) 来自上面的 IRT 预测器、\(c_q(g)\) 预测成本。文中对比了两种标量化：线性标量化 \(\text{LSP}_q^{w_1} = \arg\max_{g} w_1 p_q(g) - (1-w_1) c_q(g)\) 只能覆盖前沿的凸部分；切比雪夫标量化 \(\text{CSP}_q^{w_1} = \arg\min_{g} \max\{w_1|1-p_q(g)|, (1-w_1)c_q(g)\}\) 通过最小化到理想点的最大加权偏差，能发现前沿的非凸部分。这也是 LLM 路由里首次引入线性标量化之外的多目标优化（MOO）技术，在分布外（OOD）场景下尤其管用。

4. 自适应测试：新配置即插即用

接入一个新模型配置时，与其在整个训练集上跑一遍来估计它的能力 \(\theta\)，不如只挑最能区分能力的题目测。Radar 借用教育测评里的 Fisher 信息选题：第 \(t\) 步选 \(j_t = \arg\max_{j \in \mathcal{Q} \setminus \mathcal{S}_{t-1}} I(\hat{\theta}_{t-1}, a_j, b_j)\)，其中信息量

\[I(\theta, a_j, b_j) = a_j^2 \sigma(a_j(\theta-b_j))[1-\sigma(a_j(\theta-b_j))]\]

在 \(\theta\) 接近难度 \(b_j\) 时最大——也就是优先用「难度刚好卡在当前能力估计附近」的题目去逼问。这样只需评测约 12% 的训练集就能准确估出新配置能力，把它直接挂进配置池参与路由，而无需重训整个 IRT。

损失函数 / 训练策略¶

IRT 模型用二元交叉熵在所有"配置 × 查询"的对错记录上训练：

\[\mathcal{L}_{2PL} = -\frac{1}{nk} \sum_{i=1}^n \sum_{j=1}^k [y_{ij} \log p_{ij} + (1-y_{ij}) \log(1-p_{ij})]\]

其中 \(y_{ij} \in \{0,1\}\) 表示配置 \(g_i\) 在查询 \(q_j\) 上是否答对。数据上共收集 175 万条二值响应，覆盖 35 个配置和 50,139 个查询。

实验关键数据¶

主实验（ID 设置，Hypervolume 指标，越高越好）¶

基准数据集	Random-Pair	RouterBench	IRT-Router	Radar (本文)	改进
GPQA-Diamond	0.5545	0.6866	0.6942	0.7513	+8% vs 次优
MMLU	0.6905	0.8592	0.8604	0.8720	+1.3%
MMLU-Redux	0.7281	0.9053	0.9117	0.9230	+1.2%
LSAT	0.6913	0.9125	0.9163	0.9188	+0.3%
FRAMES	0.6589	0.8325	0.8501	0.8762	+3.1%

消融实验¶

配置	Hypervolume	说明
线性标量化 (ID)	略优	ID 场景下边际领先
切比雪夫标量化 (OOD)	更优	OOD 场景下优势明显
20% 训练数据	~相当	仅用 20% 数据即可达到相似性能
Radar (35 配置)	基线	原始 35 个配置
Radar++ (43 配置)	提升	通过自适应测试加入 Qwen3-14B 后提升

关键发现¶

在 MATH-500 上，Radar 可以仅用 o4-mini（高预算）1.31% 的成本达到其 90% 的性能
在 FRAMES（长文本多文档 QA）上，Radar 以 10% 的成本达到 90% 性能，次优方法需要 30% 成本
Radar 的路由延迟仅约 7ms，相比最小 RLM 配置约 870ms 的生成时间可忽略不计
自适应测试仅需 12% 的训练集（5k 查询）即可准确估计新配置能力
估计的查询难度与 MATH-500 的 5 级人工标注难度呈中等 Pearson 相关（0.509）

亮点与洞察¶

首次将 MOO（超越线性标量化）引入 LLM 路由：切比雪夫标量化能发现 Pareto 前沿的非凸部分
心理测量学启发的 IRT 模型：将查询类比为考试题目、模型配置类比为考生，自然且可解释
极端成本节约：在 MATH-500 上 1.31% 成本达到 90% 性能的结果令人印象深刻
即插即用设计：无需微调 RLM，黑盒使用，新模型快速接入
强 OOD 泛化：在长文本多文档 QA 上的泛化能力尤为突出

局限与展望¶

成本预测使用简单启发式（平均 token 数 × 单价），未考虑查询特异的成本差异
在 AIME 等高难度 OOD 基准上泛化能力稍弱，倾向于分配能力偏低的配置
仅处理文本模态，多模态推理场景有待扩展
2PL IRT 的线性参数化可能不足以捕获复杂的难度-能力交互关系
未考虑批量查询下的总预算约束场景

评分¶

新颖性: ⭐⭐⭐⭐ IRT + MOO 的组合新颖，但单个组件（IRT、路由）不算全新
实验充分度: ⭐⭐⭐⭐⭐ 8 个基准、35 个配置、175 万条数据，全面且严谨
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，公式推导完整，图表直观
价值: ⭐⭐⭐⭐⭐ 直接面向 RLM 实际部署的核心问题，节约成本效果显著