DiSRouter: Distributed Self-Routing for LLM Selections¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KDcwXKr0NU
代码: 待确认
领域: LLM 高效推理 / 查询路由（Query Routing）
关键词: LLM Routing, Model Selection, Self-Awareness, Distributed System, Cost-Performance Trade-off

一句话总结¶

DiSRouter 把传统的"中心化外部路由器"换成"让每个 LLM 自己判断要不要答"的分布式自路由范式：查询在一串按成本递增排列的 LLM agent 之间传递，每个 agent 凭自我认知决定是回答还是甩给下一个更强的模型，从而在性能与成本之间取得更优的效用（Utility）。

研究背景与动机¶

领域现状：LLM 生态高度异质——从边端可跑的 0.5B 小模型到云端的 14B/旗舰大模型，性能和成本相差悬殊。"查询路由 / 模型选择"因此成为热门方向，连 GPT-5 都用上了多模型 + 实时路由的统一架构。主流做法是训练一个中心化路由器（打分模型）来评估查询难度、预测某个 LLM 能不能答对，然后把查询派给"最小的能答对的模型"。

现有痛点：中心化路由器有两个根本缺陷。其一是灵活性差——路由器是在固定的候选 LLM 集合上训练的，一旦要加新模型或更新某个 agent，就得把整个路由系统重训一遍，系统僵化、可扩展性被破坏。其二是能力评估不准——路由器通常是个小模型，根本没有能力去理解大模型的内在知识边界，对"这个查询某个大模型到底能不能答对"判断不可靠，成为整个系统的瓶颈。

核心矛盾：路由决策的本质是判断"某模型在某查询上的胜任度"，但让一个外部小模型去隔空评估大模型的知识边界，天然比让模型自己判断要困难。外部评估（external assessment）与被评估对象的能力之间存在信息鸿沟。

本文目标：用一个不依赖外部路由器、可即插即用增删 agent、且能随用户偏好（重性能 vs 重成本）动态调整的分布式系统，在多场景下取得比中心化路由更高的效用与更强的泛化性。

核心 idea：「自我认知优于外部评估」——与其训一个隔空打分的外部路由器，不如赋能每个 agent 自己评估胜任度并自主决定答还是转发。把抽象的"自我认知"落地成一个具体动作：confident 就答、不 confident 就"拒绝（I don't know）"并转给下一个更大的模型。再配一套带局部奖励的两阶段自我认知训练，让每个 agent 都能独立、并行地被训练。

方法详解¶

整体框架¶

DiSRouter 把单一中心路由器替换成一个自评估 + 自主路由的 agent 网络。论文中实例化为一条按模型尺寸/成本递增排列的级联（cascade）：查询从最小的 m₁ 进入，每个 agent mᵢ 的动作空间只有"执行查询"或"拒绝并转给 mᵢ₊₁"两种；最后一个 agent m_K 被固定为"永远执行"，充当兜底专家。路径在某个 agent 决定执行时终止，由于路由开销可忽略，系统总成本就等于最终执行模型的推理成本。整个系统的优化目标被分解成每个 agent 独立最大化各自局部效用 $U_i$，因此单个 agent 可以被独立训练/更新而无需全系统重训。

flowchart LR
    Q[查询 x] --> A1[0.5B agent]
    A1 -->|自评:能答| E1[执行·低成本]
    A1 -->|拒绝 I don't know| A2[1.5B agent]
    A2 -->|自评:能答| E2[执行]
    A2 -->|拒绝| A3[3B agent]
    A3 -->|拒绝| A4[7B agent]
    A4 -->|拒绝| A5[14B agent·兜底必答]
    A5 --> E5[执行·高成本]

关键设计¶

1. 分布式自路由范式：用"拒绝"动作把自我认知变成路由策略。 传统路由把策略 π 写成一个全局映射 $\pi: X \to M$ 由中心路由器统一决策；DiSRouter 把它拆成分布在各 agent 上的局部策略集合 $\Pi = \{\pi_1, \dots, \pi_K\}$，每个 $\pi_i(x)$ 只在自身及更高成本的 agent 中选目标，$\pi_i(x) \in \{m_j \in M \mid j \geq i\}$。落到级联结构上，动作被简化为二选一：答或拒。这个范式转变的好处直接来自分布式结构——增删一个模型不影响其他 agent 的局部策略，系统天然支持"即插即用"；而且让每个大模型用自身的知识判断知识边界，比小路由器隔空猜测更准。系统级目标 $\Pi^* = \arg\max_\Pi \mathbb{E}_{x\sim D}[A(\Pi(x), x) - \alpha \cdot C(\Pi(x))]$ 被分解为各 agent 独立优化 $\pi_i^* = \arg\max_{\pi_i} U_i(\pi_i)$，这正是"完全独立、可并行训练"的数学基础。

2. 两阶段自我认知训练（SFT → RL）：先学会说"不知道"，再学准什么时候说。 开源小模型本身的自我认知不可靠，于是先做 SFT：用目标 LLM 对每条训练查询做 N 次 CoT 采样，以答对频率衡量它对该查询的胜任度；答对频率低于阈值 δ 的查询被判为"不可答"，其回答被替换成"I don't know"，其余高胜任度查询则把思维链与答案规范成"Answer"模板。这样模型获得了基础的"拒绝行为"。SFT 之后再做 RL 进一步打磨，让模型把"什么时候该拒绝"学得更精准。两阶段都保持接受/拒绝样本各半以防偏置，每阶段各用 1 万条样本。

3. 场景条件化的局部奖励：一个奖励函数同时实现可并行训练与场景自适应。 RL 的奖励设计是全文最精巧的一处： $$ \text{reward}(x) = \begin{cases} 1, & \text{答对} \ 0, & \text{答错} \ (1-\alpha)^\gamma, & \text{拒绝} \end{cases} $$ 其中 α 是偏好因子（越大越重成本），γ 是可靠性因子（保证不过度为省钱牺牲精度）。关键在于这个奖励是局部的——每个 agent 只看自己答得对不对、拒不拒，不需要任何 agent 间通信，因此 K 个 agent 可以完全独立、并行训练。其合理性可由期望分析推出：模型答查询的期望奖励 $E[\text{answer}] = p(x)$（p 为胜任度），拒绝的期望奖励 $E[\text{reject}] = (1-\alpha)^\gamma$，于是模型选择回答当且仅当 $p(x) > (1-\alpha)^\gamma$。这说明胜任度必须超过一个由 α 决定的阈值才回答：α 越大（越重成本）阈值越低，agent 越"激进"地抢答小模型也能答的题。γ 控制这条阈值曲线的形状——γ=1 时线性，0<γ<1 时非线性（论文取 γ=0.5），刻画"大多数时候保持高可靠、只有极端省钱时才允许精度明显下降"的人类偏好。

场景适配指令：训练时把三个场景（Performance First α=0.2 / Balance α=0.5 / Cost First α=0.8）的偏好通过 prompt 指令显式告诉模型，并在 SFT 把拒绝阈值设为 δ=1−α（如性能优先 α=0.2 时 δ=0.8，只有高度自信才答）。这样同一套系统靠换 prompt 就能在三种场景间切换，无需像 GraphRouter 那样每个场景重训一次。

实验关键数据¶

配置：模型池为 Qwen2.5-Instruct 系列五个尺寸（0.5B→14B），成本归一化为 0.1→0.9。7 个域内数据集（GSM8K/ARC/MMLU/RACE/OpenbookQA/DROP/CosmosQA）训练+评测，3 个域外数据集（SQuAD/HellaSwag/HeadQA）测泛化。SFT/RL 各 1 万样本，A800 训练。

主实验（域内，效用 Utility ↑，越高越好）¶

方法	性能优先 α=0.2	平衡 α=0.5	成本优先 α=0.8
Oracle（topline）	0.87	0.79	0.70
Smallest LLM	0.36	0.33	0.30
Largest LLM	0.67	0.40	0.13
Random	0.58	0.44	0.30
RouteLLM	0.41	0.36	0.31
FrugalGPT	0.64	0.52	0.43
Automix	0.63	0.29	0.18
FORC	0.65	0.47	0.37
GraphRouter	0.68	0.53	0.45
DiSRouter (SFT)	0.72	0.57	0.43
DiSRouter (+RL)	0.73	0.61	0.52

三个场景下 DiSRouter 全部取得最高效用，且至少达到 Oracle topline 的 74.29%。

域外泛化（Balance α=0.5）¶

方法	Accuracy ↑	Cost ↓	Utility ↑
Oracle	0.89	0.33	0.72
GraphRouter	0.64	0.49	0.39
FrugalGPT	0.55	0.25	0.42
DiSRouter (+RL)	0.69	0.43	0.48

域外效用仍领先所有 baseline，验证自我认知对未见数据集的判别力。

消融与分析¶

分析维度	关键结果
SFT vs +RL	RL 阶段普遍降成本、升效用（如 Balance 域内 0.57→0.61），代价是略降准确率
模块化（5→3 agent，免重训）	3-agent（1.5B/3B/14B）Balance 效用仍达 0.60，超所有 baseline；比 5-agent 略降属预期
系统级路由分布	场景从性能优先→成本优先，被路由到小模型的查询占比上升（如 0.5B：3.4%→8.1%，1.5B：32.9%→51.3%）
Agent 级答题率	α 增大时每个 agent 的 answer rate 同步抬高（如 1.5B：35.6%→58.7%），无需显式协调即实现全局目标
难易区分	把 ≤3B 可解的查询定义为"易"，DiSRouter 对易/难查询的平均成本区分度显著优于 GraphRouter/FORC/FrugalGPT

关键发现¶

+RL 的作用是"省成本"而非"提性能"：论文专门验证训练不会直接提升任务准确率，效用增益来自更准的路由（更准的自我认知），而非模型变强了。
场景自适应是涌现的全局行为：每个 agent 独立根据局部奖励调整阈值，系统级就自动呈现"重成本→更多查询走小模型"的策略迁移，无需 agent 间通信。
异质模型池同样有效：在 Gemma-3、Phi-4 等不同架构混合的 agent 池上，训练管线与分布式架构依然奏效（附录 A.10）。

亮点与洞察¶

范式层面的转变：把"路由"这件事从"外部裁判打分"重构为"选手自己举手/弃权"，本质是把决策权交还给最懂自己能力的主体，绕开了"小模型评估大模型"的信息鸿沟。
局部奖励是工程上的关键解锁点：$(1-\alpha)^\gamma$ 这一项让 K 个 agent 的训练完全解耦，既支撑了"即插即用"的模块化，又用一个标量 α 把"性能-成本偏好"参数化进奖励，三场景一套系统搞定。
可解释性强：system-level 路由分布与 agent-level 答题率两张图把"为什么省钱/为什么更准"讲得很清楚——阈值 $p(x) > (1-\alpha)^\gamma$ 给了一个干净的理论刻画。

局限与展望¶

评测只跑了级联结构：论文反复强调框架支持 tree/mesh 等拓扑，但实验全在 cascade 上；分布式自路由在更复杂拓扑（非单调成本、并行投票）下的行为与收益仍是 open question。
动作空间被人为简化：为方便评测强制"只能转给更高成本 agent"，丢掉了"横向/回退"等更一般的路由动作，真实分布式系统未必满足成本单调假设。
自我认知的天花板：开源小模型即使训练后，自评估仍可能系统性高估/低估；γ=0.5 是个经验设定，可靠性与成本的权衡曲线如何随任务自适应尚未深究。
闭源强模型可免训直接接入（附录 A.9 提到 GPT-4 类已有强自我认知），但开源-闭源混合池的协同与成本核算未充分展开。

评分¶

新颖性: ⭐⭐⭐⭐ — "分布式自路由 + 拒绝即路由"是对查询路由范式的清晰重构，局部奖励解耦训练的设计有巧思。
实验充分度: ⭐⭐⭐⭐ — 三场景 × 域内/域外 × 5/3-agent × 异质池 × 开放生成，对比 8 个 baseline，分析（路由分布/答题率/难易区分）扎实；但只验证了级联拓扑。
写作质量: ⭐⭐⭐⭐ — 问题定义、奖励合理性分析、图示清晰，逻辑闭环。
价值: ⭐⭐⭐⭐ — 免重训、即插即用、单系统多场景，对实际 LLM serving 的成本-性能调度有直接落地价值。