Universe Routing: Why Self-Evolving Agents Need Epistemic Control¶

会议: ICLR 2026
arXiv: 2603.14799
代码: 无
领域: LLM效率 / 推理框架选择
关键词: 认知路由, 信念空间, 硬路由, 持续学习, MoE

一句话总结¶

将自主Agent在链式推理中容易混淆认识论框架（如频率主义vs贝叶斯）的问题形式化为"宇宙路由"，训练一个465M参数的轻量路由器将问题分类到7个互斥信念空间后分发给专用求解器，证明硬路由比软MoE快7倍且精度相同，模块化架构配合rehearsal可实现零遗忘的持续学习。

研究背景与动机¶

领域现状 当前自主Agent（如ReAct、Reflexion等）在长期部署中能自主链接多步推理和行动，但面临一个被忽视的结构性失败模式：不是缺乏知识，而是无法判断该用哪种推理框架。例如面对"一枚硬币抛100次出现60次正面，它公平吗？"时，如果α=0.05则应使用频率主义假设检验，但如果问的是"给定均匀先验，P(θ>0.6|60次正面)是多少？"则必须使用贝叶斯推断。

现有痛点 频率主义和贝叶斯统计不是同一问题的不同解法，而是对"概率"本质持不同公理立场的认识论框架——混合使用产生的不是程度上的错误，而是类别上的逻辑矛盾（如"p值是假设为真的概率"在两个框架中都是错误的）。更糟糕的是，这种错误会沿决策链传播：下游推理步骤继承了上游的认知污染。

核心矛盾 扩大模型规模（更大的LLM）可以产生更流畅的输出，但流畅性不等于认知一致性。问题的本质是架构性的——当前Agent缺乏一个显式的机制来在推理之前判断该调用哪个推理框架。传统MoE的软路由假设不同专家共享同一底层现实，只是擅长不同技能——但认知不相容的框架不能做加权平均。

切入角度 作者将这个问题类比为"宇宙"——每个信念空间有自己的一套公理和推理规则，跨越宇宙边界不加声明就会产生逻辑矛盾。本文用一个小型路由器做硬分类，而不是让大模型自行判断。

核心idea 可靠的自演化Agent需要一个显式的认知控制层来管理推理框架的选择，而"宇宙路由"是这一原则的首个实例化。

方法详解¶

整体框架¶

系统由三部分组成：（1）将问题形式化为7个互斥信念空间（"宇宙"）的分类问题；（2）训练轻量路由器将输入问题分配到正确的宇宙；（3）将问题转发给对应宇宙的专用求解器。路由器采用硬路由（argmax选择），而非传统MoE的软路由（加权平均）。

关键设计¶

信念空间的形式化与不相容性证明
- 功能：定义信念空间宇宙u=(A_u, I_u, S_u)为公理集+推理流程+求解器的三元组，并形式化证明认知不相容框架不可混合
- 核心思路：7个宇宙涵盖STAT_FREQ（频率主义）、STAT_BAYES（贝叶斯）、PHYS_CLASSICAL/QUANTUM/RELATIVITY（物理三框架）、STAT_MIXED（显式框架比较）、STAT_ILL_POSED（病态问题）。Proposition 1证明：两个认知不相容宇宙u_i和u_j的任何凸组合α·S_ui(q)+(1-α)·S_uj(q)都不属于任何宇宙的有效域——因为输出同时依赖互相矛盾的公理a和¬a
- 设计动机：为硬路由提供理论基础——软路由在这里不是"次优"而是"无意义"。用3个具体的数值Demo验证（硬币公平性、参数估计、氢原子稳定性），每个Demo中混合输出在两个框架中都是错误的
轻量路由器的训练与评估
- 功能：在685个样本（GPT-4生成+专家约束）上微调多种Transformer模型作为路由器
- 核心思路：微调Qwen-1.5-0.5B（465M）加分类头，同时评估BERT-base(110M)、DistilBERT(67M)、RoBERTa-base(125M)。数据集设计确保：(a)标签无歧义、(b)同一框架有多样化的表面形式、(c)增广后类别平衡。关键实现细节——必须使用FP32精度，FP16训练中分类头的梯度溢出会导致精度坍塌到18.99%（近似7类随机）
- 设计动机：验证认知路由是"可学习的语义理解"而非"表面关键词匹配"——4种不同架构（67M-465M）在测试集上都达97-98%准确率，但在新措辞的OOD样本上关键词方法(TF-IDF)准确率骤降~26pp，而语义路由器仅降~11-14pp
硬路由的合理性验证与持续学习
- 功能：实验验证硬路由是逻辑必要性而非效率妥协，并证明模块化架构天然支持新宇宙扩展
- 核心思路：硬路由与软MoE在精度上完全相同（97.25%=97.25%）但推理速度快7倍（5.5ms vs 38.2ms），因为信念空间在表示空间中几何可分——路由器给出接近确定性的概率分布，加权平均退化为选择。持续学习实验中从5个宇宙扩展到7个：Rehearsal仅用10%回放（29个样本）即实现零遗忘，而EWC的对角Fisher近似无法捕获模块化结构，仍有75%遗忘
- 设计动机：支持论文核心架构主张——认知控制层应当是Agent的一等组件，而模块化让系统可以通过仅训练路由器来添加新宇宙，不需修改现有求解器

训练策略¶

路由器使用AdamW优化器，学习率5×10⁻⁵，batch size=8，训练3个epoch。单次训练耗时4分钟（RTX 3090）。数据集685样本，70/15/15%划分为训练/验证/测试，另有56个OOD样本用于泛化测试。两位标注者独立标注，Cohen's κ=0.91。

实验关键数据¶

主实验¶

方法	参数量	测试准确率	OOD准确率	泛化差距
Random	-	21.1%	14.3%	+6.8%
SVM + TF-IDF	-	98.2%	71.4%	+26.7%
DistilBERT	67M	98.2%	83.9%	+14.2%
RoBERTa-base	125M	97.3%	85.7%	+11.5%
Qwen-1.5-0.5B	465M	97.3%	83.9%	+13.3%
Qwen集成(×5)	465M	98.2%	89.3%	+8.9%

消融实验¶

配置	关键指标	说明
硬路由 vs 软路由	97.25% = 97.25%，7×加速	信念空间几何可分，加权平均无增益
对抗鲁棒性（总ASR）	TF-IDF 65.75% vs 本文1.53%	语义理解比关键词匹配鲁棒43倍
持续学习(5→7宇宙)	Rehearsal 0%遗忘 vs EWC 75%遗忘	模块化比正则化更适合知识扩展
扩展顺序鲁棒性	<3%变化	先统计后物理或反过来结果稳定
vs云模型(80B-1T)	88-775×更快，5/6无统计显著差异	465M路由器可媲美千亿参数模型

关键发现¶

TF-IDF的关键词注入攻击成功率89.91%（加"consider the prior"就能骗过频率主义分类），语义路由器仅为4.59%
在MMLU外部验证中，合成数据训练的路由器比TF-IDF高10.6pp，且准确率随置信度单调提升
3个分类错误全部发生在真正的认知边界上（如双缝实验可用经典波动光学解释），且错误样本的置信度明显低于正确样本（67-81% vs 均值94%），表明路由器有校准的不确定性

亮点与洞察¶

"认知不相容"的形式化非常精辟：Proposition 1不是说混合不好，而是证明混合产生的输出在任何单一框架中都不成立——这是一种更强的不可行性论证
小模型(465M)打败大模型(80B-1T)的场景值得关注：关键不在规模而在显式的边界监督，说明某些能力可以通过精准的任务定义+小体量模型高效获取
持续学习中EWC的彻底失败揭示了一个深层问题：正则化方法假设知识是连续分布的，但认知宇宙是离散模块化的——不同的知识组织方式需要不同的持续学习策略
"先分框架再推理"的架构原则可推广：不仅适用于统计/物理，在法律（大陆法vs海洋法）、医学（循证vs经验）等领域同样存在框架不相容的问题

局限与展望¶

数据集规模极小（685样本、7个宇宙），仅覆盖数学和物理领域——是否能扩展到法律、伦理、因果等更模糊的认知边界是关键问题
硬路由的单标签假设无法处理真正需要跨框架的多步任务（如先用贝叶斯估计参数再用频率主义做检验）
测试集仅109样本，统计效力有限——云模型对比中仅DeepSeek-v3.1达到统计显著差异
仅评估路由精度而非端到端任务性能——正确路由后求解器输出质量未被验证
Proposition 1的证明本质上是逻辑层面的，实际应用中认知边界往往不如统计vs贝叶斯那样清晰

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将认知框架选择形式化为路由问题的视角非常新颖，Proposition 1的形式化论证严谨
实验充分度: ⭐⭐⭐ 思路清晰但数据量极小（685样本+109测试），外部验证有限
写作质量: ⭐⭐⭐⭐ 论证逻辑严密，核心主张-理论-实验的结构完整，但部分claim偏强
价值: ⭐⭐⭐⭐ 提出了Agent架构的一个重要缺失组件——认知控制层，即使当前验证规模有限，方向很有前景