跳转至

Universal Reasoner: 冻结 LLM 的可组合即插即用推理器

会议: ICML 2026
arXiv: 2505.19075
代码: https://github.com/hangeol/UniR
领域: LLM 推理
关键词: 推理增强, 模块化推理, 可组合推理, 冻结 LLM, 可验证奖励

一句话总结

提出通用推理器(UniR)——通过训练独立的轻量推理模块来捕获奖励导向的推理行为,在推理时通过逻辑叠加与冻结 LLM 组合,实现无需微调冻结模型、跨模型大小转移和多任务可组合的推理增强。

研究背景与动机

领域现状:当前通过 RL 微调(RFT)增强 LLM 推理能力,但需大量计算和内存资源。PEFT 如 LoRA 试图降低成本,但仍有两大缺陷——(1)强烈依赖模型架构,跨不同尺度模型(3B→14B)转移性差;(2)多个 LoRA 适配器线性组合缺乏理论支撑。

现有痛点:无法在不访问 LLM 内部参数前提下灵活高效地增强推理能力;无法跨模型尺度复用训练好的推理能力;无法组合多个不同任务的推理模块。

核心矛盾:推理增强需要参数更新(传统微调)但模型通常冻结;多任务学习需要端到端重训(多目标冲突)。

本文目标:设计模块化、可转移、可组合的推理增强方法。

切入角度:观察到可验证奖励(如数学问题正确性)可通过轨迹级信号转换为令牌级指导。将轨迹级奖励建模为推理模块的对数概率之和,使得逻辑叠加成为自然的组合机制。

核心 idea:分离奖励模型训练与策略更新,训练专用推理模块 \(\pi_r\) 以最大化可验证奖励,推理时通过添加其逻辑 \(\log\pi_r\) 到冻结骨干 \(\pi_b\) 的逻辑来指导令牌生成。

方法详解

整体框架

UniR 将 LLM 推理增强分解为两阶段——训练阶段在较小骨干模型上训练推理模块 \(\pi_r\),使用可验证奖励和 GRPO 算法;推理阶段将训练好的 \(\pi_r\) 与任意冻结 LLM 组合,通过逻辑叠加进行令牌级指导。

关键设计

  1. 轨迹奖励转令牌指导的理论映射:

    • 功能:将全局轨迹奖励分解为每个令牌的指导信号。
    • 核心思路:假设轨迹奖励可表示为推理模块对数概率之和 \(\frac{1}{\beta}r(x,y)=\sum_{t=1}^{|y|}\log\pi_r(y_t|x,y_{<t};\phi)\)。通过替代 KL 正则目标中的奖励,导出最优策略 \(\log\pi_\theta(y_t|x,y_{<t})=\log\pi_b(y_t|x,y_{<t})+\log\pi_r(y_t|x,y_{<t})-\log Z'(x,y_{<t})\)。定理 4.1 证明收敛时 \(\log\pi_r(y_t|x,y_{<t})=\frac{1}{\beta}Q^*(y_t|x,y_{<t})\)
    • 设计动机:传统轨迹级奖励无法直接指导每一步生成;通过结构化假设将其转换为令牌级指导。
  2. 推理模块的 GRPO 训练:

    • 功能:在不修改冻结骨干前提下训练推理模块最大化可验证奖励。
    • 核心思路:采用 GRPO,从 \(\pi_b\) 采样 G 个候选响应,计算每个响应的外部奖励 \(r_i\),归一化优势 \(A_i=\frac{r_i-\text{mean}(\{r_1,...,r_G\})}{\text{std}(...)}\),然后在 GRPO 目标上优化 \(\phi\)。梯度中的比率项自动消除骨干项只影响 \(\pi_r\)
    • 设计动机:GRPO 无需显式价值函数且对奖励稀疏友好,适合可验证奖励场景。
  3. 多模块逻辑叠加的可组合性:

    • 功能:支持多个不同任务的推理模块在推理时无缝组合。
    • 核心思路:对 \(N\) 个不同奖励函数 \(\{r_1,...,r_N\}\),分别训练 \(N\) 个推理模块 \(\{\pi_r^1,...,\pi_r^N\}\)。推理时组合为 \(\log\pi_\theta(y_t|x,y_{<t})\propto\log\pi_b(y_t|x,y_{<t})+\sum_{i=1}^{N}\alpha_i\log\pi_r^i(y_t|x,y_{<t})\),权重 \(\alpha_i\) 可动态调整。
    • 设计动机:推理往往涉及多个约束;逻辑叠加既是原则性解又允许零代价组合。

实验关键数据

主实验

模型配置 GSM8K MATH-500 AIME24 平均提升
Llama3.2-3B 骨干 65.6 33.0 3.7 基线
+ GRPO LoRA (3B) 65.8 32.1 6.0 -0.3%
UniR (1B + 3B) 77.5 48.8 7.3 +35.2%
Qwen2.5-3B 骨干 74.4 44.2 6.3 基线
UniR (1.5B + 3B) 75.6 48.3 8.1 +6.8%

消融实验

实验项 描述 性能
推理模块单独 1B \(\pi_r\) 独立生成 远低于组合
无推理模块 仅冻结 3B 骨干 65.6 (GSM8K)
+推理模块(有调优) 结合后 77.5
多模块(α₁=1, α₂=0.5) 数学+翻译加权 72.3

关键发现

  • 弱强转移——1B 推理模块能有效指导更大模型(14B),无需重训。
  • 可组合性验证——多模块加权组合在不同权重下表现稳健。
  • 奖励内化——训练后推理模块对正确响应(r=1)的对数概率显著高于错误响应(r=0)。

亮点与洞察

  • 优雅的理论基础:从 KL 正则多目标优化出发严格推导逻辑叠加。
  • 零重训转移:推理模块跨模型尺度转移无需微调。
  • 推理时组合灵活性:多模块加权融合在推理阶段即时可调。
  • 实证 Q 函数学习:通过对数概率分离验证了推理模块确实在学习令牌级最优决策信号。

局限与展望

  • 假设局限——方法假设轨迹奖励可分解为令牌对数概率之和。
  • 推理模块能力瓶颈——受其初始大小和训练数据限制。
  • 权重选择问题——多模块组合时权重 \(\alpha_i\) 需手调。
  • 改进:探索非分离式奖励的令牌级分解;设计自适应权重学习。

相关工作与启发

  • vs PEFT (LoRA):LoRA 依赖模型内部维度,跨尺度转移困难;UniR 通过逻辑层指导解耦架构依赖。
  • vs Reasoning Vectors:后者用 RL 与 SFT 差分修改模型参数;UniR 用独立推理模块更轻便。
  • vs RAST/GenARM:UniR 直接用可验证奖励训练推理模块更原则性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将轨迹级奖励系统地映射到推理模块的令牌级对数概率。
  • 实验充分度: ⭐⭐⭐⭐⭐ 多个数学基准对比 + 消融验证弱强转移和多模块组合。
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、推导严格、实验有据。
  • 价值: ⭐⭐⭐⭐⭐ 解决冻结 LLM 推理增强的关键问题,通用、低成本、易部署。