ProxyThinker: Test-Time Guidance Through Small Visual Reasoners¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dt6fnFypEn
代码: https://github.com/MrZilinXiao/ProxyThinker
领域: 多模态VLM / LLM推理
关键词: 视觉推理, 解码时引导, logits 差分, 强化微调, 慢思考

一句话总结¶

ProxyThinker 提出一种完全免训练的推理时方法：把一个小的「RFT 推理专家」与同尺寸「base 业余模型」的 token 级 logits 差分，按系数 \(\alpha\) 加到大 base 模型的输出 logits 上，就能让 32B/72B 大模型在不更新任何参数的前提下"继承"小模型经强化微调学到的自我验证、自我纠错等慢思考行为，在数学与多学科视觉推理基准上逼近甚至超过同尺寸全量 RFT 模型，并通过 vLLM 异步并行实现做到 38× 加速。

研究背景与动机¶

领域现状：当前让大视觉语言模型（LVLM）具备"慢思考"推理能力的主流路线是可验证奖励强化学习（RLVR / RFT）——用 PPO、GRPO 这类算法，奖励能自动验证答案正确性的中间推理过程，从而把模型推向会分支讨论、会回溯、会自我检查的推理模式。OpenAI-o1、DeepSeek-R1、QwQ 都是这一路线的产物。

现有痛点：RFT 极其昂贵。一方面 PPO/GRPO 需要同时维护多份模型副本（policy、reference、reward 等），显存开销巨大；另一方面训练在 rollout 与优化两阶段间反复横跳，流程复杂、耗时极长。结果是：业界几乎没人敢对 7B 以上的 LVLM 做 RFT，模型规模一上去训练就负担不起。

核心矛盾：想要大模型的强容量 + RFT 的推理行为，但二者乘在一起的训练成本无法承受。而近期一批工作（Yue et al. 2025b 等）指出一个关键观察：RFT 并不教给模型新知识，只是放大了 base 模型采样分布里本就潜在的推理行为。也就是说，"慢思考"能力在大 base 模型里其实已经存在，只是没被激活。

本文目标：能否绕开对大模型的 RFT，直接从一个便宜的小模型身上把"激活推理行为"这件事迁移过来？

切入角度：作者借鉴解码时引导（decoding-time steering，如 DExperts、Contrastive Decoding）的思路——既然 RFT 的作用是把概率质量移向慢思考 token，那么"小 RFT 专家"与"小 base 业余模型"在每一步的 logits 之差，恰好就是 RFT 这一行为偏移的显式信号，且这个信号是模型尺寸无关的。

核心 idea：用「小专家 logits − 小业余 logits」这个差分向量去引导「大 base 模型」的解码，把小模型学到的推理行为"代理"到大模型上，全程零训练。

方法详解¶

整体框架¶

ProxyThinker 在自回归解码的每一步同时跑三个模型：一个待引导的大 Base 模型 \(\Psi\)（如 Qwen2.5-VL-32B/72B），一个小的 base Amateur 模型 \(\psi_0\)（Qwen2.5-VL-7B），以及它经 RFT 得到的小 Expert 模型 \(\psi_1\)（如 VL-Rethinker-7B）。三者共享同一组输入图像 \(I\) 与当前文本前缀 \(x_{<t}\)，各自算出 logits \(z_\Psi\)、\(z_{\psi_0}\)、\(z_{\psi_1}\)。ProxyThinker 把 Expert 与 Amateur 的 logits 之差作为"RFT 行为方向"，按系数 \(\alpha\) 叠加到大模型 logits 上后再 softmax 采样，采到的 token 拼回前缀，喂给三个模型进入下一步——形成一个贯穿整段生成的反馈回路。最终大模型的"行为"被悄悄改写成了慢思考推理者，但参数一个都没动。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 I + 文本前缀 x<t"] --> B["大 Base 模型 Ψ<br/>算 logits z_Ψ"]
    A --> C["小 Expert ψ1 / 小 Amateur ψ0<br/>logits 差分提取 RFT 行为"]
    C --> D["业余模型校准<br/>用 ψ0 抵掉公共偏置"]
    B --> E["test-time logits 引导<br/>z_Ψ + α·(z_ψ1 − z_ψ0)"]
    D --> E
    E -->|采样 token 拼回前缀| A
    E --> F["慢思考输出<br/>自我验证 / 自我纠错"]

关键设计¶

1. logits 差分作为 RFT 行为的载体：免训练迁移慢思考

本文要解决的痛点是"大模型 RFT 训不起"。作者的做法是把 RFT 的效果抽象成一个可加的方向向量：既然 RFT 只是放大 base 分布里已有的推理行为，那么同一尺寸下「RFT 专家 \(\psi_1\)」减去「未训练业余 \(\psi_0\)」的 logits 之差 \(z_{\psi_1}-z_{\psi_0}\)，就近似等于"RFT 这一步把哪些 token 抬高、哪些压低"的纯净信号。它在词表上是稠密的，且与模型规模解耦——小模型上算出来的差分，可以直接搬去引导大模型。最终 ProxyThinker 模型 \(\hat\Psi\) 的输出分布为：

\[p(x_t \mid x_{<t}, I) = \mathrm{softmax}\big[\,z_\Psi(x_t \mid x_{<t}, I) + \alpha \cdot \big(z_{\psi_1}(x_t \mid x_{<t}, I) - z_{\psi_0}(x_t \mid x_{<t}, I)\big)\big]\]

它有效的原因在于：大 base 模型本身就具备深层推理的"容量"，缺的只是把慢思考行为激活的"触发"；而小专家虽然懂得在该犹豫时输出 "Wait/However/But"，却因容量有限只能做浅层推理（比如反复重述选项）。把前者的容量与后者的行为信号相加，等于让大模型在大模型自己的知识储备上执行慢思考，二者优势互补。论文图 2 的案例显示：单独的大/小 base 模型读到一段错误推理后都会草率给答案，小专家会"质疑"但纠不对，叠加 logits 差分后大模型被成功触发出有效的自我纠错并选对答案。

2. 三模型代理架构：Base / Expert / Amateur 的角色分工

ProxyThinker 刻意用三个而非两个模型。大 Base 模型 \(\Psi\) 是被引导对象、提供知识与容量；小 Expert \(\psi_1\) 提供"RFT 后应该怎么推理"；小 Amateur \(\psi_0\) 提供"RFT 前同尺寸模型本来怎么推理"。关键点在于：单看 \(z_{\psi_1}\) 会把小模型自身的能力短板和偏置也一起带进来；只有用同尺寸、同架构、仅差一次 RFT 的 \(\psi_0\) 去做差，才能抵消掉与 RFT 无关的公共成分，剩下的才是 RFT 真正贡献的行为偏移。训练成本上，作者只需对 7B 小模型做一次 RFT 得到 \(\psi_1\)，远比直接 RFT 一个 32B/72B 大模型便宜，这正是"代理（proxy）"二字的由来。

3. 业余模型的校准作用：与朴素对比解码的本质区别

为了证明 Amateur 不可或缺，作者对比了一个改版对比解码 baseline：它只用 \(z_\text{base}+\alpha\cdot z_\text{expert}\)（直接加专家 logits，不做差）。\(\alpha\) 扫描实验（图 4）显示 ProxyThinker 全程显著优于该 baseline。原因是：直接加 \(z_{\psi_1}\) 会把小专家分布的绝对偏置强行灌进大模型，污染其原有能力；而 \(z_{\psi_1}-z_{\psi_0}\) 是相对量，\(\psi_0\) 起到把专家分布"归零校准"的作用，只保留 RFT 引入的增量，从而既注入推理行为又不破坏大模型本身的强分布。作者还观察到一个直观规律：\(\alpha\) 越大、差分主导性越强，性能逐渐向"小专家本身"收敛（\(\alpha\to1.5\) 时退化）；\(\alpha\in[0.1,1.0]\) 都能稳定带来增益，方法对 \(\alpha\) 高度鲁棒、无需调参。

4. 异步张量并行调度：把多模型解码的开销压下去

同时跑三个模型天然昂贵，过去的解码时引导方法用粗粒度流水并行——专家模型必须等 base 模型走完所有流水阶段才能动，多 GPU 上留下大量空闲（图 3）。ProxyThinker 在 vLLM 上实现协同解码，复用 KV cache、张量并行、连续批处理；并进一步发现小模型增大张量并行规模收益递减，于是只给大 base 模型做张量并行，把小 Expert / Amateur 放进独立的张量并行进程组里异步执行，三方 logits 仅在采样前用集合通信同步一次。这套调度把 GPU 空闲降到最低：相比所有旧方法采用的 Huggingface 实现获得约 33× 加速，再靠优化的 TP 分组多砍 13%，总计 38× 加速，整体耗时已逼近直接跑一个 32B RFT 专家。

一个完整示例¶

以图 2 的 MathVision 题目"房间面积是多少"为例：给定同一段错误的中间推理后，大 Base 模型（Qwen2.5-VL-32B）和小 Base 模型都倾向直接顺着错误过程给出最终答案；小 Expert（RFT 7B）会在 "Wait/However/But" 等 token 上分配高概率、表现出自我验证意愿，但受限于 7B 容量只能浅层地"把选项重述一遍"，纠不到正确答案。ProxyThinker 把 \(z_{\psi_1}-z_{\psi_0}\) 以 \(\alpha=0.5\) 叠加到大模型上后，大模型被触发出"Wait, let's double check"，并真正利用自身能力把房间拆成一个大矩形加两个小矩形重新计算，最终选对 (E)。图 6 进一步显示：解码早期差分信号噪声大、只在一些 byte 级乱码 token 上小幅扰动；到了推理中后段差分变得结构化，明确把响应导向自我反思模式。

实验关键数据¶

主实验¶

在数学与多学科推理基准上评测，\(\alpha=0.5\)，Pass@1 贪心解码。Base 为 Qwen2.5-VL-32B/72B，Amateur 固定为 Qwen2.5-VL-7B，Expert 取三个公开 7B RFT 模型。

Base 模型	Expert	MathVista	MathVerse	MathVision	MMMU-Pro	R1-Bench	平均 Δ
Qwen2.5-VL-32B	–	74.7	53.8	38.4	49.5	49.4	0.0
Qwen2.5-VL-32B	OpenVLThinker-7B	77.4	53.8	40.8	51.8	53.0	+2.2
Qwen2.5-VL-32B	VL-Rethinker-7B	78.1	55.3	39.2	52.8	52.5	+2.4
VL-Rethinker-32B（全量RFT天花板）	–	78.8	56.9	40.5	50.6	50.8	+2.4
Qwen2.5-VL-72B	–	74.8	55.1	38.1	51.6	50.4	0.0
Qwen2.5-VL-72B	VL-Rethinker-7B	78.1	58.6	39.5	53.1	54.4	+2.7

最亮眼的一点：用只有 25.3% MathVision 准确率的 OpenVLThinker-7B 当专家，竟把 32B base 从 38.4% 抬到 40.8%，反超全量 RFT 的 VL-Rethinker-32B（40.5%）——专家本身很弱却能引导出更强结果，强力佐证迁移的是"行为"而非"知识"。

消融 / 分析实验¶

分析	关键指标	说明
去掉 Amateur（改用 \(z_\text{base}+\alpha z_\text{expert}\) 对比解码）	MathVision/MathVerse 全程更低	Amateur 的校准作用不可替代
\(\alpha\) 扫描 \([0.1,1.5]\)	0.1–1.0 均稳定增益；最优 \(\alpha\) 达 40.3/57.2	对超参鲁棒，默认 0.5 还非最优
推理开销（MathVision，8×A100）	HF 19133s → Ours 578s → 优化TP 501s	38× 加速，逼近直跑 32B RFT（451s）
推理行为统计（gpt-4o-mini 判定，3040 样本）	回溯 +137%、验证 +44%、子目标 +0.6%	继承专家的回溯/验证，又保住 base 的子目标规划

关键发现¶

专家质量决定增益上限：专家越强、推理路径越结构化，对大模型的提升越大；VL-Rethinker-7B 这一最强专家在 32B 与 72B 上都给出最佳平均增益。
Pass@k 的双刃性：纯 RFT 会降低推理边界（\(k\) 增大时多样性下降、pass@k 反而走低）；ProxyThinker 的 pass@k 曲线在 \(k\ge2\) 时夹在 base 与专家之间，既继承了专家的高效采样、又部分保留了 base 的多样化探索。
规模可扩展性：32B 上平均增益已与全量 RFT 相当、个别任务还能超天花板；72B 上增益幅度变小但仍全面为正。

亮点与洞察¶

把"训练"压缩成一个可加向量：核心洞见是"RFT = 放大已有行为"，于是用 logits 差分把这件事显式化、模块化，迁移时无需任何梯度更新——这是该方法最优雅的地方。
小模型反哺大模型：一个准确率 25% 的小专家能让 40% 的大模型再涨且超过全量 RFT，颠覆"老师必须比学生强"的直觉，说明引导的是激活机制而非答案本身。
Amateur 的"相对化"思想可迁移：用同尺寸未训练模型做差来剥离公共偏置、只留增量，这一校准技巧可推广到任何"想迁移某种微调行为却不想带入模型固有偏置"的解码时控制场景。
工程务实：异步 TP 分组让多模型解码从"慢 33 倍"变成"和直跑大模型差不多"，把解码时引导从论文 demo 推向可部署。

局限与展望¶

推理时三模型并存：即便有 38× 优化，仍需同时加载并运行 Base+Expert+Amateur 三模型，显存与算力占用高于单模型推理，端侧/低资源场景不友好。
依赖现成小 RFT 专家：方法本身免训练，但前提是存在一个同家族、同 tokenizer 的小 RFT 专家与对应 base 业余模型；换到没有现成专家的领域仍需先训一个小专家。
词表/架构耦合：logits 差分要求三模型共享词表与对齐的解码空间，跨架构（不同 tokenizer）迁移受限。
MMMU 验证集是例外：并非所有基准都涨，作者观察到 MMMU 验证集上未见一致提升，72B 上个别任务出现负增益（如 OpenVLThinker-7B 专家下 MathVision −1.9），弱专家可能引入负面效应。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"RFT=放大已有行为"落成可加 logits 差分、实现免训练大模型推理增强，视角新且自洽
实验充分度: ⭐⭐⭐⭐ 多基准、多 Base/Expert 组合、\(\alpha\) 扫描、Pass@k、行为统计、开销分析都齐，但 MMMU 等反例与负增益讨论略简
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，案例与可视化（图 2/图 6）有效支撑直觉
价值: ⭐⭐⭐⭐⭐ 为无法负担大模型 RFT 的场景提供实用、可部署的推理增强路径