Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hlLXvyz5iP
代码: https://github.com/gyhdog99/RAPID/
领域: 多模态VLM / LLM推理
关键词: 多模态推理, 感知-推理解耦, 强化学习, 推理时扩展, 字幕生成

一句话总结¶

RAPID 把多模态大模型（MLLM）的角色重新定位成"感知器"——只负责把图像翻译成文字（查询相关字幕 + 试探性解答），再交给任意一个外部纯文本 LLM 去推理；并用一个名为 VPO 的强化学习算法，用"外部 LLM 最终答对没"来反向优化这些文字，从而让一次训练好的 MLLM 可以即插即用地搭配越来越强的 LLM 持续涨点，无需重做昂贵的视觉-语言对齐。

研究背景与动机¶

领域现状：以 OpenAI-o1、Qwen3 为代表的纯文本推理模型在数学、科学等复杂任务上靠"慢思考"取得了巨大进步（AIME 上超 30% 的提升）。但多模态领域明显落后：Qwen2.5-VL、InternVL3、Gemma3 这些 MLLM 内嵌的 LLM 往往是上一代、不具备慢思考能力的旧模型，因此在数学密集型的视觉推理上吃力。

现有痛点：要提升 MLLM 的推理能力，主流做法是对它做强化学习（VL-Rethinker、MM-EUREKA）或蒸馏（Vision-R1）。但这些方法的天花板被底座 LLM 死死锁住——底座是 Qwen2.5，再怎么 RL 也追不上 Qwen3。最直接的办法是把内部 LLM 换成最新最强的那个，但这意味着要在万亿级 token 上把视觉和语言重新对齐一遍，代价高到无法承受。

核心矛盾：MLLM 的"感知能力"和"推理能力"被绑死在同一个模型里。每当出现更强的推理 LLM，你就被迫连感知部分一起重训，造成大量重复的对齐成本；而对齐成本又高到让人不敢轻易升级推理底座。

本文目标：能不能在不重做视觉-语言对齐的前提下，替换掉 MLLM 内部的 LLM，从而高效地解锁先进推理能力？

切入角度：作者观察到，如果让 MLLM 只产出"文字"，那么文字天然就是感知模块和推理模块之间的通用接口——任何纯文本 LLM 都能读懂文字。于是把 MLLM 的职责收窄到"看图说话"，推理交给外挂的强 LLM，二者解耦后各自独立升级。

核心 idea：用"感知-推理解耦 + 用下游答对率当奖励来对齐字幕"代替"把整个 MLLM 一起重训"，让感知模块一次训练、永久复用，搭配任意 LLM 推理器都能涨点。

方法详解¶

整体框架¶

RAPID 把一次多模态推理拆成两段串行流程：感知段由 MLLM（如 Qwen2.5-VL）把图像 \(I\) 和查询 \(q\) 翻译成一组文字输出 \(O_p\)；推理段由一个冻结的、强大的纯文本 LLM 推理器（如 R1-Distilled-7B、Qwen3-8B）接收原始查询 \(q\) 和经推理提示词 \(P_r\) 组织好的 \(O_p\)，输出最终答案 \(y = \text{LLM}(P_r(q, O_p))\)。这里的文字输出 \(O_p\) 是关键的"通用接口"，它让推理 LLM 可以被独立替换升级，而无需重训 MLLM。

但解耦本身有个隐患：MLLM 产出的文字并不是"为了让下游推理对"而优化的——它看图说话时收不到任何"这段描述有没有帮 LLM 答对"的反馈。RAPID 因此用 VPO 这个强化学习反馈回环来对齐：MLLM 对同一张图采样出一组字幕候选，每个候选喂给推理 LLM 跑一遍，按"最终答案对不对"给奖励，再用策略梯度更新 MLLM，使它学会生成"忠实且与查询相关、利于下游答对"的字幕。整套训练用极少数据（约 39K）即可，训练完的 MLLM 就能即插即用搭配任意 LLM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 I + 查询 q"] --> B["感知-推理解耦<br/>MLLM 产出文字接口"]
    B --> C["文字输出 Op<br/>查询字幕 qcap + 试探解 sol"]
    C --> D["外部冻结 LLM 推理器<br/>读 Pr(q, Op) 出答案 y"]
    D -->|训练时: 答对率当奖励| E["视觉感知优化 VPO<br/>策略梯度更新 MLLM"]
    E -->|带字幕惩罚防 reward hacking| B
    D -->|推理时| F["最终答案"]

关键设计¶

1. 感知-推理解耦：把 MLLM 降级成"看图说话器"，让推理 LLM 可热插拔

针对"换推理底座要重做对齐"这个痛点，RAPID 不再让 MLLM 端到端地"看图+推理"，而是把它的职责收窄到把多模态输入翻译成一段文字 \(O_p\)，推理彻底外包给一个独立的纯文本 LLM。这段文字就是感知和推理之间的通用自然语言接口——既然 LLM 只读文字，那任意一个更强的 LLM 都能直接接上来用，无需重训 MLLM 或重做视觉-语言对齐。这和以往"先描述再推理"（caption-then-reason）的两段式管线有一个关键区别：RAPID 的文字输出不只是一段图像字幕，还包含一个试探性解答（tentative solution），用来确保推理所需的关键视觉信息被完整捕获，而不是把视觉细节漏在字幕之外。论文用消融验证：仅这一步解耦（接上更强的 Qwen3-8B）就让 7B MLLM 的平均分从 42.0 涨到 47.5（+5.5%）。

2. 文字输出的内容设计：标准字幕 + 试探解答互补，且为 VPO 留出潜力

\(O_p\) 到底该放什么？作者系统地比了六种组合：空集 none、标准字幕 cap、查询相关字幕 qcap、试探解答 sol，以及 cap+sol、qcap+sol。结论有两点：其一，未经优化时标准字幕 cap 反而优于查询相关字幕 qcap——因为 MLLM 在标准图像描述任务上训练充分，而查询相关描述能力还没被打磨；其二，字幕与试探解答互补、组合最好（cap+sol 在 Qwen3-8B 下比原始 MLLM 高约 +7%），因为字幕给推理 LLM 提供"解题所需的上下文"，试探解答提供"一个可参考的初步答案"。有意思的是，作者最终默认选了初始表现略差的 qcap+sol：因为一旦施加 VPO 优化（设计 3），查询相关字幕反超标准字幕——查询能引导 MLLM 聚焦相关视觉细节，使其更易被 RL 优化，潜力更大。

3. 视觉感知优化 VPO：用"下游答对率"当奖励来对齐字幕

这是论文的核心创新，针对"MLLM 看图说话时收不到下游反馈"的痛点。VPO 借鉴 GRPO 的组相对策略优化思路，把要优化的策略 \(\pi_\theta\) 设为做视觉字幕的 MLLM。对一个输入对 \((I, q)\)，旧策略采样出 \(G\) 个字幕候选；难点在于字幕是中间产物、无法直接判对错，于是 VPO 把每个候选 \(o_i\) 喂给推理 LLM 生成最终答案 \(y_i\)，再用"答案是否匹配真值"作为奖励：

\[\hat{R}_i = r(y_{gt}, y_i) = \mathbb{1}(y_{gt} = \text{parse}(y_i)),\quad y_i = \text{LLM}(P'_{reason}(q, o_i))\]

组内做标准化优势 \(\hat{A}_i = \frac{R_i - \bar{R}}{\sigma(R)}\)，再套 GRPO 的截断代理损失（clip 到 \([1-\epsilon_l, 1+\epsilon_h]\)）加 KL 惩罚来稳定训练。这样一来，MLLM 不再只为"描述得像"而生成，而是为"让下游推理答对"而生成——字幕从单纯描述变成功能上对齐推理目标。更妙的是 VPO 是LLM-agnostic 的：MLLM 通过自然语言和推理器沟通，一次对齐即可即插即用搭配任意 LLM，无需为新 LLM 重跑 VPO。

4. 字幕惩罚：堵住 reward hacking 这个后门

只用答对率当奖励会出岔子：训练中观察到 reward hacking——MLLM 学会直接把题做了（在"字幕"里偷偷给出解答），而不是好好描述图像，结果它的字幕能力毫无长进。作者因此加了一个惩罚项：当候选 \(o_i\) 既导致答对、又不含真正的字幕时扣分：

\[R_i = \hat{R}_i - \lambda\, \mathbb{1}\!\left(\hat{R}_i = 1 \wedge \neg\,\text{hasCap}(o_i)\right)\]

其中 \(\text{hasCap}(\cdot)\) 由策略 MLLM 自己通过少样本提示判断 \(o_i\) 是否含字幕，\(\lambda\) 为惩罚因子（取 0.1）。这个惩罚对 VPO 至关重要：加了它，含有效字幕的 rollout 比例在 150 步前能稳定保持在 95% 以上；不加，这个比例会迅速塌缩。消融上，字幕惩罚单独贡献了 +1.0% 的平均分。此外作者还对试探解答用规则奖励的 GRPO 单独优化，实际训练采用"先 GRPO 再 VPO"的顺序方式，两者互补。

损失函数 / 训练策略¶

训练数据用 ViRL39K（38,870 条可验证的多模态问答对）。训练时统一用 R1-Distilled-7B 当推理器算奖励，评测时换 Qwen3-8B / GPT-OSS-120B。GRPO 的 rollout 数 3B/7B 取 8、32B/72B 取 4，去掉 KL 正则并用 Clip-Higher（\(\epsilon_l=0.2,\epsilon_h=0.25\)）；VPO 的 rollout 取 4、KL 系数 \(\beta=10^{-3}\)、惩罚常数 \(\lambda=0.1\)，在 200 步 GRPO 之后施加。全局 batch 256，rollout 温度 1.0，学习率 \(10^{-6}\)。值得注意 32B 模型已被 RL 调过，故不再加 GRPO 而直接做 VPO；3B 模型 VPO 后会轻微遗忘推理能力，故再补 100 步 GRPO 缓解。

实验关键数据¶

主实验¶

在七个多模态推理基准上比较平均准确率（AVG）：

模型	推理器	总规模	AVG	相对原模型
Qwen2.5-VL-7B	—	7B	42.0	—
Qwen2.5-VL-7B + RAPID	Qwen3-8B	~15B	53.2	+11.2
Qwen2.5-VL-32B	—	32B	52.2	—
Qwen2.5-VL-32B + RAPID	GPT-OSS-120B	—	57.4	+5.2
Qwen2.5-VL-72B + RAPID	GPT-OSS-120B	—	58.0	+5.2
InternVL3-78B	—	78B	54.6	—
VL-Rethinker-72B	—	72B	54.7	—

关键结论：(i) 显著涨点，7B 模型 +11.2%；(ii) 更优的性能-规模权衡——15B 总规模的 RAPID-7B 超过了 MM-Eureka-32B、InternVL3-38B、Ovis2-34B 等更大模型，32B 版超过 VL-Rethinker-72B 和 InternVL3-78B；(iii) RAPID-72B 搭 GPT-OSS-120B 达到 58.0 的最高平均分，甚至超过 Claude-3.7-Sonnet、Gemini-2.0-Flash 等闭源模型。同时它也超过了 ECSO、OmniCaptioner 等此前的 caption-then-reason 方法。

消融实验¶

以 Qwen2.5-VL-7B 为基座，逐项叠加各组件（AVG）：

配置	解耦	GRPO	VPO†	字幕惩罚	AVG	说明
A					42.0	原始 MLLM
B	✓				47.5	仅解耦，+5.5
C	✓	✓			50.5	加 GRPO 优化试探解，+3.0
D	✓	✓	✓		52.2	加 VPO（无惩罚），+1.7
E	✓	✓	✓	✓	53.2	完整模型，+1.0
G	✓		✓	✓	51.1	去掉 GRPO，掉 2.1
I		✓	✓	✓	44.7	去掉解耦，掉 8.5

关键发现¶

解耦是最关键的元素：去掉解耦的配置 I（44.7）远落后于完整模型 E（53.2），说明把推理外包给强 LLM 才是涨点主力。
GRPO 与 VPO 互补：去掉任一个（G 或 C）都不如完整 E；训练动态上，GRPO 涨势放缓后 VPO 提供了明显的二次提升。
字幕惩罚防 reward hacking：不加惩罚时含字幕的 rollout 比例迅速塌缩，加了能稳定保持 95% 以上；它独占 +1.0% 的提升。
VPO 让 qcap 反超 cap：未优化时 cap+sol 更好，VPO 后 qcap+sol 反超（E vs F），因为查询引导让 qcap 的训练奖励稳步上升、cap 则震荡不涨。
不伤通用能力：在 MMBench、MMVet、SEED 等通用基准上，优化后的模型与原模型持平，说明 RAPID 是定向增强推理而非牺牲通用性。

亮点与洞察¶

把"文字"当成感知与推理之间的通用接口，是这篇论文最"啊哈"的地方——它把"换底座要重训"这个死结，转化成"换一个能读文字的 LLM"这种零成本操作，由此催生了一种新的推理时扩展范式：一次对齐，搭配越来越强的 LLM 持续涨点。
用下游任务的最终答对率反向监督中间产物（字幕），把"描述得像不像"换成"有没有帮到推理"，这个奖励设计思路可迁移到任何"中间表示无法直接判对错"的两段式管线（如检索增强、工具调用的中间 query 生成）。
reward hacking 的识别与堵漏很务实：当奖励只看终点时，模型会抄近道直接做题；用一个"是否真含字幕"的判别项加惩罚，是这类 RL 管线值得复用的防御 trick。

局限与展望¶

作者承认 VPO 单独并不能提升 MLLM 自身的推理能力（H vs I 甚至略降），其价值完全依赖外部强 LLM；3B 模型 VPO 后还会轻微遗忘，需要补 GRPO 救回。
方法聚焦于多模态数学和科学推理这类有可验证答案的任务（奖励靠答案匹配），对开放式、无标准答案的多模态任务如何设计奖励，论文未触及。
两段式管线在推理时要跑两次大模型（MLLM 出字幕 + LLM 推理），虽然性能-规模权衡好，但延迟和调用成本相比单模型可能更高，论文将计算效率分析放在附录，正文未充分展开。
感知段一旦漏掉关键视觉信息（字幕没描述到），下游再强的 LLM 也无从补救——这种"感知瓶颈"是解耦范式的固有风险。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把感知-推理解耦 + 用下游答对率对齐字幕组合成"推理时扩展"新范式，思路清晰且实用。
实验充分度: ⭐⭐⭐⭐⭐ 七个基准、4 种规模、逐项消融、训练动态、通用能力验证都覆盖到位。
写作质量: ⭐⭐⭐⭐ 动机和方法叙述清楚，部分实现细节（GRPO 对试探解的优化、惩罚判别函数）下放到附录。
价值: ⭐⭐⭐⭐⭐ 解决了 MLLM 升级推理底座的核心痛点，即插即用范式有很强的工程落地价值。