Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/MiliLab/PEARL
领域: 多模态VLM / LLM推理 / 强化学习
关键词: RLVR, 视觉语言模型, 感知-推理协同, 奖励黑客, 多模态推理

一句话总结¶

针对 RLVR 训练视觉语言模型时「只验证文本答案、放任上游视觉感知出错」的缺陷，PEARL 用一份从原题派生的「感知清单」给每道推理题加一组可验证的感知子问题，把感知奖励既当作直接监督信号、又当作放行推理更新的「保真门控」，从而在 MathVerse 等 6 个多模态推理基准上相对 baseline 平均提升约 +9.7%。

研究背景与动机¶

领域现状：带可验证奖励的强化学习（RLVR，如 GRPO、DAPO）在大语言模型上显著提升了推理能力，近来被迁移到视觉语言模型（VLM）做多模态数学/逻辑推理。其标准做法是：给定图文问题，模型采样一组候选回答，规则验证器只看最终文本答案对不对来发奖励。

现有痛点：这种「只看结果」的奖励完全忽略了推理链最底层的一步——视觉感知是否正确。作者做了一个诊断实验：用 GRPO 微调一个领先 VLM，再按「感知错误（看错了图里的物体/数值/图表元素）」和「推理错误（逻辑或计算错）」两类拆解失败模式。结果很说明问题——GRPO 大幅降低了推理错误，但感知错误率几乎纹丝不动。

核心矛盾：当模型靠「看错的视觉前提 + 逻辑上看似合理的步骤」也能蒙对最终答案时，奖励照样发放，于是模型学会了生成「建立在错误感知之上的伪推理链」。这正是 reward hacking 与视觉幻觉的根源——感知与推理被错误地纠缠在一起，给性能和可靠性设了一道硬天花板。

本文目标：让强化学习信号既能直接奖励「看得对」，又能阻止模型在「没看对」时去强化推理，把感知正确性变成推理更新的前置门槛。

切入角度：作者提出一个朴素但关键的反问——「模型在推理之前，到底有没有把图看对？」要回答它，就需要一种可验证、低噪声的感知信号。已有「describe-then-reason」方案让模型先生成图像描述再由外部奖励模型/LLM 打分，但自由文本描述的「正确性」本身模糊、奖励噪声大、还要额外的判分模型，容易引发感知层面的 reward hacking。

核心 idea：把「自由文本描述」换成「从原 QA 派生、答案可规则验证的感知子问题清单」，用它产出的感知奖励同时充当①直接感知监督和②放行推理更新的保真门控——只有「看对了」才允许「学推理」。

方法详解¶

整体框架¶

PEARL 是一个建立在 GRPO 之上的双路径（感知路径 + 推理路径）协同强化学习框架。输入是一道多模态推理实例 \((Q_r, A_r)\)（图像 \(I\) + 推理问题 \(q_r\) + 标准答案）；输出是经过感知-推理协同优化后的策略。其核心是在每个训练步给推理题挂上一份感知清单，先跑一组「感知 rollout」算出平均感知奖励 \(\bar R_p\)，再用它决定推理路径是否放行、以及推理梯度该被放大还是抑制。整条流水线是：从原题派生感知清单 → 感知 rollout 得到 \(\bar R_p\) 当保真门控 → 仅当门控通过才跑推理 rollout → 用感知奖励重加权推理优势、配合在线过滤，最后用双目标联合优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["推理实例<br/>图像 I + 推理问题 q_r"] --> B["感知清单构建<br/>从原 QA 派生可验证子问题"]
    B --> C["感知 rollout<br/>规则验证得平均感知奖励 R̄_p"]
    C -->|"R̄_p = 0 早停、跳过本题"| A
    C -->|"R̄_p > 0 放行"| D["推理 rollout<br/>得推理奖励 R_r"]
    D --> E["感知重加权 + 软在线过滤<br/>R̄_p 缩放推理优势"]
    E --> F["双目标联合优化<br/>J_r + λ·J_p"]

关键设计¶

1. QA 锚定的感知清单构建：把模糊的「描述对不对」换成可规则验证的子问题

这是 PEARL 区别于 describe-then-reason 路线的根。给定一道推理题，作者不让模型生成长篇图像描述，而是按一套「操作指南」从原 QA 里派生若干答案简短、可规则验证（如一个数字或标签）的感知子问题。派生沿两个维度展开：内容来源维度有四种模式——直接抽取（图/题里明写的事实）、模式归纳（提炼解题所需的显著区域或结构线索）、派生计算（基于视觉模式做一步推断/计算）、答案反推（把原答案当约束，反推隐含的计数或关系）；技能维度则规定子问题考察哪种低层感知能力（识别物体、读趋势、计数、辨认几何排布等）。这样生成的子问题天然与原任务逻辑绑定，能充当核验模型「该看懂的关键视觉证据有没有看懂」的清单，而非随意的视觉问答。论文用 GPT-4.1 构建清单，并通过人评验证：QA 锚定清单的错误率仅 5.13%、无关率 5.53%，而对照的「描述增强稠密清单」无关率高达 60.78%（⚠️ 具体百分比以原文 Tab.5 为准）。

2. 感知保真门控 + 早停过滤：没看对就不许学推理，顺带省算力

把感知奖励变成放行推理更新的「闸门」是全文最关键的机制。每个训练步先把清单里 \(K\) 个感知子问题串成一条紧凑提示 \(\tilde Q_p = (I, Q_p^1, \dots, Q_p^K)\)，让 VLM 直接作答（不走中间推理），采样 \(G\) 组输出，规则验证器给每个子问题打分，单条输出奖励为 \(R_p^i = \frac{1}{K}\sum_{j=1}^{K} R_p^{i,j}\)，再对 \(G\) 组取平均得到 \(\bar R_p\)。这个 \(\bar R_p\) 既度量模型对该图的感知水平，又当保真门控：若 \(\bar R_p = 0\)，认为模型当前缺乏支撑该推理题的感知能力，直接早停、跳过推理 rollout 进入下一步；只有 \(\bar R_p > 0\)（视为「感知通过」实例）才允许推理 rollout 继续以获得推理奖励 \(R_r\)。它直接阻断了「在错误前提上强化伪推理链」这一 reward hacking 通路；同时随训练推进、感知变好，更多实例满足门控，模型自然地从「先学会看」过渡到「再啃难推理」，相当于一条无需人工设计的隐式课程。

3. 感知-推理协同优化：用感知奖励重加权推理梯度，并放宽在线过滤

光有门控只能「拦」，作者进一步让感知信号调制推理优化。其一是感知重加权：把组内归一化的推理优势 \(\hat A_r\) 重塑为 \(\hat A_r \leftarrow \hat A_r \cdot \min(\bar R_p, 0.5)\)，即用感知奖励当一个软可靠性先验来缩放推理梯度——感知扎实就放大该条推理的更新、感知可疑就压制，从而把优化偏向「既答对又看对」的策略，削弱纯靠虚假线索蒙对的解的竞争力。其二是软在线过滤：原始在线过滤只保留 \(\bar R_r \notin \{0,1\}\) 的样本以避免零方差无梯度，但这会误丢掉「推理奖励已饱和、可感知信号仍有用」的样本，于是放宽为 \(\bar R_r \notin \{0,1\} \;\lor\; \bar R_p \notin \{0,1\}\)，只要任一路径还有非平凡信号就保留。最后把两路并进双目标：\(J_{\text{dual}}(\theta) = J_{\text{GRPO}}(\theta; \hat A_r) + \lambda J_{\text{GRPO}}(\theta; \hat A_p)\)，\(\lambda\)（论文取 0.1）控制感知路径的相对贡献。

损失函数 / 训练策略¶

基础目标沿用 GRPO 的裁剪式目标 \(J_{\text{GRPO}}\)，优势按组归一化 \(\hat A_i = (r_i - \text{mean}\{r\}) / \text{std}\{r\}\)。在此之上 PEARL 用式 (5) 的双目标做联合更新。实现基于 EasyR1，AdamW，恒定学习率 \(1\times10^{-6}\)，全局 batch 128，每实例各跑 1 条推理 + 1 条感知 rollout、每条采 5 个回答，最大回答长度 2048，\(\lambda=0.1\)。基座为 Qwen2.5-VL-3B / 7B，主实验在 ViRL39K 上训练。值得注意的是组件消融（Tab.4）显示「移除 KL 正则」也是有效配置之一。

实验关键数据¶

主实验¶

在 OpenCompass 多模态推理榜的 6 个数据集上，PEARL 在 3B 与 7B 两个基座上的平均准确率都超过所有监督与 RLVR baseline。

基座	方法	MathVerse	MathVision	MathVista	WeMath	平均
3B	Base	31.2	21.9	61.2	22.9	31.8
3B	GRPO	34.9	26.8	64.7	26.9	34.8
3B	PAPOD（最强 baseline）	40.1	27.0	67.0	34.9	39.2
3B	PEARL	40.5	27.8	67.1	36.3	39.8
7B	Base	41.1	25.4	68.1	36.2	40.1
7B	GRPO	46.4	30.5	74.2	40.9	44.2
7B	DAPO	45.7	30.9	75.9	40.7	45.1
7B	PEARL	50.8	31.8	76.9	45.5	47.9

7B 上相对 base 在 MathVerse 提升 +9.7（50.8 vs 41.1）、相对 GRPO +6.6（50.8 vs 44.2）。相比 PAPO、Vision-SR1 等感知增强方法在不同数据集上波动较大，PEARL 在所有基准和两个基座上提升更均匀，说明其探针式设计跨场景迁移更稳。

消融实验¶

组件路线图消融（7B，从 GRPO 起逐项叠加）：

配置	MathVerse	LogicVista	WeMath	平均
GRPO	46.4	47.9	40.9	44.2
+ 感知清单	47.6	50.2	44.1	45.8
+ 软在线过滤并移除 KL	47.8	54.0	42.7	46.7
+ 感知重加权与早停（完整 PEARL）	50.8	51.9	45.5	47.9

感知清单设计消融（Tab.3，7B）：QA 锚定清单平均 47.9，远高于「描述增强稠密清单」的 45.5。

关键发现¶

「对齐与保真」胜过「数量与覆盖」：稠密清单虽探针更多更细，却引入大量任务无关干扰项（人评 60%+ 无关），反而拖累 RL 奖励；QA 锚定清单噪声极低，性能更好。
感知奖励本身就是有用的推理信号：泛化实验（Tab.2）中即便只用感知奖励训练（Perception-Only），在 Geo3K/MMK12 上也能比纯推理 baseline 带来非平凡增益（7B 上 +2.4/+2.5），印证「看得对」是「想得对」的前置条件；但单独用感知不够，必须与推理优化耦合。
几何/图表密集任务收益最大：WeMath、LogicVista 这类需细粒度视觉细节的任务提升最显著，说明强制感知正确能让模型真正利用视觉结构而非走文本捷径。

亮点与洞察¶

「保真门控」是一个朴素却有力的杠杆：用一个标量 \(\bar R_p\) 同时干三件事——直接监督感知、闸断错误前提下的推理更新、并隐式形成「先学看再学推」的课程，一个机制串起三重收益，设计极简。
把模糊奖励问题转成可规则验证问题：describe-then-reason 的痛点在于自由文本难打分，PEARL 用「答案是数字/标签的子问题」绕开外部奖励模型，既省算力又降噪声——这种「把难评的生成换成易验的判别」的思路可迁移到其他需要中间过程监督的 RLVR 任务。
即插即用：PEARL 可无缝接到 GRPO / DAPO 之上，作为补充信号而非替换框架，落地成本低。

局限与展望¶

感知清单依赖强外部模型（GPT-4.1）离线构建，清单质量与覆盖受生成器能力影响；论文也坦言 QA 锚定清单只覆盖原 QA 引用到的视觉细节，可能漏掉图中其他信息（但实验显示「更全」并不等于「更好」）。
评测集中在数学/逻辑类多模态推理基准，对开放域、长链条或非数理类多模态推理的有效性未充分验证。
门控用硬阈值 \(\bar R_p > 0\) 放行、重加权用 \(\min(\bar R_p, 0.5)\) 截断，这些阈值的敏感性与最优设定缺乏系统扫描；早停虽省算力，也可能让最难（始终感知不过关）的样本长期得不到训练。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「感知保真门控 + QA 锚定可验证清单」把感知正确性变成推理更新前提，切口清晰且诊断实验有力。
实验充分度: ⭐⭐⭐⭐ 6 基准 × 2 基座 + 泛化/组件/清单设计多重消融与人评，扎实；但阈值敏感性、非数理任务覆盖不足。
写作质量: ⭐⭐⭐⭐ 动机—诊断—方法—消融逻辑顺畅，公式与图表清楚。
价值: ⭐⭐⭐⭐⭐ 即插即用接 GRPO/DAPO，直击 VLM 推理的视觉幻觉/reward hacking 痛点，落地性强。