Perception-Aware Policy Optimization for Multimodal Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=izbBqTL8vb
代码: 待确认
领域: 多模态VLM / LLM推理 / 强化学习
关键词: 多模态推理, RLVR, GRPO, 隐式感知损失, 训练稳定性

一句话总结¶

针对多模态 RLVR 中 67% 的错误其实源于"看不准图"这一被忽视的瓶颈，本文提出 PAPO，在 GRPO/DAPO 的优化目标里加一项"原图 vs 遮挡图"之间的隐式感知 KL 损失（外加双熵正则防崩溃），不需要任何额外标注/奖励模型/教师模型，就在 8 个多模态推理基准上带来 4.4%–17.5% 的整体提升、感知错误下降 30.5%。

研究背景与动机¶

领域现状：RLVR（带可验证奖励的强化学习）靠"格式 + 答案正确性"这类规则化奖励，把 DeepSeek-R1、GRPO 这类纯文本 LLM 的长链推理能力训得很强。自然地，一大批工作把 GRPO 直接搬到大型多模态模型（LMM）上，期望复刻同样的推理增益。

现有痛点：但搬过去的几乎只是"换了输入带图片"，优化目标本身原封不动——大家把精力都花在改数据、改 rollout 质量、改奖励设计上，而 GRPO 的目标函数仍然是文本时代的样子。结果是多模态推理一直追不上纯文本推理。

核心矛盾：作者做了一件关键的诊断工作——用标准 GRPO 训练 Qwen2.5-VL-3B，人工标注 200 个错误样本，发现 67% 的错误来自感知（perception），即模型逻辑/代数推理本身没问题，但把图看错了（比如几何题里把 \(x\) 关联到错误的边）。根因在于：GRPO 目标里没有任何一项激励模型去生成"真正依赖视觉"的回答——只要最终答案对，模型靠文本先验蒙对也照样拿奖励。

本文目标：能不能在多模态 RLVR 里同时提升感知和推理，而且不靠额外数据/奖励模型？

切入角度：以往承认感知重要的工作（加 captioning 奖励、加感知评分奖励）都把感知和推理硬性切开两阶段，还得额外挂一个大的神经网络奖励模型，又贵又受奖励模型能力上限制约。作者反过来想：感知激励能不能直接写进核心优化目标里，让模型"边学推理边学看图"，而不是分两步？

核心 idea：用一个"原图 vs 被遮挡图"之间的 KL 散度（信息增益视角）当隐式监督——如果遮掉图后模型对同一回答的概率掉得越多，说明这个回答越依赖视觉；最大化这个 KL 就等于逼模型生成视觉接地（visually grounded）的回答，全程无需任何外部监督。

方法详解¶

整体框架¶

PAPO（Perception-Aware Policy Optimized）是一个可以直接替换 GRPO/DAPO 的策略梯度算法，输入是 RLVR 标准三元组（视觉输入 \(I\)、问题 \(q\)、短答案 \(a\)），不需要 CoT 数据、也不做 SFT，直接 RL 训练。它在原本的 GRPO 目标上叠加两项：一项隐式感知损失（拉开"看原图"和"看遮挡图"的策略分布），一项双熵正则（防止前者被 hack 到崩溃）。

整体一次更新的流转是：策略模型对原图问题做 rollout 拿到一组回答 → 同一组回答同时在"原图"和"随机遮挡图"两条前向上各算一次概率 → 二者的 KL 差就是隐式感知损失（要最大化）→ 再用参考模型和答案验证器算原本的 GRPO 优势与奖励 → 把感知损失、双熵正则、GRPO 目标合成一个总目标更新参数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图 I + 问题 q"] --> B["策略模型 rollout<br/>采样一组回答 {o_i}"]
    B --> C["随机遮挡图 I_mask<br/>patch 级遮挡 ~60%"]
    B --> D["隐式感知损失 KL_prcp<br/>最大化 原图↔遮挡图 分布差"]
    C --> D
    B --> E["双熵正则<br/>压低两路 rollout 熵防崩溃"]
    C --> E
    B -->|答案验证器 + 组内归一化| F["GRPO 目标<br/>优势 + 参考 KL 惩罚"]
    D --> G["PAPO 总目标<br/>更新策略参数"]
    E --> G
    F --> G

关键设计¶

1. 隐式感知损失：用"遮图前后的分布差"当无监督感知信号

这是 PAPO 的核心，直接针对"GRPO 不激励视觉接地"这个痛点。作者定义一个感知比率 \(r_{prcp}(\theta)=\dfrac{\pi_\theta(o\mid q,I)}{\pi_\theta(o\mid q,I_{mask})}\)，其中 \(o\) 是生成的 token 序列，\(I_{mask}\) 是把原图遮掉一大块后的"损坏版"。从信息增益（Shannon）视角看，这个比率衡量"抽掉有意义的视觉信息后，模型输出分布变化了多少"：比率高说明没了图模型就给正确回答打很低的概率，即回答真的依赖视觉；比率低说明遮不遮无所谓，模型其实靠文本先验在答。

因此对一个"会看图"的模型，我们希望 \(r_{prcp}\) 高，于是把它写成一项要最大化的 KL 散度加进 GRPO：\(D_{KL}[\pi_\theta\|\pi_\theta^{mask}]=D_{KL}[\pi_\theta(o\mid q,I)\,\|\,\pi_\theta(o\mid q,I_{mask})]\)，实现上按 Schulman 的无偏估计写成 \(r_{prcp}-\log r_{prcp}-1\)。妙处在于：它是隐式的——不需要标注哪里该看、不需要 captioning、不需要外挂奖励模型，纯靠模型自己跟"瞎眼版的自己"对比就产生了感知监督，开销极小。

2. 双熵正则（Double Entropy Loss）：给无界的感知 KL 套上缰绳

隐式感知损失理论上无界，直接最大化会被模型"钻空子"（KLprcp Hacking）：模型发现只要在原图下生成一堆和图无关的乱 token，就能把原图/遮挡图的分布差拉得很大，从而把 KL 刷高、但推理彻底崩溃。作者观察到崩溃的代表性前兆是两路 rollout（\(\pi_\theta\) 与 \(\pi_\theta^{mask}\)）的熵同时飙升。

于是引入双熵损失，同时压低这两路的熵：\(H[\pi_\theta]=\log\pi_\theta(o\mid q,I)\)、\(H[\pi_\theta^{mask}]=\log\pi_\theta(o\mid q,I_{mask})\)，各配权重 \(\eta_1,\eta_2\)。它直击崩溃的内在信号，能在不牺牲性能的前提下稳住训练；实验里它比"只压一路熵"等替代正则都更稳，尤其在去掉参考 KL 惩罚（DAPO）的设定下几乎不可或缺。合并后的完整目标（以 GRPO 版 PAPOG 为例）为：

\[J_{PAPO_G}(\theta)=J_{GRPO}(\theta)+\gamma D_{KL}[\pi_\theta\|\pi_\theta^{mask}]-\eta_1 H[\pi_\theta]-\eta_2 H[\pi_\theta^{mask}]\]

其中 \(\gamma\) 是感知损失权重，需谨慎调（见实验：\(\gamma\) 过大如 0.04 会引发连双熵都救不回的崩溃）。

3. patch 级随机遮挡：怎么造"损坏图" \(I_{mask}\) 才有效

感知信号的质量取决于怎么遮图。作者比较了两类策略：随机遮挡（patch 均匀采样遮掉）和语义感知遮挡（用 DINOv2 的 patch 自注意力分数挑显著区域优先遮）。直觉上语义遮挡应该更"狠"，但实测随机遮挡反而更好——作者推测语义遮挡会把整块显著区域一次抹掉，逼模型对所有物体平均用力、反而抓不住最有信息量的局部；而且它几乎零额外开销。

另外作者特意论证了为什么用 patch 遮挡而非加高斯噪声：像素级噪声即便很大也保不住会把语义抹掉（图里物体还看得出来），而 patch 遮挡能干净地移除语义内容，才能制造出真正"信息缺失"的对照。遮挡比例上，0.6–0.8 最佳；完全涂黑（1.0）反而不好——它会让模型不分内容地一律去"看"图，更容易触发 KLprcp Hacking。

损失函数 / 训练策略¶

在 ViRL39K 上从 Qwen2.5-VL-3B/7B、Qwen3-VL-2B 直接 RL 训练 2 个 epoch，学习率 1e-6，规则化验证器给奖励，不用 SFT、不用 CoT 数据。默认超参：无参考 KL 时 \(\gamma\) 要更保守（如 0.01）且双熵必开；PAPOG-3B 用 \(\gamma=0.02\)、PAPOG-7B 用 \(\gamma=0.01\) 是较好默认值；遮挡用 random @0.6。DAPO 版（PAPOD）同理推导。

实验关键数据¶

主实验¶

8 个多模态推理基准（avg@8 准确率 %），\(\Delta\%_{rel}\) 为相对各自基线的平均相对增益。整体提升 4.4%–17.5%，在高视觉依赖子集上更显著（8.0%–19.1%）。

模型 / 方法	General AVG	Vision-Dep AVG	Overall	Overall \(\Delta\%_{rel}\)
GRPO-3B	51.89	42.97	47.92	—
PAPOG-3B	53.39	45.57	49.92	↑4.36
GRPO-7B	62.51	54.11	58.78	—
PAPOG-7B	63.50	59.37	61.66	↑4.39
DAPO-7B	57.58	51.79	55.01	—
PAPOD-7B	65.83	59.82	63.16	↑17.54
GRPO-2B (Qwen3-VL)	49.13	43.97	46.84	—
PAPOG-2B	51.36	46.73	49.30	↑5.25

注意 PAPOD-7B 的视觉依赖子集相对增益高达 19.09%，且训练动态上 DAPO-7B 后期会模型崩溃，而 PAPOD 靠双熵正则持续上升不崩。感知错误经人工复核下降 30.5%。PAPO 还收敛更快，约 25 步就出现早期增益。

消融实验¶

配置	Overall \(\Delta\%_{rel}\) (3B)	说明
random @0.6	↑2.97	最优遮挡策略
semantic @0.6	↑1.02	语义遮挡反而更差
random @0.4 / 0.8 / 1.0	↑1.88 / ↑2.02 / ↑1.42	0.6–0.8 最佳，全黑(1.0)最差
\(\gamma=0.02\)	↑4.36	3B 较优默认
\(\gamma=0.04\) (collapsed)	↓28.46	权重过大直接崩溃

关键发现¶

感知是真瓶颈：67% 错误来自感知，PAPO 把它压低 30.5%，证明动机站得住。
随机 > 语义遮挡：简单的随机遮挡反而比 DINOv2 语义遮挡好，且零开销；遮挡比例 0.6–0.8 最优，全黑不行。
\(\gamma\) 是双刃剑：≤0.02 单调变好且对视觉依赖任务增益最大，0.04 会触发连正则都救不回的崩溃，大模型对高 \(\gamma\) 更敏感。
正交可叠加：PAPO 只改优化目标，与改 rollout 的 NoisyRollout 兼容，组合后还能再涨（51.89→51.89… overall 50.61→51.89）。
低视觉依赖也稳：往纯文本 MMLU-pro 插入纯噪声"假图"，PAPO 仍不掉点，说明不会盲目去看无意义视觉 token。

亮点与洞察¶

把"诊断"做成了方法的灵魂：先用 200 例人工错误分析定位"67% 是感知错"，再针对性地造一项感知损失——动机不是空喊，而是被数据钉死的，很有说服力。
隐式感知损失的设计极简却深刻：用"和瞎眼版自己对比"代替"外挂奖励模型/教师"，把感知监督变成模型自产自销的信号，零标注零额外模型，可直接 drop-in 进任意 RLVR 算法。
暴露并命名了一个新失效模式：KLprcp Hacking（最大化无界 KL → 生成无关 token 刷分崩溃），并给出可观测前兆（两路熵齐升）和对症正则（双熵），这套"发现-诊断-修复"闭环本身就很可迁移。
"用遮挡造信息差"这一招可外迁：任何想衡量"输出是否真依赖某模态/某输入"的场景，都能借鉴"原始 vs 损坏输入的分布 KL"这个无监督探针。

局限与展望¶

隐式感知损失对所有实例、所有 token 一视同仁地施加，是极简设计；对天然不需要看图的样本可能是冗余监督，作者也承认这是可优化处（按视觉依赖度自适应加权会更优雅）。
训练稳定性高度依赖 \(\gamma\) 与双熵正则的调参，\(\gamma=0.04\) 即崩溃、大模型更敏感，落地时需要小心 grid search，鲁棒区间偏窄。
评测只取 exact-match 类任务、回避了需要 LLM-as-judge 的自由生成题，对"感知提升是否迁移到开放式多模态生成"还缺直接证据。
遮挡策略停在 random/semantic 两种，未探索更结构化的遮挡（如按问题相关区域动态遮），感知信号的上限可能还没摸到。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把感知监督做进 RLVR 核心优化目标、且无需任何外部监督的工作。
实验充分度: ⭐⭐⭐⭐⭐ 8 基准 × 多模型规模 × GRPO/DAPO 双底座，错误分析、稳定性深挖、兼容性全覆盖。
写作质量: ⭐⭐⭐⭐ 动机-诊断-方法-失效模式逻辑链清晰，公式与图配合到位。
价值: ⭐⭐⭐⭐⭐ 即插即用、零成本、可叠加，对多模态 RLVR 社区实用性很高。