跳转至

Perception-Aware Policy Optimization for Multimodal Reasoning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=izbBqTL8vb
代码: 待确认
领域: 多模态VLM / LLM推理 / 强化学习
关键词: 多模态推理, RLVR, GRPO, 隐式感知损失, 训练稳定性

一句话总结

针对多模态 RLVR 中 67% 的错误其实源于"看不准图"这一被忽视的瓶颈,本文提出 PAPO,在 GRPO/DAPO 的优化目标里加一项"原图 vs 遮挡图"之间的隐式感知 KL 损失(外加双熵正则防崩溃),不需要任何额外标注/奖励模型/教师模型,就在 8 个多模态推理基准上带来 4.4%–17.5% 的整体提升、感知错误下降 30.5%。

研究背景与动机

领域现状:RLVR(带可验证奖励的强化学习)靠"格式 + 答案正确性"这类规则化奖励,把 DeepSeek-R1、GRPO 这类纯文本 LLM 的长链推理能力训得很强。自然地,一大批工作把 GRPO 直接搬到大型多模态模型(LMM)上,期望复刻同样的推理增益。

现有痛点:但搬过去的几乎只是"换了输入带图片",优化目标本身原封不动——大家把精力都花在改数据、改 rollout 质量、改奖励设计上,而 GRPO 的目标函数仍然是文本时代的样子。结果是多模态推理一直追不上纯文本推理。

核心矛盾:作者做了一件关键的诊断工作——用标准 GRPO 训练 Qwen2.5-VL-3B,人工标注 200 个错误样本,发现 67% 的错误来自感知(perception),即模型逻辑/代数推理本身没问题,但把图看错了(比如几何题里把 \(x\) 关联到错误的边)。根因在于:GRPO 目标里没有任何一项激励模型去生成"真正依赖视觉"的回答——只要最终答案对,模型靠文本先验蒙对也照样拿奖励。

本文目标:能不能在多模态 RLVR 里同时提升感知和推理,而且不靠额外数据/奖励模型?

切入角度:以往承认感知重要的工作(加 captioning 奖励、加感知评分奖励)都把感知和推理硬性切开两阶段,还得额外挂一个大的神经网络奖励模型,又贵又受奖励模型能力上限制约。作者反过来想:感知激励能不能直接写进核心优化目标里,让模型"边学推理边学看图",而不是分两步?

核心 idea:用一个"原图 vs 被遮挡图"之间的 KL 散度(信息增益视角)当隐式监督——如果遮掉图后模型对同一回答的概率掉得越多,说明这个回答越依赖视觉;最大化这个 KL 就等于逼模型生成视觉接地(visually grounded)的回答,全程无需任何外部监督。

方法详解

整体框架

PAPO(Perception-Aware Policy Optimized)是一个可以直接替换 GRPO/DAPO 的策略梯度算法,输入是 RLVR 标准三元组(视觉输入 \(I\)、问题 \(q\)、短答案 \(a\)),不需要 CoT 数据、也不做 SFT,直接 RL 训练。它在原本的 GRPO 目标上叠加两项:一项隐式感知损失(拉开"看原图"和"看遮挡图"的策略分布),一项双熵正则(防止前者被 hack 到崩溃)。

整体一次更新的流转是:策略模型对原图问题做 rollout 拿到一组回答 → 同一组回答同时在"原图"和"随机遮挡图"两条前向上各算一次概率 → 二者的 KL 差就是隐式感知损失(要最大化)→ 再用参考模型和答案验证器算原本的 GRPO 优势与奖励 → 把感知损失、双熵正则、GRPO 目标合成一个总目标更新参数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图 I + 问题 q"] --> B["策略模型 rollout<br/>采样一组回答 {o_i}"]
    B --> C["随机遮挡图 I_mask<br/>patch 级遮挡 ~60%"]
    B --> D["隐式感知损失 KL_prcp<br/>最大化 原图↔遮挡图 分布差"]
    C --> D
    B --> E["双熵正则<br/>压低两路 rollout 熵防崩溃"]
    C --> E
    B -->|答案验证器 + 组内归一化| F["GRPO 目标<br/>优势 + 参考 KL 惩罚"]
    D --> G["PAPO 总目标<br/>更新策略参数"]
    E --> G
    F --> G

关键设计

1. 隐式感知损失:用"遮图前后的分布差"当无监督感知信号

这是 PAPO 的核心,直接针对"GRPO 不激励视觉接地"这个痛点。作者定义一个感知比率 \(r_{prcp}(\theta)=\dfrac{\pi_\theta(o\mid q,I)}{\pi_\theta(o\mid q,I_{mask})}\),其中 \(o\) 是生成的 token 序列,\(I_{mask}\) 是把原图遮掉一大块后的"损坏版"。从信息增益(Shannon)视角看,这个比率衡量"抽掉有意义的视觉信息后,模型输出分布变化了多少":比率高说明没了图模型就给正确回答打很低的概率,即回答真的依赖视觉;比率低说明遮不遮无所谓,模型其实靠文本先验在答。

因此对一个"会看图"的模型,我们希望 \(r_{prcp}\) 高,于是把它写成一项要最大化的 KL 散度加进 GRPO:\(D_{KL}[\pi_\theta\|\pi_\theta^{mask}]=D_{KL}[\pi_\theta(o\mid q,I)\,\|\,\pi_\theta(o\mid q,I_{mask})]\),实现上按 Schulman 的无偏估计写成 \(r_{prcp}-\log r_{prcp}-1\)。妙处在于:它是隐式的——不需要标注哪里该看、不需要 captioning、不需要外挂奖励模型,纯靠模型自己跟"瞎眼版的自己"对比就产生了感知监督,开销极小。

2. 双熵正则(Double Entropy Loss):给无界的感知 KL 套上缰绳

隐式感知损失理论上无界,直接最大化会被模型"钻空子"(KLprcp Hacking):模型发现只要在原图下生成一堆和图无关的乱 token,就能把原图/遮挡图的分布差拉得很大,从而把 KL 刷高、但推理彻底崩溃。作者观察到崩溃的代表性前兆是两路 rollout(\(\pi_\theta\)\(\pi_\theta^{mask}\))的熵同时飙升

于是引入双熵损失,同时压低这两路的熵\(H[\pi_\theta]=\log\pi_\theta(o\mid q,I)\)\(H[\pi_\theta^{mask}]=\log\pi_\theta(o\mid q,I_{mask})\),各配权重 \(\eta_1,\eta_2\)。它直击崩溃的内在信号,能在不牺牲性能的前提下稳住训练;实验里它比"只压一路熵"等替代正则都更稳,尤其在去掉参考 KL 惩罚(DAPO)的设定下几乎不可或缺。合并后的完整目标(以 GRPO 版 PAPOG 为例)为:

\[J_{PAPO_G}(\theta)=J_{GRPO}(\theta)+\gamma D_{KL}[\pi_\theta\|\pi_\theta^{mask}]-\eta_1 H[\pi_\theta]-\eta_2 H[\pi_\theta^{mask}]\]

其中 \(\gamma\) 是感知损失权重,需谨慎调(见实验:\(\gamma\) 过大如 0.04 会引发连双熵都救不回的崩溃)。

3. patch 级随机遮挡:怎么造"损坏图" \(I_{mask}\) 才有效

感知信号的质量取决于怎么遮图。作者比较了两类策略:随机遮挡(patch 均匀采样遮掉)和语义感知遮挡(用 DINOv2 的 patch 自注意力分数挑显著区域优先遮)。直觉上语义遮挡应该更"狠",但实测随机遮挡反而更好——作者推测语义遮挡会把整块显著区域一次抹掉,逼模型对所有物体平均用力、反而抓不住最有信息量的局部;而且它几乎零额外开销。

另外作者特意论证了为什么用 patch 遮挡而非加高斯噪声:像素级噪声即便很大也保不住会把语义抹掉(图里物体还看得出来),而 patch 遮挡能干净地移除语义内容,才能制造出真正"信息缺失"的对照。遮挡比例上,0.6–0.8 最佳;完全涂黑(1.0)反而不好——它会让模型不分内容地一律去"看"图,更容易触发 KLprcp Hacking。

损失函数 / 训练策略

在 ViRL39K 上从 Qwen2.5-VL-3B/7B、Qwen3-VL-2B 直接 RL 训练 2 个 epoch,学习率 1e-6,规则化验证器给奖励,不用 SFT、不用 CoT 数据。默认超参:无参考 KL 时 \(\gamma\) 要更保守(如 0.01)且双熵必开;PAPOG-3B 用 \(\gamma=0.02\)、PAPOG-7B 用 \(\gamma=0.01\) 是较好默认值;遮挡用 random @0.6。DAPO 版(PAPOD)同理推导。

实验关键数据

主实验

8 个多模态推理基准(avg@8 准确率 %),\(\Delta\%_{rel}\) 为相对各自基线的平均相对增益。整体提升 4.4%–17.5%,在高视觉依赖子集上更显著(8.0%–19.1%)。

模型 / 方法 General AVG Vision-Dep AVG Overall Overall \(\Delta\%_{rel}\)
GRPO-3B 51.89 42.97 47.92
PAPOG-3B 53.39 45.57 49.92 ↑4.36
GRPO-7B 62.51 54.11 58.78
PAPOG-7B 63.50 59.37 61.66 ↑4.39
DAPO-7B 57.58 51.79 55.01
PAPOD-7B 65.83 59.82 63.16 ↑17.54
GRPO-2B (Qwen3-VL) 49.13 43.97 46.84
PAPOG-2B 51.36 46.73 49.30 ↑5.25

注意 PAPOD-7B 的视觉依赖子集相对增益高达 19.09%,且训练动态上 DAPO-7B 后期会模型崩溃,而 PAPOD 靠双熵正则持续上升不崩。感知错误经人工复核下降 30.5%。PAPO 还收敛更快,约 25 步就出现早期增益。

消融实验

配置 Overall \(\Delta\%_{rel}\) (3B) 说明
random @0.6 ↑2.97 最优遮挡策略
semantic @0.6 ↑1.02 语义遮挡反而更差
random @0.4 / 0.8 / 1.0 ↑1.88 / ↑2.02 / ↑1.42 0.6–0.8 最佳,全黑(1.0)最差
\(\gamma=0.02\) ↑4.36 3B 较优默认
\(\gamma=0.04\) (collapsed) ↓28.46 权重过大直接崩溃

关键发现

  • 感知是真瓶颈:67% 错误来自感知,PAPO 把它压低 30.5%,证明动机站得住。
  • 随机 > 语义遮挡:简单的随机遮挡反而比 DINOv2 语义遮挡好,且零开销;遮挡比例 0.6–0.8 最优,全黑不行。
  • \(\gamma\) 是双刃剑:≤0.02 单调变好且对视觉依赖任务增益最大,0.04 会触发连正则都救不回的崩溃,大模型对高 \(\gamma\) 更敏感。
  • 正交可叠加:PAPO 只改优化目标,与改 rollout 的 NoisyRollout 兼容,组合后还能再涨(51.89→51.89… overall 50.61→51.89)。
  • 低视觉依赖也稳:往纯文本 MMLU-pro 插入纯噪声"假图",PAPO 仍不掉点,说明不会盲目去看无意义视觉 token。

亮点与洞察

  • 把"诊断"做成了方法的灵魂:先用 200 例人工错误分析定位"67% 是感知错",再针对性地造一项感知损失——动机不是空喊,而是被数据钉死的,很有说服力。
  • 隐式感知损失的设计极简却深刻:用"和瞎眼版自己对比"代替"外挂奖励模型/教师",把感知监督变成模型自产自销的信号,零标注零额外模型,可直接 drop-in 进任意 RLVR 算法。
  • 暴露并命名了一个新失效模式:KLprcp Hacking(最大化无界 KL → 生成无关 token 刷分崩溃),并给出可观测前兆(两路熵齐升)和对症正则(双熵),这套"发现-诊断-修复"闭环本身就很可迁移。
  • "用遮挡造信息差"这一招可外迁:任何想衡量"输出是否真依赖某模态/某输入"的场景,都能借鉴"原始 vs 损坏输入的分布 KL"这个无监督探针。

局限与展望

  • 隐式感知损失对所有实例、所有 token 一视同仁地施加,是极简设计;对天然不需要看图的样本可能是冗余监督,作者也承认这是可优化处(按视觉依赖度自适应加权会更优雅)。
  • 训练稳定性高度依赖 \(\gamma\) 与双熵正则的调参,\(\gamma=0.04\) 即崩溃、大模型更敏感,落地时需要小心 grid search,鲁棒区间偏窄。
  • 评测只取 exact-match 类任务、回避了需要 LLM-as-judge 的自由生成题,对"感知提升是否迁移到开放式多模态生成"还缺直接证据。
  • 遮挡策略停在 random/semantic 两种,未探索更结构化的遮挡(如按问题相关区域动态遮),感知信号的上限可能还没摸到。

相关工作与启发

  • vs 加感知奖励的方法(如 captioning-first、感知评分奖励): 他们在奖励层动刀、把感知和推理硬切两阶段、还要外挂大奖励模型;PAPO 在优化目标层动刀、让感知与推理联合学习、零额外模型,更省也更"接地"。
  • vs GRPO / DAPO: PAPO 不替换而是叠加在它们之上(PAPOG/PAPOD),相同数据/rollout/奖励下纯靠目标函数改动取得增益,是对 RLVR"目标函数"这一长期被忽视维度的补强。
  • vs NoisyRollout(rollout 视角改动): 二者正交、可叠加;NoisyRollout 在 4/9 基准上反而掉点,PAPO 更一致且与之组合还能再涨,体现"改目标"相比"改 rollout"更稳。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个把感知监督做进 RLVR 核心优化目标、且无需任何外部监督的工作。
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 基准 × 多模型规模 × GRPO/DAPO 双底座,错误分析、稳定性深挖、兼容性全覆盖。
  • 写作质量: ⭐⭐⭐⭐ 动机-诊断-方法-失效模式逻辑链清晰,公式与图配合到位。
  • 价值: ⭐⭐⭐⭐⭐ 即插即用、零成本、可叠加,对多模态 RLVR 社区实用性很高。