PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning¶

会议: CVPR 2026
arXiv: 2605.13467
代码: https://github.com/hee-suk-yoon/PDCR
领域: 多模态VLM / 对齐RLHF
关键词: 视觉语言推理, RLVR, 过程奖励, 置信度增长, 技能解耦

一句话总结¶

针对"把语言域里的置信度增长过程奖励直接搬到视觉语言推理"会因为视觉感知步骤稀疏、被密集文本推理步骤的统计量淹没（mixture-induced signal degradation）的问题，PDCR 用一个模型自带的 Visual Dependence Score + Otsu 阈值把每一步无监督地分成"看图(感知)"和"想(推理)"两簇，再在各自簇内独立做 min-max 归一化算 advantage，从而给稀疏的视觉步骤一个不被文本步骤压扁的、尺度正确的奖励信号，在 7 个 V-L 推理 benchmark 上稳定超过 GRPO/DAPO/PACR。

研究背景与动机¶

领域现状：可验证奖励的强化学习（RLVR）是提升 VLM 多步推理的主流路线，但标准做法只给一个稀疏的终点奖励——最终答案对就 +1、错就 0（GRPO）。这个信号对中间每一步毫无指导，造成严重的 credit assignment 问题。为补这个稀疏，一条路是训练外部过程奖励模型（PRM），但它贵、吃数据、还容易和策略错位；另一条更省的路来自语言域：用模型自己对正确答案的对数概率随推理步骤的"置信度增长"当 dense 过程奖励（PACR），不需要外部模型。

现有痛点：PACR 在纯文本推理里有效，但作者发现把它"原样"搬到视觉语言推理是次优的。原因是 V-L 推理不是一个同质过程，而是两种异质技能的混合：① 视觉感知步骤（从图里抽证据、转成文字观察，如"图中有人站在收银台前操作 POS 机"）——稀疏但关键；② 文本推理步骤（基于已有事实做逻辑/计算/下结论）——密集且占多数。论文实测：感知步骤只占约 30%（31.4%），推理步骤占约 70%（68.6%），且二者注意力模式截然不同（感知步骤高度 attend 视觉 token，推理步骤几乎只 attend 前文文本）。

核心矛盾：PACR 的过程 advantage 是把所有步骤的折扣回报放进一个全局池里做 min-max 归一化（公式 5）。当这个池被占多数的文本步骤回报主导时，全局的 min/max 对稀疏的感知步骤毫无代表性——感知步骤的 advantage 分布被压缩、错位，关键的"看图"动作拿不到尺度正确的信用。作者把这个现象命名为 mixture-induced signal degradation（混合诱导的信号退化）。

核心 idea：让奖励结构去匹配任务的异质本质——先无监督地把步骤分成感知簇和推理簇，再在各自簇内独立归一化算 advantage，而不是全局一锅煮。这样感知步骤只跟自己的同类比，得到稳定、尺度正确的信号。

方法详解¶

整体框架¶

PDCR 接在标准 GRPO 之上：对一个图像 \(\mathbf{I}\) + 问题 \(\mathbf{q}\)，旧策略采样 \(N\) 条推理轨迹，每条切成若干步 \(\{h_k^{(i)}\}\)，终点给稀疏 outcome 奖励 \(R^{(i)}\)（答案对=1，错=0）。PDCR 在这之上加一条 dense 过程奖励，整体分两条并行路径再汇合：

绿色路径（过程奖励）：沿用 PACR 的思路，逐步计算模型对正确答案 \(Y_{gt}\) 的置信度 \(c_k^{(i)}=\log\pi_\theta(Y_{gt}\mid\mathbf{I},\mathbf{q},H_{\le k}^{(i)})\)，置信度增益 \(g_k^{(i)}=c_k^{(i)}-c_{k-1}^{(i)}\)，再累成折扣回报 \(G_k^{(i)}=\sum_{m\ge k}\gamma^{m-k}g_m^{(i)}\)。
粉色路径（无监督技能解耦）：对每一步算 Visual Dependence Score \(V_k^{(i)}\)（真图 vs 白图的对数似然比），再用 Otsu 法找最优阈值 \(c^*\) 把所有步骤分成视觉感知簇 \(\mathcal{I}_{\text{visual}}\) 和文本推理簇 \(\mathcal{I}_{\text{textual}}\)。
汇合（解耦 advantage）：把绿色路径的回报 \(G_k^{(i)}\) 放进粉色路径划好的对应簇内做 min-max 归一化，得到解耦过程 advantage \(A_{\text{decomposed},k}^{(i)}\)，最后与稀疏 outcome advantage \(A_O^{(i)}\) 加权求和当最终训练信号。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 I + 问题 q<br/>GRPO 采样 N 条轨迹"] --> B["逐步置信度增长<br/>g = c_k − c_{k-1}"]
    A --> C["视觉依赖度评分<br/>V = log p(真图) − log p(白图)"]
    C --> D["Otsu 阈值无监督聚类<br/>分成 感知簇 / 推理簇"]
    B --> E["簇内解耦 advantage<br/>各簇内独立 min-max 归一"]
    D --> E
    E -->|加上稀疏 outcome advantage| F["最终步级训练信号<br/>A_total = λ_O·A_O + λ_P·A_decomposed"]

关键设计¶

1. Visual Dependence Score：用"真图 vs 白图"的对数似然比量化一步到底多依赖看图

要在训练里把步骤分成感知/推理，最大的障碍是没有标注——Section 4 里验证问题时用的是 GPT 标注，但实际训练拿不到。PDCR 的做法是构造一个完全模型自带、不需外部标签的信号：对同一步 \(h_k^{(i)}\)，分别在真实图像 \(\mathbf{I}\) 和纯白空白图像 \(\mathbf{I}_{\text{white}}\) 条件下算它的对数概率，二者之差就是视觉依赖度：

\[V_k^{(i)} = \underbrace{\log\pi_\theta(h_k^{(i)}\mid\mathbf{I},\mathbf{q},H_{<k}^{(i)})}_{p_k^{(i)}} - \underbrace{\log\pi_\theta(h_k^{(i)}\mid\mathbf{I}_{\text{white}},\mathbf{q},H_{<k}^{(i)})}_{p_{w,k}^{(i)}}\]

直觉很干净：如果这一步换成白图后概率掉很多（\(V\) 大），说明它生成时真的靠了图里的视觉证据，是感知步骤；如果换白图几乎没影响（\(V\approx 0\)），说明它主要靠前文文本驱动，是推理步骤。代价只是每条轨迹多一次"喂白图"的前向。

2. Otsu 动态阈值：参数无关地把一维视觉依赖度劈成两簇

有了每步的 \(V_k^{(i)}\)，还得定一个阈值把它们二分。最朴素的做法是 Top-K（把分最高的固定百分比当感知步骤），但它对 \(K\) 极其敏感、要手调。PDCR 直接借用图像分割里的经典 Otsu 法：把所有 \(M\) 个分数排序后，遍历每个切点 \(k\) 把数据分成两簇 \(C_1,C_2\)，选使簇内平方和（SSE）最小的切点：

\[SSE(k)=\sum_{i=1}^{k}(v_i-\mu_1(k))^2+\sum_{i=k+1}^{M}(v_i-\mu_2(k))^2,\quad k^*=\arg\min_k SSE(k)\]

最优阈值 \(c^*=v_{k^*}\)，据此把步集分成 \(\mathcal{I}_{\text{visual}}=\{(i,k)\mid V_k^{(i)}\ge c^*\}\) 与 \(\mathcal{I}_{\text{textual}}=\{(i,k)\mid V_k^{(i)}<c^*\}\)。它是参数无关的（不用调 \(K\)），且实测分类准确率 76.2% 显著高于最优 Top-K 的 67.5%——因为它会随每个 batch 的分数分布自适应，而不是死守一个固定比例。

3. 簇内解耦 advantage：让感知步骤只跟同类比，根治信号退化

这是 PDCR 的落脚点。PACR 把所有步骤的回报放进全局池 \(I\) 做归一化（公式 5），稀疏的感知步骤被密集文本步骤的 min/max 主导、advantage 被压扁。PDCR 改成在各自簇内独立做 min-max 归一化——视觉步骤：

\[A_{V,k}^{(i)}=\frac{G_k^{(i)}-\min_{(j,k')\in\mathcal{I}_{\text{visual}}}G_{k'}^{(j)}}{\max_{(j,k')\in\mathcal{I}_{\text{visual}}}G_{k'}^{(j)}-\min_{(j,k')\in\mathcal{I}_{\text{visual}}}G_{k'}^{(j)}}\]

文本步骤 \(A_{T,k}^{(i)}\) 用 \(\mathcal{I}_{\text{textual}}\) 的 min/max 同理计算。这样感知步骤的回报只跟其它感知步骤比，得到稳定、尺度正确的奖励，不再被文本步骤"稀释"。这正是它和 PACR 的本质区别：同样的置信度增长信号，PDCR 只是换了归一化的统计基线（分簇 vs 全局），却恰好对症了 V-L 任务的异质性。

损失函数 / 训练策略¶

最终步级总 advantage 是稀疏 outcome advantage 与解耦过程 advantage 的加权和：

\[A_{total,k}^{(i)}=\lambda_O A_O^{(i)}+\lambda_P A_{\text{decomposed},k}^{(i)},\quad A_{\text{decomposed},k}^{(i)}=\begin{cases}A_{V,k}^{(i)},&(i,k)\in\mathcal{I}_{\text{visual}}\\ A_{T,k}^{(i)},&(i,k)\in\mathcal{I}_{\text{textual}}\end{cases}\]

其中 \(A_O^{(i)}=(R^{(i)}-\text{mean}\{R^{(j)}\})/\text{std}\{R^{(j)}\}\) 是 GRPO 的组内归一化 outcome advantage，\(\lambda_O,\lambda_P\) 是权重超参。这个 \(A_{total,k}^{(i)}\) 会施加到组成步骤 \(h_k^{(i)}\) 的所有 token 上做策略更新。训练用 Qwen2.5-VL-3B/7B-Instruct，数据集为 Vision-SR1（约 47K 含可验证答案、覆盖数学/常识/通用视觉三类的样本），与各 baseline 用相同 system prompt 和超参以公平对比。

实验关键数据¶

主实验¶

7 个 V-L 推理 benchmark（MMMU-Pro / MMMU / RealWorldQA / VisNumBench / MathVerse / MathVision / HallusionBench）上的平均准确率：

Backbone	方法	平均准确率	说明
Qwen2.5-VL-3B	Zero-shot	36.3	未训练基线
Qwen2.5-VL-3B	GRPO	43.6	稀疏 outcome 奖励
Qwen2.5-VL-3B	DAPO	44.1	加动态采样稳定化
Qwen2.5-VL-3B	PACR	44.4	全局归一化 dense 奖励
Qwen2.5-VL-3B	PDCR (ours)	45.2	簇内解耦，最高
Qwen2.5-VL-7B	Zero-shot	41.4	未训练基线
Qwen2.5-VL-7B	GRPO	51.5	—
Qwen2.5-VL-7B	DAPO	52.0	—
Qwen2.5-VL-7B	PACR	52.2	次优
Qwen2.5-VL-7B	PDCR (ours)	52.9	最高

PDCR 在两种模型规模上都拿到最高平均分。相对全局归一化的 PACR，提升集中在复杂理解任务：7B 上 MMMU-Pro 42.5 vs 41.5、MMMU 51.5 vs 50.5、MathVerse 55.0 vs 54.3。

消融实验¶

Random Decomposition（保留簇内解耦归一化，但把每步随机丢进视觉/文本簇）：

Backbone	配置	平均准确率	说明
Qwen2.5-VL-3B	PDCR (ours)	45.2	完整模型
Qwen2.5-VL-3B	→ Random Decomposition	44.1	随机分簇，掉 1.1
Qwen2.5-VL-7B	PDCR (ours)	52.9	完整模型
Qwen2.5-VL-7B	→ Random Decomposition	52.3	随机分簇，掉 0.6

7B 上随机分簇（52.3）只比 naive PACR（52.2）高一点点，远低于完整 PDCR（52.9）——证明"光分簇"没用，增益来自正确识别并分开两种异质技能。

关键发现¶

解耦本身才是关键，不是分簇这个动作：Random Decomposition 几乎退化到 PACR 水平，说明 Visual Dependence Score 提供的"有意义的"数据驱动划分才是涨点来源。
超过 DAPO 说明增益不止来自稳定化：PACR/PDCR 的过程奖励天然非零，能像 DAPO 一样规避 GRPO 的 vanishing advantage 问题（一组轨迹全对或全错时 outcome advantage 为 0）。但 PDCR（52.9）仍稳定超过 DAPO（52.0），证明感知解耦奖励提供的是高质量训练信号，而非仅仅补了稀疏。
Otsu 完胜 Top-K：动态阈值分类准确率 76.2%，Top-K 在 \(K=30\) 时峰值才 67.5%，且 Top-K 对 \(K\) 极敏感。
成本与收益：PACR 因需额外前向算 \(c_k\) 比 GRPO 贵约 1.5×，PDCR 再加一次算 \(V_k\) 的前向，开销略增；但 PACR/PDCR 都学会产出更短更精炼的推理链，推理时效率显著提升，抵消训练开销。

亮点与洞察¶

"白图对照"是个极简又巧妙的视觉依赖度探针：不引入任何外部模型、不生成 caption，仅靠真图/白图两次前向的对数似然比，就把"这一步靠不靠看图"量化成了一个连续分数，可直接拿来无监督聚类——这个 model-internal 信号的设计可迁移到任何"想知道某段生成多依赖某个模态/输入"的场景。
从图像分割借 Otsu 法解决一维聚类：作者敏锐地发现"把推理步按视觉依赖度二分"和"把像素按强度分前景/背景"是同构问题，直接搬来参数无关的经典算法，省掉调 \(K\)，还更准。
真正的洞察是"归一化的统计基线"也要对齐任务结构：PDCR 不改奖励信号本身（还是置信度增长），只把全局归一化换成簇内归一化，就解决了 PACR 的失效——提醒我们 RL 里 advantage 归一化的"参照群体"选错，再好的信号也会被统计稀释。

局限与展望¶

只分两簇、二元划分较粗：感知/推理的二分对很多步骤（既看图又推理的混合步）是硬切，76.2% 的分类准确率也说明约 1/4 步被分错；更细粒度或软分配可能更准。
依赖"白图"作为反事实基线：白图是否是最优的 null condition 没充分讨论，对某些任务（如图本身就接近白底）白图扰动可能不够。
绝对提升幅度偏小：7B 上平均仅比 PACR 高 0.7、比 GRPO 高 1.4，部分单项还略低于 baseline（如 3B 的 MMMU-Pro 33.3 vs PACR 33.4），增益稳定但不算大。
额外前向带来训练开销：每条轨迹多一次白图前向，在大 batch / 长轨迹下成本不可忽略，作者用"推理链变短"来论证整体划算，但训练侧确实更贵。

评分¶

新颖性: ⭐⭐⭐⭐ 把"奖励归一化要对齐任务异质结构"这个观察落成 Visual Dependence Score + Otsu 簇内归一化，角度新颖且诊断清晰（mixture-induced signal degradation）。
实验充分度: ⭐⭐⭐⭐ 两种模型规模 × 7 个 benchmark，含 Random Decomposition 消融、Otsu vs Top-K 验证、训练动态与成本分析，较完整；但绝对提升偏小、缺更大模型验证。
写作质量: ⭐⭐⭐⭐⭐ 问题诊断（观察1-3）→ 方法 → 实验逻辑链清晰，公式与图示对应到位，易读。
价值: ⭐⭐⭐⭐ 提供了一个轻量、无标注、即插即用的过程奖励改进，对做 V-L RLVR 的人有直接参考价值。