Improving Vision-language Models with Perception-centric Process Reward Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/RUCAIBox/Perceval （待开源）
领域: 多模态VLM / LLM推理
关键词: 过程奖励模型, 感知幻觉, RLVR, GRPO, 测试时扩展

一句话总结¶

针对 VLM 强化学习里"只有结果奖励、定位不到错在哪一步"的痛点，本文训练了一个感知中心的过程奖励模型 Perceval，逐条核查推理链里的图文一致性、标出幻觉 token，再把这个信号同时用于训练（token 级优势重分配改造 GRPO）和推理（截断-重生成），在多个视觉推理基准上稳定涨点，并意外地把"感知更准"泛化成了"整体推理更强"。

研究背景与动机¶

领域现状：用可验证奖励的强化学习（RLVR，主要是 GRPO）做后训练，是当前提升 VLM 复杂推理能力的主流套路——给整条推理链一个标量奖励（对/错），用策略梯度往"答得对"的方向优化。

现有痛点：视觉推理本质上是多步的，一条 chain-of-thought 里可能先看错了图（把红色看成黑色、把"在左边"看成"在右边"），后面的逻辑全建立在这个错误感知之上。但 GRPO 的奖励是序列级的：同一条回答里所有 token 共享一个优势值（公式 1 里的 \(\hat{A}_i\) 对该回答内每个 token 都相同），模型只知道"这条整体不好"，却不知道到底哪一步、哪个 span 错了——这是一个很硬的信用分配（credit assignment）问题。结果就是稀疏奖励把 RLVR 在 VLM 上的收益卡住了。

核心矛盾：要做细粒度监督就得有步级标注，但步级标注很贵、而且有些步要等后续推导才能判定对错，难以可靠标。

切入角度：作者注意到视觉推理里很多中间步骤其实是感知性断言（某个物体、属性、空间关系），这些断言可以直接拿图来核验——"图文是否对齐"是能自动检查的。于是稀疏奖励问题在感知这一面有了突破口。

核心 idea：训练一个感知中心的过程奖励模型（PRM）Perceval，专门"抓图文不一致的幻觉 span"，把它产出的细粒度信号一鱼两吃——训练时改造 GRPO 优势、推理时做截断重生成。

方法详解¶

整体框架¶

方法围绕一个外部 critic——Perceval（Perception-centric process reward evaluation model）——展开。给定 ⟨图像、问题、模型回答⟩，Perceval 用 think-then-answer 范式逐条核查回答里的感知断言，最后在 <answer> 里返回一个 Python list，列出回答中被判为幻觉的原文字符串（若无错则返回 "The response is correct."）。这个 PRM 一旦训好，就被同时插进训练和推理两条链路：训练时把它定位的幻觉 token 转成 token 级的负优势喂回 GRPO；推理时按它标出的错误 span 截断回答、让模型重写。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["VLM 策略模型<br/>对每个 query 采样多条推理链 + 答案"] --> B["Perceval：感知中心过程奖励模型<br/>逐条核查图文一致性，返回幻觉 span"]
    B -->|训练时| C["Token 级优势重分配<br/>对幻觉 token 加罚，改造 GRPO"]
    B -->|推理时| D["截断-重生成 / 截断-反思-重生成<br/>剪掉错误前缀后续写，可迭代 k 次"]
    C --> E["感知更强的策略模型<br/>(感知提升泛化到整体推理)"]
    D --> E

关键设计¶

1. Perceval：把"图文对不对齐"做成可训练的过程奖励

痛点是步级标注太贵、且很多步无法即时判定。作者把范围收窄到感知断言——这类断言能直接拿图核验，于是可以自动造标注。Perceval 用 think-then-answer 范式：先在 <think> 里逐条把回答中的 claim 拎出来、和图里的视觉证据一一比对，再在 <answer> 里输出幻觉字符串列表。训练数据用四阶段流水线构造：① Query 选择——主要从视觉搜索数据集（需要在大图里定位小目标，感知压力大）取图和问题，掺少量数学/通用数据保广度；② Rollout 生成——用开源 VLM（如 Qwen2.5-VL-7B）跑回答，其不完美的感知天然产出真实的幻觉负样本；③ 自动标注核验——用强模型（如 Gemini-2.5-Pro ⚠️ 以原文为准）做以幻觉为中心的逐步检查，按规定格式产出标注；④ SFT——在聚合数据上微调 Perceval 骨干，学会输出这种结构化核验。这样得到的 PRM 不靠人工步级标注，却能可靠地在多步推理里标出幻觉 span。

2. Token 级优势重分配：把序列级奖励"掰开"到出错的 token 上

GRPO 的硬伤是优势 \(\hat{A}_i\) 对一条回答内所有 token 一视同仁。作者改的就是这一步：用 Perceval 解析 <answer> 拿到问题子串，再用精确字符串匹配在回答 \(o_i\) 里定位每个子串的 token 区间 \([j_k, l_k]\)，并集成 \(U_i\)，构造二值掩码 \(M_i\)（命中幻觉的 token 处 \(m_{i,t}=1\)，否则 0）。然后用掩码调制序列级优势，得到 token 级优势：

\[\hat{A}'_{i,t} := \hat{A}_i - \alpha \cdot m_{i,t} \cdot |\hat{A}_i|,\]

其中 \(\alpha \in [0,1]\) 控制惩罚强度。正常 token（\(m_{i,t}=0\)）保持 \(\hat{A}'_{i,t}=\hat{A}_i\) 不变；幻觉 token 则被压：当 \(\hat{A}_i>0\) 时变成 \(\hat{A}_i(1-\alpha)\)（少奖），当 \(\hat{A}_i<0\) 时变成 \(\hat{A}_i(1+\alpha)\)（多罚）。把 \(\hat{A}'_{i,t}\) 代回 GRPO 目标（公式 2）即可。这样既保留了序列级偏好（整体对/错的方向不丢），又对"没有视觉依据的内容"施加了直接的 token 级纠偏压力——比单纯 GRPO 的信用分配精确得多。训练时还做了条件策略：只在感知相关数据上用 Perceval 重分优势，数学等其他数据退回普通 GRPO，正是用来检验"感知监督能否泛化到别的领域"。

3. 测试时截断-重生成：把 PRM 当成推理期的纠错器

同一个 Perceval 在推理阶段也能用来做测试时扩展。Truncate–then–Regenerate：Perceval 检测到错误 claim 后返回它在推理链里的 span，于是在该 span 第一个 token 前把假设截断、只保留已核验的前缀作为上下文，让策略模型沿干净前缀续写——因为原图和问题都在，模型只需重采样被判错的部分、不必重写已验证内容；这个"截断-续写"循环重复到没有新错误或达到上限 \(k\) 次。Truncate–Thinking–then–Regenerate：在截断处再追加一句轻量反思提示（如 "Wait, I need to reconsider this reasoning more carefully: the mug is not on the brick in the image."），引导模型先反思失败模式（物体/属性/空间不匹配）再续写，更可能精准修好那处错配。两者都用一点额外算力换更强的事实接地。

损失函数 / 训练策略¶

Perceval 用标准 SFT 目标在四阶段流水线数据上微调（3B / 7B 两个尺寸）；策略模型用改造后的 token 级优势 GRPO 训练，骨干均为 Qwen2.5-VL，对应训出 3B / 7B 两个策略模型。SFT 数据来自 DeepEyes、SophiaVL-R1（各用骨干 rollout 3 次），RL 数据主要来自 DeepEyes（侧重感知，混入部分通用推理）。

实验关键数据¶

主实验¶

在视觉搜索、感知密集推理、数学&图表三类共 8 个基准上评测（V*、BLINK、MMStar、MME-RealWorld、RealWorldQA、MathVision、MathVista、ChartQA），统一用贪心解码 + 两阶段判分（先精确匹配，再用 GPT-4o-mini 兜底）。

模型(7B)	V*(all)	BLINK	MMStar	RWQA	MathVision	MathVista
Qwen2.5-VL	62.30	48.56	62.3	60.6	26.97	70.2
+ GRPO	84.29	53.55	62.0	66.4	27.96	71.7
+ Ours	86.39	54.49	63.8	67.4	30.92	72.0

3B 规模同样稳定优于 GRPO：V*(all) 从 80.10→83.25，作者报告视觉搜索约 +4%、数学&图表约 +3%、感知密集推理约 +1%。

测试时扩展（Table 2，k=4）¶

策略	V*(Attr)	V*(Pos)	V*(All)	BLINK
Major voting	91.30	76.32	85.34	48.24
Truncate（本文）	93.04	77.63	87.96	—

截断-重生成在相同采样预算下一致优于多数投票，说明"定位错误 span 再局部重写"比"多采样投票"更省也更准。

关键发现¶

最亮的发现是泛化：训练时 Perceval 只在感知相关数据上做细粒度优势重分（数学等退回普通 GRPO），但"感知变准"这一基础提升泛化到了整体推理——数学/图表等没用 PRM 监督的领域也涨点（如 7B MathVision 27.96→30.92）。这支撑了"感知中心监督是通用策略"的主张。
token 级优势重分配的价值在于精确信用分配：序列级方向保留、幻觉 span 被定向压制，比单纯 GRPO 更稳。
ChartQA 上 7B 略降（85.16→84.44），说明感知监督对偏文本/表格逻辑的任务收益有限甚至轻微负向。

亮点与洞察¶

一个 PRM、两处复用：同一个 Perceval 既改训练（token 级优势）又改推理（截断重生成），训练和推理共用同一套"找幻觉 span"的能力，工程上很经济。
把稀疏奖励问题从"感知面"破开：不去硬啃"所有步都要可验证"，而是只挑感知断言（能拿图核验）下手——这个范围收窄让自动造标注、token 级定位都变得可行，是很务实的切入。
token 级优势调制公式可迁移：\(\hat{A}'_{i,t}=\hat{A}_i-\alpha m_{i,t}|\hat{A}_i|\) 这种"用掩码把序列级优势在指定 span 上压一刀、且对正负优势分别处理"的写法，可以直接搬到其他"能定位出错 span"的 RLVR 任务（如代码、工具调用）。

局限与展望¶

依赖一个强标注模型造训练标注，PRM 质量受其幻觉检测能力上限约束；标注噪声会传导到策略训练。
收益集中在感知密集任务，对偏文本逻辑的任务（如 ChartQA）可能无益甚至轻微掉点，需要"按数据类型条件触发"才不伤其他领域。
截断-重生成靠精确字符串匹配定位 span，若回答措辞与 PRM 输出不完全一致，定位可能失败（论文未充分讨论匹配鲁棒性）。
测试时扩展用额外算力换精度，迭代上限 \(k\) 与延迟的权衡需按部署场景调。

评分¶

新颖性: ⭐⭐⭐⭐ 感知中心 PRM + token 级优势重分 + 截断重生成三件套组合新颖，单项部件多有前作影子。
实验充分度: ⭐⭐⭐⭐ 8 基准 ×（3B/7B）覆盖广，主结果+TTS+泛化分析齐全，但消融对 \(\alpha\)、PRM 规模的敏感性可再深入。
写作质量: ⭐⭐⭐⭐ 动机—方法—泛化发现的逻辑链清晰，公式与流水线交代到位。
价值: ⭐⭐⭐⭐ "感知监督泛化到整体推理"这一发现对 VLM 后训练有实际指导意义。