Spotlight on Token Perception for Multimodal Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2510.09285
代码: https://github.com/huaixuheqing/VPPO-RL
领域: 多模态强化学习 / 视觉语言模型
关键词: RLVR, 多模态推理, token感知, 视觉依赖, 策略优化

一句话总结¶

提出 VPPO（Visually-Perceptive Policy Optimization），通过量化每个 token 的视觉依赖度，在轨迹级和 token 级两个层次对学习信号进行精细化调控，显著提升大视觉语言模型的多模态推理能力。

研究背景与动机¶

RLVR 在多模态中的局限：现有 RLVR（如 GRPO、DAPO）主要为文本推理设计，在多模态场景中忽视了视觉感知的关键作用。它们对所有 token 广播统一的学习信号，无法区分哪些 token 真正依赖视觉信息。
感知与推理的耦合：有效的多模态推理需要准确的视觉感知作为逻辑推理的基础。例如几何题中，模型必须从图像中识别出 OA、OB 是圆的半径，才能得出等腰三角形的结论。
核心发现：
- Insight 1：轨迹中 token 的视觉依赖度呈稀疏分布——仅少数 token 具有高视觉依赖性
- Insight 2：不同推理轨迹在整体视觉依赖度上存在显著异质性——并非所有正确路径都是真正的视觉驱动推理

方法详解¶

整体框架¶

VPPO 在标准 GRPO 基础上引入两个模块：轨迹级优势塑形（TAS） 和 token 级梯度过滤（TGF），通过视觉依赖度分数分层调控学习信号。

1. 量化 Token 视觉依赖度¶

定义 token 在时刻 \(t\) 的视觉依赖度为原始图像与遮蔽图像条件下输出分布的 KL 散度：

\[\mathcal{S}(s_t, I) := D_{\text{KL}}\left(\pi_\theta(\cdot|s_t, I) \| \pi_\theta(\cdot|s_t, I')\right)\]

其中 \(I\) 是原始图像，\(I'\) 是非信息性遮蔽版本。高 \(\mathcal{S}\) 值表明该 token 的预测高度依赖视觉输入。

2. Token 级梯度过滤（TGF, Micro-level）¶

对每条轨迹 \(\tau_i\)，选取视觉依赖度最高的 top-\(k\%\) token 构建二值梯度掩码：

\[m_{i,t} = \mathbb{I}(t \in \mathcal{K}_i)\]

只对这些关键 token 计算策略梯度，过滤掉通用 token 的噪声，对抗信号稀释。

3. 轨迹级优势塑形（TAS, Macro-level）¶

计算每条轨迹的平均视觉依赖度 \(\bar{\mathcal{S}}(\tau_i)\)，通过归一化生成塑形因子：

\[\alpha(\tau_i) = \beta_{\min} + (\beta_{\max} - \beta_{\min}) \frac{\bar{\mathcal{S}}(\tau_i) - \min_{\tau_j} \bar{\mathcal{S}}(\tau_j)}{\max_{\tau_j} \bar{\mathcal{S}}(\tau_j) - \min_{\tau_j} \bar{\mathcal{S}}(\tau_j)}\]

塑形后的优势为 \(\hat{A}'(\tau_i) = \alpha(\tau_i) \cdot \hat{A}_{\text{GRPO}}(\tau_i)\)，放大高视觉参与轨迹的更新，抑制低视觉依赖路径。

4. VPPO 目标函数¶

\[\mathcal{L}^{\text{VPPO}}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|} m_{i,t} \cdot \min\left(r_{i,t}(\theta)\hat{A}'_i, \text{clip}(r_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}'_i\right)\right]\]

理论分析¶

方差缩减定理：\(\text{Var}(\mathbf{g}_{\text{VPPO}}) \approx k \cdot \mathbb{E}[\alpha(\tau)^2] \cdot \text{Var}(\mathbf{g}_{\text{GRPO}})\)，其中 \(k \in (0,1)\) 是稀疏率，\(\alpha(\tau)\) 被缩放到 1 附近的窄带，因此方差显著降低。

实验结果¶

主实验：8 个多模态推理基准 (avg@8 acc %)¶

模型	MathVerse	DynaMath	MMK12	Geo3k	MathVision	We-Math	LogicVista	MMMU-Pro	Avg.
Qwen2.5-VL-7B	39.0	55.7	42.5	37.1	18.4	46.4	42.4	25.1	38.3
+ GRPO	66.5	65.8	72.3	40.2	30.7	68.1	45.6	35.2	53.1
+ DAPO	68.3	66.6	82.1	41.5	30.5	68.0	46.8	35.9	55.0
+ VPPO	71.6	68.1	82.8	46.5	33.3	71.5	47.9	37.9	57.5

32B 规模扩展¶

模型	Avg.
Qwen2.5-VL-32B + GRPO	62.6
Qwen2.5-VL-32B + DAPO	63.5
Qwen2.5-VL-32B + VPPO	64.6

关键发现¶

7B 模型上 VPPO 相比 baseline 平均提升 19.2%，超越所有开源 RL 方法
32B 模型上带来 7.6% 平均提升
训练更稳定、收敛更快

消融实验¶

设置	Avg. Acc
VPPO (完整)	57.5
仅 TAS（轨迹级优势塑形）	55.8
仅 TGF（token 级梯度过滤）	56.2
无 TAS + 无 TGF (DAPO baseline)	55.0

TAS 和 TGF 各自独立有效，组合后效果最优
梯度过滤比例 \(k=0.4\) 为最佳选择

亮点与洞察¶

首次从 token 感知角度分析多模态 RLVR：揭示了视觉依赖的稀疏分布和轨迹异质性两个关键 insight
双层次信号调控：轨迹级 + token 级的层次化设计优雅且有效
即插即用：可无缝集成到 GRPO、DAPO 等主流算法中
理论支撑：证明了方差缩减效果

局限性¶

视觉依赖度计算需要额外的遮蔽图像前向传播，增加了计算开销
仅在 Qwen2.5-VL 系列上验证，其他模型架构的泛化性待验证
遮蔽策略的选择（如何构造 \(I'\)）可能影响依赖度估计质量

评分¶

创新性: ⭐⭐⭐⭐ — 从 token 视觉依赖角度切入多模态 RL，视角新颖
技术深度: ⭐⭐⭐⭐ — 理论分析扎实，方差缩减有证明
实验充分性: ⭐⭐⭐⭐⭐ — 8 个 benchmark，两个规模，消融完备
实用价值: ⭐⭐⭐⭐ — 即插即用，效果显著