MUPO: All Roads Lead to Rome - Incentivizing Divergent Thinking in Vision-Language Models¶

会议: CVPR 2026
arXiv: 2604.00479
代码: https://xytian1008.github.io/MUPO/
领域: LLM推理 / 多模态VLM
关键词: 强化学习, GRPO, 发散思维, 推理多样性, 视觉语言模型

一句话总结¶

MUPO 揭示了 GRPO 训练导致推理多样性坍缩的问题——模型过早收敛到少数推理策略而丢弃大多数替代方案。通过将响应分组进行局部化优势估计并引入多样性奖励，MUPO 激励 VLM 保持发散思维，在多个推理基准上提升 2-7%。

RL（特别是 GRPO）已成为增强 VLM 推理能力的主流方法。但作者发现了一个关键矛盾：

RL 模型深而窄，Base 模型浅而广：RL 模型在单次尝试时准确率更高（推理更深入），但给多次尝试机会时，Base 模型能解决更多不同的问题（策略更多样）。例如几何题，RL 模型总是用方程求解（容易出逻辑错误），而 Base 模型有时会用验证式策略简洁地得到答案。

多样性坍缩：通过追踪 GRPO 训练过程，发现推理多样性在训练早期就急剧下降到可忽略水平。模型迅速收敛到少数"占优"策略，丢弃了大量潜在替代路径。这导致：(1) 利用优先于探索，陷入局部最优；(2) 扩展性差，收敛的推理无法覆盖广泛的问题类型。

MUPO 是 GRPO 的即插即用替代。将模型的多个响应分成多个组，组内进行局部化优势估计，组间引入多样性奖励，鼓励不同组代表不同的推理策略。

多组策略优化:
- 功能：保持推理策略的多样性，避免所有响应收敛到同一策略
- 核心思路：将 GRPO 中全局计算优势的方式改为分组局部化优势估计。将 \(K\) 个响应分成 \(G\) 组，每组独立计算优势值。这使得每个组可以独立维护自己的"最优策略"，而不被全局主导策略淹没。直觉上，每个组是一种推理策略的独立实现
- 设计动机：GRPO 的全局优势计算导致少数高奖励策略获得极大的优势值，抑制了其他策略的更新信号
多样性奖励:
- 功能：促进组间推理策略的分离
- 核心思路：在准确率和格式奖励之外，加入多样性奖励——衡量不同组之间的推理嵌入距离。鼓励组间距离越大越好，使不同组代表真正不同的推理路径
- 设计动机：仅分组但不鼓励差异化，组可能仍然收敛到相似策略。多样性奖励提供了分离的显式激励
深度+广度的统一:
- 功能：让模型同时具备单路径的深度推理和多路径的广度覆盖
- 核心思路：组内优化保证每条策略都被充分优化（深度），组间多样性保证维持多种策略（广度）。这与人类解题类似——给多次尝试时会从不同角度思考，每个角度都认真推理
- 设计动机：这正是发散思维的本质——不是简单生成不同答案，而是用不同方法思考同一个问题

标准 RL 训练流程，MUPO 替代 GRPO 作为策略优化算法。准确率奖励 + 格式奖励 + 多样性奖励。

模型	MathVerse	LogicVista	WeMath	HallusionBench	平均提升
GRPO 基线	基线	基线	基线	基线	—
MUPO-Thinker-7B	+提升	+提升	+提升	+提升	2~7%

在多个推理基准上一致提升 2-7%，建立新 SOTA。

配置	acc@1	acc@4	多样性	说明
GRPO	高	有限提升	低（坍缩）	深而窄
Base 模型	较低	大幅提升	高	浅而广
MUPO	最高	最高	高	深且广