DEVA: Fine-tuning Multimodal Large Language Models for Visual Perception Tasks¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM
关键词: GRPO, 强化微调, 视觉感知, GFlowNet, 奖励聚合

一句话总结¶

针对用 GRPO 强化微调多模态大模型做视觉感知时"组内奖励几乎一样、策略探索受限、奖励设计粗糙"三大顽疾，DEVA 在 GRPO 损失之上叠加 GFlowNet 多样性损失、全局熵正则、对齐超体积奖励和谐波聚合四个即插即用组件，在分类/检测/推理 grounding 上稳定带来 +5～+13 点提升。

研究背景与动机¶

领域现状：把强化学习（尤其是无需 critic 的 GRPO）用于微调大语言模型，已被证明在标注稀缺时优于监督微调（SFT）——RL 鼓励泛化、SFT 偏向记忆。近期 ViRFT（Visual-RFT）把 GRPO 搬到视觉感知任务上，用 IoU、分类准确率这类可验证的规则奖励指导微调，相比 SFT 大幅提升，开辟了"用 RL 微调 MLLM 做感知"这条路线。

现有痛点：作者对 GRPO 的训练动力学做了更深入的剖析，发现三个被 ViRFT 忽视的瓶颈。其一，规则奖励多样性极差：同一个 query 采样出的一组回答往往拿到几乎相同的奖励，归一化后的优势 \(A_i\) 趋近于零，策略梯度随之消失，更新形同虚设。其二，GRPO 用 token 级 KL 散度做正则，这种局部约束反而锁死了策略的探索空间，让通用 MLLM 难以充分适配到专门的视觉任务上。其三，中间推理链（reasoning trace）没有 ground-truth，无法赋予可验证奖励，而朴素地把多个奖励算术相加会让强奖励淹没弱奖励，导致次优。

核心矛盾：可验证规则奖励虽然可靠高效，但它"非黑即白"的离散性天然缺乏区分度——这与策略梯度需要奖励有方差才能学习之间存在根本冲突；同时 token 级稳定性正则与全局探索之间也存在 trade-off。

本文目标：在不改动 GRPO 主干、保持即插即用的前提下，分别补上"奖励多样性不足""探索受限""奖励设计/聚合粗糙"三块短板。

切入角度：作者观察到 GFlowNet 训练目标本是为生成多样化轨迹而设计，恰好能给组内奖励"注入方差"；熵的序列级散度能替代 token 级 KL 实现更粗粒度（因而更自由）的探索控制；而图像-问题-回答三者的对齐程度可以用它们嵌入张成的超体积来度量，体积越小越对齐。

核心 idea：用四个组件——Diversity（多样性损失）、Exploration（熵正则）、alignment Volume（对齐体积奖励）、Aggregation（谐波聚合）——拼成 DEVA，叠加在 GRPO 及其各种变体之上提升视觉感知表现。

方法详解¶

整体框架¶

DEVA 不是一个新的 RL 算法，而是架在 GRPO（及 DAPO/BNPO/GSPO 等变体）之上的四件套增强。原始 GRPO 流程不变：对 query \(q\) 采样一组回答 \(\{o_1,\dots,o_G\}\)，用规则奖励算出各自奖励、归一化成优势 \(A_i\)，再优化带 token 级 KL 正则的裁剪目标（式 1）。DEVA 在这条主干的三个位置动手：在损失侧加一项 GFlowNet 多样性损失 \(L_{div}\) 拉开组内奖励方差、把原本的 token 级 KL 换成全局熵散度正则 \(L_{reg}\) 放开探索；在奖励侧新增一个由图像/问题/回答嵌入超体积导出的非可验证对齐奖励 \(r_v\)，再用谐波聚合把格式奖励、任务奖励和对齐奖励融成最终奖励 \(r\)。四个组件相互独立、可单独叠加，论文实验里逐个累加每个都能涨约 1 点。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["query q + 图像 i<br/>策略采样一组回答 o₁…o_G"] --> B["GFlowNet 多样性损失<br/>拉开组内奖励方差"]
    A --> C["全局熵散度正则<br/>序列级熵替代 token 级 KL"]
    A --> D["对齐超体积奖励<br/>i/q/o 嵌入张成体积越小越对齐"]
    D --> E["谐波聚合<br/>格式+任务+对齐奖励融合"]
    B --> F["GRPO 主干目标<br/>优势归一化 + 裁剪更新"]
    C --> F
    E --> F
    F --> G["微调后的 MLLM<br/>分类 / 检测 / 推理 grounding"]

关键设计¶

1. GFlowNet 多样性损失：给趋同的组内奖励注入方差

这是 DEVA 的灵魂组件，直击"组内奖励几乎相同→优势消失→梯度归零"的死穴。作者把 MLLM 的自回归生成建模成一个 token 级 MDP \(\langle S,A,f\rangle\)：状态是已生成的 token 串、动作是词表、转移就是字符串拼接，直到吐出 EOS（\(\top\)）。在此之上引入 GFlowNet 的"流"（flow）概念，并采用 detailed balance 条件作为训练目标。由于文本生成是单向的，作者令反向策略 \(\pi_B(\cdot)=1\)、并设 \(F(s)=r(s)/\pi(s_f\mid s)\)，把平衡条件写成对数空间的平方损失：

\[L_{div}(\pi;r)=\sum_{t=1}^{n-1}\Big(\log\frac{r(o_t\mid o_{1:t-1})\,\pi(\top\mid o_{1:t+1})}{r(o_{t+1}\mid o_{1:t})\,\pi(\top\mid o_{1:t})}+\log\pi(o_{t+1}\mid o_t)\Big)^2\]

其中奖励项由参考模型定义为 \(\log r(o_t\mid o_{1:t-1})=\log\pi_{ref}(o_t\mid o_{1:t-1})+\exp\big(\tfrac{1}{\gamma}\log\pi_{ref}(\top\mid o_{1:t-1})\big)\)，\(\gamma\in(0,1]\) 控制奖励信号强度，\(\top\) 项保证模型能合理终止。这样设计让策略既保持多样、又不过分偏离参考模型。效果很直接：在 LISA 上加了 \(L_{div}\) 后，组内奖励的平均标准差从 GRPO 的 0.234 升到 0.262、DAPO 从 0.201 升到 0.240——方差变大意味着优势估计不再塌缩，策略梯度重新变得有效，单是这一项就能超过很强的 GSPO 基线。这也是已知第一个把 GFlowNet 损失与 GRPO 结合的工作。

2. 全局熵散度正则：用序列级熵替代 token 级 KL 解放探索

GRPO 原始目标里那项 token 级 KL 散度（式 1 的 \(\beta D_{KL}(\pi_\theta\|\pi_{ref})\)）虽然稳住了训练，却因为"逐 token локально约束"把策略空间探索锁死了，对需要大幅适配的视觉感知任务尤其不利。DEVA 把这个局部度量换成一个全局度量：分别计算策略模型和参考模型每个 token 输出分布的熵 \(H_t^\theta\)、\(H_t^{ref}\)，再对二者的平均熵之差取均方误差作为正则项：

\[L_{reg}=\Big\|\tfrac{1}{m}\sum_{t=1}^{m}H_t^\theta-\tfrac{1}{n}\sum_{t=1}^{n}H_t^{ref}\Big\|_2^2\]

\(m\)、\(n\) 分别是策略与参考输出的序列长度，正则对每个组元素分别计算。关键区别在于：它只在序列层面约束"整体探索程度"，而不再死盯每个 token 的概率，于是允许 token 级分布更自由地变化，从而鼓励更广的策略探索。实验里加上 \(L_{reg}\) 后奖励曲线收敛更快、饱和值更高，KL 范围随之扩大（佐证探索确实变强），各项指标普遍再涨约 1 点。

3. 对齐超体积奖励：用嵌入张成的体积度量图文回答三者一致性

推理链没有 ground-truth，无法给可验证奖励，但又必须保证"推理过程、输入图像、查询"三者一致。DEVA 的巧法是把三者的对齐程度几何化：分别把图像 \(i\)、查询 \(q\)、回答 \(o\) 编码到共享表示空间 \(f_i,f_q,f_o\)。其中图像不用整张，而是用一个掩码 \(m\)（对语言解码器里图文 token 交互的自注意力打分做阈值得到）抠出相关 patch，即 \(i'=i\circ m\)。三个嵌入归一化到单位超球面后，计算它们张成的平行多面体体积——等价于 Gram 矩阵 \(G\) 行列式的平方根：

\[V=\mathrm{Vol}(f_i,f_q,f_o)=(\det G(f_i,f_q,f_o))^{1/2}\]

三个向量越对齐（夹角越小），张成的体积 \(V\) 越小，因此优化目标是最小化 \(V\)。再用一个反比关系把体积转成奖励：\(r_v=\max((aV^{-1}-b)^2,c)\)，\(a,b,c\) 为超参（默认 \(a{=}1,b{=}0,c{=}2\) 时最优）。相比之前的"逐对（pairwise）对齐+聚合"——那种做法会让不同奖励对在不同迭代各自峰值各自回落、动力学互相打架——超体积是一个统一度量，逼着图/问/答三方同步对齐，避免了顾此失彼。

4. 谐波聚合：让多路奖励同步改善而非强者通吃

有了非可验证的对齐奖励 \(r_v\)、可验证的格式奖励 \(r_{form}\) 和任务奖励 \(r_{task}\)，怎么合成最终奖励 \(r=f_{agg}(r_{form},r_{task},r_v)\) 也大有讲究。作者的分析表明朴素的算术求和是次优的：某一路占主导的奖励会盖过其它路，反而拖累整体。DEVA 默认采用缩放谐波平均作为 \(f_{agg}\)——谐波平均对"短板"极其敏感，只有当所有奖励同时变好时总奖励才高，从而强制各路奖励协同提升。论文还对比了缩放几何平均、算术求和、以及单独预训练的可学习聚合网络，发现谐波聚合的效果已经逼平学习式聚合，说明这个启发式选择既简单又够用。

实验关键数据¶

实验沿用 ViRFT（Liu et al.）的设置与协议，骨干用 Qwen2-VL-2B / 7B，覆盖少样本细粒度分类（Flower102/Pets37/Aircraft/Car196）、少样本 COCO 检测、以及 LISA 推理 grounding（仅 239 张训练图）。对比对象包含 PPO、PAPO、DAPO、Dr GRPO、BNPO、GRPO-CARE、CPPO、GMPO、GSPO 等一众 RL 基线和 SFT/SFT-CoT。

主实验¶

少样本检测（COCO，mAP）/ 分类（括号内为准确率），Qwen2-VL-2B：

方法	1-shot	4-shot	16-shot	4-shot(7B)
Qwen2-VL baseline	19.6 (56.0)	19.6 (56.0)	19.6 (56.0)	43.0
+ SFT-CoT	25.2 (59.2)	29.7 (66.4)	36.1 (74.2)	48.2
+ GSPO（强基线）	35.0 (82.6)	42.6 (84.0)	48.3 (88.0)	56.0
+ ViRFT（vanilla GRPO）	33.6 (80.3)	40.6 (81.9)	46.8 (85.3)	54.3
+ DEVA（全套）	40.0 (86.1)	47.3 (87.1)	52.8 (91.1)	60.0

DEVA 全套相比 ViRFT 提升约 5～6 点、相比强基线 GSPO 高约 3～4 点，且增益随 shot 数增加持续保持。

LISA 推理 grounding（mIoU_test）：

方法	2B mIoU_test	7B mIoU_test
GroundedSAM（专用模型）	26.2	26.2
+ GSPO	41.3	46.0
+ ViRFT	37.6	43.9
+ DEVA（全套）	48.9	49.5

通用 MLLM 经 RL 微调后已全面超过 OV-Seg / X-Decoder / GroundedSAM 等专用分割模型；DEVA 在 ViRFT 之上带来 +5～13 点的显著提升。

消融实验¶

逐组件累加（少样本 4-shot 检测，2B）：

配置	mAP	说明
ViRFT (GRPO)	40.6	起点
+ Div.	43.9	仅多样性损失就超过 GSPO
+ Div. + Explor.	45.0	再加熵正则
+ Div. + Explor. + Align.Vol.	46.2	再加对齐体积奖励
+ 全套（再加 Agg.）	47.3	谐波聚合收尾

关键发现¶

多样性损失贡献最突出：单独加 \(L_{div}\) 就能超越极具竞争力的 GSPO，印证"组内奖励方差不足"是 GRPO 做感知时的首要瓶颈；每个组件依次累加约各涨 1 点，四件套互补。
谐波聚合≈可学习聚合：用神经网络做可学习聚合相比默认谐波聚合掉点很小，说明这个启发式已经够好；而改用 pairwise 对齐奖励或换对齐超体积的超参，掉点明显更大。
奖励动力学不必与最终指标成正比：训练中奖励/KL 曲线的进展与最终 mIoU 并非严格正相关，横向比不同算法的奖励曲线高低需谨慎。
注意力更聚焦目标：可视化显示 SFT/ViRFT/GSPO 的注意力大量落在背景，DEVA 则聚焦物体内部与边缘，定位更紧致。

亮点与洞察¶

把"奖励缺乏方差"这个隐性病因显式诊断出来并对症下药：很多 RL 微调工作只盯着算法稳定性，DEVA 指出规则奖励的离散性才是策略梯度消失的根源，再用 GFlowNet 这个本为多样化生成而生的工具精准补方差，思路干净。
用几何超体积度量多模态对齐：把"图/问/答三者一致"转译成三个单位球面向量张成的 Gram 行列式体积，体积越小越对齐——既统一了原本各自为政的 pairwise 对齐，又给"非可验证奖励"提供了一个无需 ground-truth 的可计算代理，这个 trick 很可迁移。
谐波平均当聚合器：利用谐波均值对短板敏感的特性强制多路奖励同步提升，是一条简单却有效、可直接搬到任何多奖励 RLHF 场景的设计。
全部即插即用：四件套对 GRPO/DAPO/BNPO/GSPO 都能叠加，工程上几乎零侵入。

局限与展望¶

依赖 ViRFT/GRPO 框架与可验证规则奖励：方法本质是给现有 RL 微调打补丁，没有触及规则奖励本身的设计，离开"有规则可验证"的感知任务（如开放式生成）后适用性存疑。
超体积奖励引入额外编码器与超参：需要外部基础编码器算嵌入、还要调 \(a,b,c\) 和掩码阈值，论文坦言对齐方案的超参较敏感，部署成本与调参负担上升。
评测规模偏小：训练集极小（LISA 仅 239 张）、骨干仅限 Qwen2-VL 2B/7B，更大模型、更大数据下四件套是否还都必要、增益是否衰减，尚未验证。
展望：作者计划把 DEVA 推广到更复杂的视觉-agentic 任务。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把 GFlowNet 损失与 GRPO 结合、用 Gram 行列式超体积度量多模态对齐，组合新颖但都是已有工具的巧妙拼装。
实验充分度: ⭐⭐⭐⭐ 三类任务、双骨干、逐组件消融、丰富可视化扎实，但训练规模偏小、骨干单一。
写作质量: ⭐⭐⭐⭐ 动机诊断清晰、四组件层次分明；部分细节（掩码阈值、聚合细节）丢进补充材料。
价值: ⭐⭐⭐⭐ 即插即用、对多种 GRPO 变体通用，对做 MLLM 强化微调的人有直接实用价值。