TTRV: Test-Time Reinforcement Learning for Vision Language Models¶
会议: CVPR 2026
论文: CVF Open Access
领域: 多模态VLM
关键词: 测试时强化学习, GRPO, 无监督奖励, VLM 自适应, 熵正则化
一句话总结¶
TTRV 让现成的解码器型 VLM 在推理阶段、对着无标签的测试数据直接做强化学习——靠"模型自己输出的频率"和"输出分布的熵"两个自监督奖励驱动 GRPO,在 16 个数据集上物体识别平均涨 24.6%、VQA 平均涨 10.0%,甚至把 InternVL3-8B 的 ImageNet 识别推到超过 GPT-4o。
研究背景与动机¶
领域现状:用 RL 做 VLM 后训练(RFT)已经是涨点利器——RLHF、DPO、GRPO 这条线证明了"规则奖励 + 策略优化"能显著增强 VLM 的识别、推理、对齐能力(VLM-R1、Perception-R1、CLS-RL 等)。但这套范式有一个共同前提:奖励信号来自人工标注,训练发生在专门切出来的 train split 上。
现有痛点:真实世界里根本不存在天然的"训练集/测试集"划分。模型一旦训练完就是静态的,碰到新域、新任务就得重新标数据、重新微调,代价高且滞后。这跟人类"在环境里边用边学、从模糊的无标签经验中持续精进"的方式完全相反。
核心矛盾:RL 想标榜"从经验中学习",但它实际依赖的是被精心策划过的 benchmark 和人工标签——奖励无法在"野生的、无标签的"数据流上自己长出来。换句话说,缺一个在测试时、没有任何标签的情况下也能产生有效奖励的机制。
本文目标:给解码器型 VLM(LMM,如 InternVL、Qwen-VL)造一个能在推理现场、对无标签测试样本就地提取奖励、就地做 RL 自适应的框架。
切入角度:作者观察到——模型对同一张图反复采样时,越频繁出现的答案越可能是对的;而一个置信、收敛的模型,其输出经验分布的熵应该低。这两个量都不需要标签,纯靠模型自己的 rollout 统计就能算出来,天然适合当奖励。
核心 idea:把 GRPO 的"标签奖励"换成两个自监督奖励——频率奖励(鼓励一致、共识的答案)+ 多样性控制奖励(用负熵逼分布收敛),在测试时对每个样本多次采样、就地更新策略,让静态 VLM 变成能自我提升的动态系统。
方法详解¶
整体框架¶
TTRV 不改 VLM 结构、不需要任何标签,直接在现成 VLM(如 InternVL)外面套一层 GRPO。流程是:对每个无标签测试 prompt \(x\)(图+文),用当前策略 \(\pi_\theta(\cdot|x)\) 采 \(N\) 个候选回答 \(\{\hat{y}_1,\dots,\hat{y}_N\}\);这些回答归并出 \(M\) 个唯一输出 \(\{\tilde{y}_1,\dots,\tilde{y}_M\}\),构成一个经验概率分布;从这个分布里抽出两路奖励——频率奖励(按出现频次给分)和多样性控制奖励(负熵,逼分布收敛)——加权成最终奖励 \(R\),再用 GRPO 把它转成组内相对优势去更新策略。整个过程"采样→统计→算奖励→更新"就在测试数据上滚动进行,模型边推理边自适应。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["无标签测试样本 x<br/>(图 + 文)"] --> B["多次 rollout<br/>采 N 个候选回答"]
B --> C["归并出 M 个唯一输出<br/>构成经验概率分布"]
C --> D["频率奖励<br/>按出现频次软给分"]
C --> E["多样性控制奖励<br/>负熵逼分布收敛"]
D --> F["加权合并奖励 R = r1 + α·r2"]
E --> F
F --> G["GRPO 策略优化<br/>转相对优势更新 θ"]
G -->|滚动到下一批测试样本| B
关键设计¶
1. 频率奖励:用"答案出现得多不多"代替人工标签
测试时没有 ground truth,没法算"答对没"。作者的替代直觉是:模型反复回答同一题时,越是被一致产出的答案,越可能是对的。于是对样本 \(x\) 采 \(N\) 个回答,先估计每个唯一输出 \(\tilde{y}_m\) 的经验概率
再把单个回答 \(\hat{y}_j\) 的奖励定义为它所属唯一输出的频率:
关键在于它是软的而非硬的。最接近的工作 TTRL [74] 用 best-of-N / 多数投票,只挑最频繁那一个当伪标签、其余全丢——当模型不确定、或最频繁答案恰好是错的时候,这会给出一个"自信但错"的强误导信号。TTRV 反过来让每个回答都按自己的频率拿到非零、分级的奖励,保留了对少数推理路径的不确定性,作者把这类比成贝叶斯——不坍缩到单点估计,而是带着假设上的不确定性去塑形学习。消融里(表 3)这一软奖励确实稳压多数投票。
2. 多样性控制奖励:用负熵逼输出分布收敛
光有频率奖励,模型可能在多个模式间摊得太开、迟迟不收敛。作者补一个基于熵的正则项:对经验分布算香农熵
把辅助奖励设成它的负值 \(r_2 = -H(P)\),惩罚输出分布过度分散。这样模型在前期靠频率奖励探索多样推理模式,后期则被负熵驱动把概率质量逐渐聚拢到稳定、高概率的答案上,而不是无谓地在冗余回答之间分散注意力。值得注意的是,"只用这一项(去掉频率奖励)"恰好等价于把 TENT [58] 的熵最小化搬到测试时——而完整 TTRV 在消融里明显胜过这个纯熵最小化的退化版,说明两路奖励是互补的、缺一不可。
3. 合并奖励 + GRPO 相对优势:把自监督信号转成稳定更新
两路奖励加权合成最终奖励
\(\alpha\) 是权衡"收敛 vs 多样性"的超参。RL 目标就是最大化策略下的期望奖励 \(\max_\theta \mathbb{E}_{y\sim\pi_\theta(\cdot|x)}[R(y)]\),对解码器型 VLM 通过标准自回归语言建模目标、用奖励对预测 token 做样本级软加权来优化。但作者没有直接拿原始奖励做梯度上升,而是接 GRPO:把奖励换成组内相对优势
并配 KL 正则约束偏离参考策略。这一步把优化从"绝对奖励"转向"组内相对比较",正是它让一个没有真实标签、奖励尺度本身就不可靠的测试时 RL 变得稳定可训——相对优势天然对奖励的绝对大小不敏感,只看谁在这一组里更好。
实验关键数据¶
主实验¶
在 InternVL 系列三个尺寸上,对每个数据集只随机采 20 张测试图做 TTRV,物体识别(表 1,8 个 benchmark)平均涨幅就非常可观;InternVL3-8B 被推到 ImageNet >99%,平均超过 GPT-4o 约 2.3%。
| 模型(识别,8 数据集均值) | 指标 | 基座 | w/ TTRV | 提升 |
|---|---|---|---|---|
| InternVL3-2B | Top-1 Acc | 62.03 | 94.99 | +32.95 |
| InternVL2.5-4B | Top-1 Acc | 70.47 | 82.34 | +11.88 |
| InternVL3-8B | Top-1 Acc | 66.74 | 95.71 | +28.97 |
| GPT-4o(参考) | Top-1 Acc | 93.37 | — | — |
VQA(表 2,8 个数据集)同样一致涨点,最大单项如 InternVL3-2B 在 AI2D +28.07、InternVL3-8B 在 MME +29.75:
| 模型(VQA,8 数据集均值) | 指标 | 基座 | w/ TTRV | 提升 |
|---|---|---|---|---|
| InternVL3-2B | Acc | 47.47 | 57.15 | +9.69 |
| InternVL2.5-4B | Acc | 66.37 | 69.40 | +3.03 |
| InternVL3-8B | Acc | 38.05 | 55.56 | +17.50 |
消融实验¶
表 3 拆开两路奖励、并对比 TTRL 的多数投票奖励(以 InternVL2.5-4B 为基座,部分数据集):
| 配置 | AI2D | SEED | 相对基座 | 说明 |
|---|---|---|---|---|
| 多数投票(TTRL 风格) | 47.52 | 58.37 | AI2D −4.03 | 硬伪标签,反而掉点 |
| w/o 频率奖励(≈ TENT 熵最小化) | 52.66 | 58.87 | AI2D +1.11 | 只剩负熵,涨幅有限 |
| w/o 多样性奖励 | 53.06 | 59.27 | AI2D +1.51 | 只剩频率,缺收敛 |
| 完整 TTRV(频率+多样性) | 61.09 | 61.14 | AI2D +9.54 | 两路互补最优 |
关键发现¶
- 多数投票的硬伪标签会害人:TTRL 风格的多数投票在 AI2D 上相对基座掉 4.03、CRPE 掉 2.73,而 TTRV 软奖励大涨;证明"保留分布不确定性"比"坍缩到单点"更安全。
- 两路奖励缺一不可且互补:单独频率或单独负熵都只小涨(多数 +1 上下),合起来在 AI2D 直接 +9.54,说明探索(频率)与收敛(负熵)必须配合。
- 极致数据高效:仅用 20 张图就拿到这些增益;甚至单张随机测试样本也能涨——ImageNet-A +4.61、ImageNet-R +5.47(表 6),暗示 TTRV 不是在拟合数据分布,而是在唤醒预训练里已有、被指令微调削弱的能力。
- 跨数据集泛化:在 Food101 上做 TTRV 却在 DTD 上测,仍大涨(图 3,如 +52.03),进一步佐证它增强的是底层任务能力而非分布适配。
- 奖励必须有意义:随机奖励(表 5)对 InternVL 反而掉点(SEED −4.96),说明 TTRV 的增益来自真实信号而非 GRPO 的"虚假奖励也涨点"现象。
- 跨模型族:换到 Qwen2.5-VL-3B 一样稳涨(表 7,识别/VQA 均 +2.6~+4.1),不绑定 InternVL。
- 会翻车的情形:当基座本身极弱时(如 InternVL2.5-4B 在 Resisc45 base 仅 23.44),rollout 质量太差叠加 GRPO 不稳定,TTRV 反而掉 10.14——奖励质量受制于基座质量。
亮点与洞察¶
- "频率即标签"的软奖励设计很巧:不丢弃少数派、按频率分级给分,把多数投票的硬决策升级成贝叶斯式的软监督,既避免误导又保留探索,是全文最核心的"啊哈"点。
- 一个统一视角串起两条线:去掉频率奖励就退化成 TENT 熵最小化、退化版被完整版打败——一句话就把"为什么需要频率奖励"说清楚了,论证非常干净。
- "恢复而非适配"的解释发人深省:20 张图、单张图、跨数据集都能涨,强烈暗示指令微调其实压抑了预训练里的识别能力,而测试时 RL 把它重新激活——这个观点可迁移到"用无监督信号修复指令微调副作用"的更广命题。
- 可即插即用:TTRV 不动模型结构、不需标签,任何开源解码器 VLM 都能 bootstrap,落地门槛低。
局限与展望¶
- 缺理论支撑:作者自承只有经验证据说明 TTRV"增强任务能力而非拟合分布",没有理论解释为什么会这样。
- 受基座质量制约:基座弱时 rollout 质量差,频率/熵奖励都建立在垃圾输出上,可能不升反降(Resisc45 上 −10.14),缺一个"何时该退出/降权"的安全机制。
- 频率奖励对答案空间有隐含假设:识别/选择题这类离散、可枚举的输出适合"统计频次",但对开放式长文本生成,唯一输出几乎不重合,频率分布会退化——方法对自由生成任务的适用性存疑。
- 测试时计算开销:每个样本要采 \(N\) 个 rollout 并就地更新,延迟分析被放到附录,正文未充分讨论部署成本。
- 改进方向:可探索把基座置信度/rollout 一致性作为门控,自动决定对哪些样本启用 TTRV、用多大 \(\alpha\),避免在低质样本上反向优化。
相关工作与启发¶
- vs TTRL [74]:同样是"测试时 RL + 自产奖励",但 TTRL 针对 LLM、用多数投票挑单一伪标签(硬);TTRV 扩到多模态、用频率软奖励 + 负熵正则(软+收敛),消融证明软奖励显著优于多数投票。
- vs TENT [58] / 熵最小化 TTT:TENT 依赖类别概率分布的熵最小化,解码器 VLM 输出的是全词表自回归 token 分布,没有类级分布,直接套不了;TTRV 用经验输出分布的熵近似,且完整版(加频率奖励)胜过纯熵最小化。
- vs TPT/DiffTPT/C-TPT 等 prompt 级 TTT:那些主要面向双编码器 CLIP、调 prompt;TTRV 直接面向解码器型 LMM、更新模型参数,目标任务从匹配转向开放识别/推理。
- vs VLM-R1 / Perception-R1 / CLS-RL 等 RFT:它们仍依赖策划的 train split 和标签反馈;TTRV 把奖励的来源从"人工标注"挪到"测试时模型自身的 rollout 统计",是范式上的差异。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个面向解码器型 VLM 的测试时 RL 框架,频率+负熵的无监督奖励设计干净而有效。
- 实验充分度: ⭐⭐⭐⭐⭐ 16 数据集、多模型族、单样本/跨数据集/随机奖励/biased 采样等消融非常完整,且诚实报告翻车案例。
- 写作质量: ⭐⭐⭐⭐ 动机—方法—消融逻辑清晰,公式完整;"恢复 vs 适配"的解释略偏推测、缺理论。
- 价值: ⭐⭐⭐⭐⭐ 无需标签即可让现成 VLM 推理时自我提升、还能超 GPT-4o,对实际部署与"修复指令微调副作用"都有启发。