Visual Jigsaw Post-Training Improves MLLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tBf2SUzfZw
论文: Project Page
代码: 见项目主页
领域: 多模态VLM
关键词: 自监督后训练, RLVR, 拼图任务, 视觉感知, MLLM

一句话总结¶

把"打乱再排序"的经典拼图任务搬进 MLLM 的强化学习后训练阶段，让模型在不改架构、不加生成模块、不需任何标注的情况下，通过自监督的可验证奖励显著增强对图像、视频、3D 三种视觉模态的细粒度感知、时序理解与空间理解能力。

研究背景与动机¶

领域现状：RLVR（可验证奖励强化学习）在 LLM 上点燃了复杂推理能力后，多模态社区迅速把同一套范式搬到 MLLM 上，绝大多数工作都在做基于文本的多模态思维链（CoT），主攻数学、科学这类需要长推理的任务。

现有痛点：在这种"文本中心"的后训练里，稠密的视觉输入往往只是一个上下文证据池——模型从图里抽出几条稀疏线索就转去做文本推理，视觉信号本身的深层细粒度理解被严重低估。少数想补这块的工作（如显式加视觉重建目标）又要往现成的理解型 MLLM 上嫁接额外的视觉生成模块和像素级重建损失，既改了架构，也未必是增强视觉理解的最优路径。

核心矛盾：能不能在不改架构、不改输出格式（仍然只吐文本）、不引入生成组件的前提下，直接强化 MLLM 对视觉信号本身的理解？像素级重建的高保真要求，对一个以"理解"为目标的模型来说可能是过度的负担。

本文目标：找到一个轻量、可自动验证、与现有纯文本 MLLM 无缝兼容、且跨模态通用的视觉中心后训练任务。

切入角度：回看自监督表示学习的历史，拼图类任务（打乱图块重排、恢复视频帧序）是一种"重建/生成任务的简化版"——它只要求恢复结构顺序而非像素，天然产出确定性的 ground-truth，正好契合 RLVR 的可验证奖励范式，也不需要任何人工标注。

核心 idea：把视觉理解重新表述成一个"排序问题"——将视觉输入切块、打乱，让 MLLM 用自然语言输出正确的排列顺序，用 GRPO 在后训练阶段优化，从而把视觉中心的感知能力注入模型。

方法详解¶

整体框架¶

Visual Jigsaw 是一个通用的"视觉排序"自监督后训练框架。给定某一视觉模态（图像 / 视频 / 3D）的数据，先用模态特定的切分规则得到 \(K\) 个拼图元素（图像切成图块、视频切成片段、3D 采样若干带深度的点），随机打乱后喂给策略模型；模型必须预测一个长度为 \(K\) 的索引排列，把它还原成原始结构顺序。这个排列与确定的 ground-truth 比对，按"放对了几个"给出分级奖励，用 GRPO 做强化学习更新。整个过程不需要标注、不需要额外生成头、输出仍是纯文本，因此可以直接套在任意现成 MLLM 上。

为什么放在后训练阶段：解拼图要求模型已经具备基础的视觉理解（否则连图块里有什么都认不出），而且 RL 相比 SFT 有更强的泛化性，能让模型把从拼图里学到的视觉技能迁移到下游任务，而不是死记拼图本身。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视觉输入<br/>图像 / 视频 / 3D"] --> B["排序任务建模<br/>切分成 K 元素 → 打乱"]
    B --> C["策略模型 MLLM<br/>think + 预测索引排列"]
    C --> D["分级可验证奖励<br/>全对=1 / 部分对按比例 / 非法=0"]
    D -->|GRPO 更新| C
    B --> E["三模态实例化<br/>图块 / 视频片段 / 深度排序"]
    E --> B

关键设计¶

1. 把视觉理解重写成可验证的排序任务：RLVR 友好且零标注

针对"想强化视觉理解又不想改架构、加生成模块、做标注"这个核心矛盾，本文把任务统一建模成排序：对模态数据施加一个随机置换 \(\pi:\{1,\dots,K\}\to\{1,\dots,K\}\)，原本在位置 \(i\) 的元素被移到位置 \(\pi(i)\)，打乱序列为 \(P_\pi=[p_{\pi^{-1}(1)},\dots,p_{\pi^{-1}(K)}]\)，模型的目标是预测出 \([\pi(1),\dots,\pi(K)]\) 把它还原。这样的好处是三重的：ground-truth 是一串确定的索引，自动可验证，正好套进 RLVR；输出只是一串数字，纯文本即可，与现成 MLLM 无缝兼容；监督信号从数据本身派生，完全不需要标注。相比那些要嫁接视觉生成头、做像素级重建的方案，排序只要求恢复结构顺序，是重建任务的"简化版"——避开了高保真重建的负担，却保留了有效的自监督信号。

2. 分级部分正确奖励：让难拼图也能被学起来

如果只给二元奖励（全对才给分），在 \(3\times3\) 这种较难配置下，训练早期模型几乎从来全对，反馈极度稀疏，根本学不动。本文设计了一个分级奖励：完全匹配给 1；合法但只对了一部分的排列，奖励等于"放对的比例"再乘一个折扣因子 \(\gamma\in(0,1)\)（实验取 \(0.2\)）；任何不是合法长度 \(K\) 排列的输出（如所有位置预测同一个索引）给 0。形式上

\[ \text{Reward}(o,g)=\begin{cases}1, & o=g\\[2pt]\gamma\cdot\frac{1}{K}\sum_{i=1}^{K}\mathbb{1}[o_i=g_i], & \text{合法排列且 }o\neq g\\[2pt]0, & \text{否则}\end{cases} \]

折扣 \(\gamma\) 的作用是惩罚"不完整解"、防止模型高估部分匹配，但又不至于把部分正确的微弱学习信号也抹掉。对非法排列直接判 0 则杜绝了"全填同一个数"这类奖励作弊。此外还加了 0.2 的格式奖励，要求把思考放进 <think></think>、答案放进 <answer></answer>，格式错则格式与准确率奖励全为 0。消融显示：在 \(3\times3\) 这种难配置上，去掉部分正确奖励模型直接学不会——这是该设计的关键价值所在。

3. 三模态实例化：同一套排序范式覆盖图像、视频、3D

为证明范式的通用性，本文把排序任务实例化到三种模态，难点在于"如何为每种模态定义有意义、又不能靠捷径作弊的切分方式"。图像拼图把图切成 \(m\times n\) 个不重叠图块（取 \(3\times3=9\) 块，COCO 11.8 万张图训练），模型按光栅顺序（行优先、左上到右下）恢复排列，逼它同时关注局部图块细节、推断全局空间布局、推理图块间关系。视频拼图沿时间轴均匀切成 \(K=6\) 个片段（LLaVA-Video 10 万条），模型恢复时间先后顺序；为防止模型靠片段边界的"帧匹配"捷径作弊，把每段首尾各 5% 的帧裁掉。3D 拼图因为通用 MLLM 一般经 2D 图像/视频处理 3D，作者做了个实用变体：从 RGB-D 图里随机取 \(K=6\) 个深度各异的点（ScanNet，30 万样本，深度限 0.1–10 m、两点间距 ≥40 像素且深度差 >0.2 m），在 RGB 视图上标注序号，让模型按由近到远的深度排序。三种实例化共享同一套奖励与 GRPO 优化，只换切分规则。

损失函数 / 训练策略¶

基座统一用 Qwen2.5-VL-7B-Instruct。优化用 GRPO，并去掉 KL 正则与熵损失；部分正确折扣 \(\gamma=0.2\)。图像拼图全局 batch 256、视频/3D 为 128，学习率 \(1\times10^{-6}\)，每个 prompt 采样 16 条回复、解码温度 1.0。图像、视频拼图各训 1000 步，3D 拼图训 800 步。（注：在推理型 MLLM 上做拼图训练时则开启 KL 约束，以保住已有的推理能力。）

实验关键数据¶

主实验¶

三种模态都以 Qwen2.5-VL-7B 为基座，对比同样从它后训练而来的若干方法。图像拼图在细粒度感知、单目空间、组合理解三类共 13 个 benchmark 上一致提升：

模态 / 基准	指标	基座 Qwen2.5-VL-7B	本文	提升
图像·MMVP	acc	54.66	60.66	+6.00
图像·MMStar(细粒度)	acc	59.75	65.81	+6.06
图像·V*	acc	76.96	80.63	+3.66
图像·DA-2K	acc	54.45	60.35	+5.90
视频·AoTBench(vqa,16帧)	acc	45.52	51.67	+6.15
视频·Vinoground(64帧)	group	21.80	25.20	+3.40
3D·SAT-Real	acc	48.66	64.00	+15.34
3D·DA-2K	acc	54.45	71.56	+17.11

3D 拼图在与深度排序直接相关的 DA-2K 上涨幅最大（+17.11），但在单视图（3DSRBench）、多视图（ViewSpatial、All-Angles）、第一人称视频（VSI-Bench）等间接任务上同样一致上升，说明它不仅教会了"深度排序"这一具体技能，还泛化成了通用的 3D 空间感知能力。

消融实验¶

配置	关键指标	说明
Image Jigsaw (RL, 完整)	多基准一致提升	完整方法
Image Jigsaw (SFT)	部分基准小幅提升，LISA-Grounding/OVD-Eval 大幅下降	SFT 易过拟合拼图、迁移失败
2×2 图像拼图	平均 61.0（基座 58.9）	难度低，增益明显小于 3×3
3×3 图像拼图	平均 62.1	标准难度，增益最大
4-clip 视频拼图	平均 45.0（基座 44.0）	难度低，增益小
6-clip 视频拼图	平均 46.2	标准难度，增益最大
3×3 去掉部分正确奖励	学不会任务	稀疏二元反馈无法冷启动

关键发现¶

RL 远强于 SFT：SFT 只带来温和提升，且在 LISA-Grounding、OVD-Eval 上反而大幅掉点，说明它把拼图死记下来却没法迁移；RL 才能把视觉技能泛化到下游，印证"SFT 偏记忆、RL 偏泛化"。
难度越高、信号越强：\(2\times2\)、4-clip 这类简单拼图也有增益，但明显小于标准的 \(3\times3\)、6-clip——更难的拼图提供更强的监督信号。
难度并非越大越好：\(4\times4\) 图像拼图模型学不会，作者归因于信息稀缺（COCO ≈640×480 下小块语义不足）、语义歧义（天空/墙面等均匀块难分辨）、组合爆炸（排列空间从 \(9!\) 涨到 \(16!\)）；8-clip 视频因 LLaVA-Video 多为 30 s 短视频、切 8 段后片段太短歧义，提升也不明显。
跨基座、跨推理模型都成立：换更强的 MiMo-VL-7B-SFT 仍一致提升（图像 63.77→65.14、视频 51.84→54.47、3D 50.67→52.91）；在已做过推理 RL 的 ThinkLite-VL 上加图像拼图（开 KL 约束），视觉感知提升的同时数学推理能力（MathVista/MathVision 等）基本保持。

亮点与洞察¶

"重排序"是被低估的自监督富矿：拼图在传统表示学习里曾因不如对比/掩码建模而边缘化，但作者敏锐地发现它的"确定性 ground-truth + 纯文本输出"恰好是 RLVR 时代 MLLM 后训练最缺的——同一个任务在新范式下重新焕发价值，这种"老任务配新框架"的迁移思路很值得复用。
用任务设计而非新模块解决问题：不加任何生成头、不改输出格式，仅靠"怎么造监督信号"就把视觉感知拉起来，工程落地门槛极低，可直接叠加在任意现成 MLLM 上。
分级奖励是难任务能学起来的关键开关：把"全对/全错"换成"放对几个按比例给分 + 折扣 + 非法判零"，一个看似工程化的小设计，实测是 \(3\times3\) 能不能学会的分水岭，提醒 RLVR 中奖励稠密化对硬任务的重要性。
防捷径的细节很扎实：视频裁掉首尾 5% 帧防帧匹配作弊、3D 强制点间距与深度差阈值保证任务良定义，这些约束都是"让任务真考视觉理解而非捷径"的可迁移技巧。

局限与展望¶

难度扩展有天花板：\(4\times4\) 图像、8-clip 视频都学不动，受限于训练数据分辨率/时长，需要更高分辨率数据、图块多样性约束、课程学习才可能突破，当前框架并非"难度越大越好"。
3D 是 2D 代理而非原生：3D 拼图实际是 RGB-D 上的深度点排序，并未真正在体素/点云等原生 3D 表示上做拼图，受限于通用 MLLM 当前处理 3D 的方式。
任务仍偏"感知"而非"推理"：拼图主要强化视觉中心的感知/理解，对需要长链推理的任务未必直接受益（虽在推理模型上能保住推理能力）。
改进方向：把课程学习引入难度递增、为长视频设计自适应切段数、探索原生 3D 切分，都是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 老拼图任务嫁接 RLVR 后训练，跨三模态统一，角度新颖但属"旧任务新框架"
实验充分度: ⭐⭐⭐⭐⭐ 三模态 30+ benchmark、多基座、SFT/RL 与难度消融、含失败配置分析，非常扎实
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，任务形式化与奖励定义严谨，失败案例诚实
价值: ⭐⭐⭐⭐⭐ 零标注、不改架构、可直接叠加，落地门槛极低且增益稳定