Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models¶
会议: ICLR2026
OpenReview: 3kouij8BWi
代码: https://github.com/yuzeng0-0/AGILE
领域: 多模态VLM / LLM推理
关键词: 视觉语言模型, 拼图代理, 交互式强化学习, GRPO, 感知与推理
一句话总结¶
AGILE 把"解拼图"重新定义成一个让模型一步步写代码、观察环境反馈的交互过程,再配上可任意扩展的程序化合成数据 + 冷启动 SFT + GRPO 强化学习,把 Qwen2.5-VL-7B 在 2×2 拼图上的准确率从 9.5% 拉到 82.8%,并迁移到 9 个通用视觉基准上平均涨 3.1%。
研究背景与动机¶
领域现状:大型视觉语言模型(VLM)在图像描述、视觉问答、文档理解等任务上进步很快,看起来已经具备不错的多模态感知和推理能力。近期一条主流路线是用强化学习(RL)让模型在交互、试错、反馈中进一步增强推理,DeepSeek-R1 在数学推理上的成功又把规则可验证的 RL 推到了多模态领域。
现有痛点:作者发现一个尴尬的事实——即便是非常简单的 2×2 拼图任务,现有 VLM(包括 GPT-4o、Gemini-2.5-Pro、Qwen2.5-VL-72B)的准确率都接近随机水平。这说明现有预训练和微调策略虽然堆出了很多"看起来会"的能力,但底层的感知精度和结构化推理仍然很弱。而想用 RL 补这块短板,又卡在数据上:高质量视觉语言 RL 数据要么靠人工标注(贵且规模小),要么靠闭源模型自动合成(质量受限、能力受限、API 成本高),都难以规模化。
核心矛盾:要靠 RL 强化感知与推理,就需要大量高质量、可验证、难度可控的训练数据;但现有数据构造方式恰恰无法同时满足"规模大 + 质量高 + 有 ground truth"。
本文目标:找到一个既能精准刻画"感知 + 推理"、又能无限扩展且自带正确答案的代理任务(proxy task),用它来训练 VLM 的底层能力。
切入角度:拼图任务天然满足这些要求——它强迫模型同时做到感知准确(看清每块碎片的内容和边缘)和逻辑推断(推断碎片之间的空间关系),难度可以通过网格大小 \(m\) 和初始正确块数精确调节,而且因为打乱过程是程序记录的,ground truth 永远可得、数据可以无限程序化合成。更关键的是,作者不把拼图当成一次性的"看图答题",而是当成一个多轮交互过程:模型每一步生成可执行代码去操作环境、拿到细粒度视觉反馈、再决定下一步。
核心 idea:把"解拼图"建模成模型与环境的逐步交互(生成 Python 代码做动作 → 环境返回新图像 → 继续推理),并用程序化合成的可扩展拼图数据做冷启动 + GRPO 强化学习,从而在底层提升 VLM 的视觉感知与推理能力。
方法详解¶
整体框架¶
AGILE(Agentic jiGsaw Interaction Learning for Enhancing)要解决的是"VLM 连简单拼图都解不好、且没有可规模化的 RL 数据"这个问题。它的整体管线分三层:先把拼图定义成一个可交互的环境(模型靠写代码操作、靠观察反馈推进);再用一套程序化数据构造 + 冷启动轨迹采集给模型装上基本的指令遵循和代码生成能力;最后用 GRPO 强化学习 + 三项奖励让模型在大规模合成拼图上自我提升,并把学到的感知/推理能力迁移到通用视觉任务。
具体地,给定一张图,切成 \(m \times m\) 网格、按行优先编号 \(1 \sim m^2\) 后随机打乱,模型要在最多 \(T\) 步内把它还原成 ground truth 布局。每一步模型输出一段含 <think>/<code>/<answer> 标签的回复:<code> 里是调用预定义 API(Swap / Observe / Crop / Zoom)的 Python 代码,环境执行后返回新的拼图图像作为下一轮的用户输入,如此循环直到模型输出 <answer>。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入图像<br/>切 m×m 网格并打乱"] --> B["交互式拼图环境<br/>Swap / Observe / Crop&Zoom 动作空间"]
B --> C["可扩展拼图数据构造<br/>程序化合成 + 难度可控"]
C --> D["冷启动轨迹采集<br/>Gemini 采 1.6K 高质量轨迹做 SFT"]
D --> E["GRPO 强化学习<br/>准确率+格式+步数 三项奖励"]
E -->|多轮交互推理| B
E --> F["输出:还原拼图<br/>并迁移到 9 个通用视觉基准"]
关键设计¶
1. 拼图环境与代理动作空间:把"答题"变成"边操作边看"
这一设计直接针对"VLM 在静态拼图上接近随机"的痛点。作者不让模型一次性猜出整张图的排列,而是预定义一组 Python API,让模型把每一步意图写成代码、交给环境执行。动作空间含三类:Swap(交换任意两块碎片的位置)、Observe(拿到当前拼图状态 \(I_{Obs}\) 以决定下一步)、Crop & Zoom(裁剪并放大某个局部,看清细粒度细节)。形式上,打乱态记为 \(I_{Shuffle}=\{I_1,\dots,I_{m^2}\}\),目标态 \(I_{GT}=\{I_{\pi(1)},\dots,I_{\pi(m^2)}\}\),模型维护的当前态为 \(I_{State}=\{I_{\pi^*(1)},\dots,I_{\pi^*(m^2)}\}\),每步通过交换两块逐渐逼近 \(I_{GT}\)。这种"观察—交互"的闭环之所以有效,是因为它把一个需要全局一次性求解的难题,拆成了若干个有即时视觉反馈的小决策——模型每动一步就能看到结果对不对,从而在过程中真正学会捕捉碎片间的结构关系,而不是盲猜整张排列。
2. 可扩展的程序化拼图数据构造:用代码和规则绕开数据稀缺
针对"高质量多模态 RL 数据贵且不可扩展"的核心矛盾,AGILE 用代码 + 规则来生成数据,带来两个别的方法给不了的好处。其一,难度精确可控:通过调节初始已正确摆放的碎片数(论文用 \(L_N\) 标记,\(N\) 越小越乱、越难)和网格规模 \(m\),可以连续生成从易到难的样本。其二,ground truth 天然可得:因为打乱是程序执行的,正确排列永远已知,于是合成数据集可以在严格监督下扩展到任意规模,彻底绕开人工标注或闭源合成的瓶颈。RL 阶段作者据此构造了 15.6K 张跨域图像(高分辨率视觉搜索、OCR 文字识别、真实场景、结构化图表),每张切 2×2 并打乱到所有碎片都错位。这正是论文反复强调的"对 RL 数据稀缺的高效可持续解法"——数据多少由算力决定,而非由标注预算决定。
3. 冷启动 SFT:先把"会写代码、会跟指令"教会
作者发现直接上 RL 效率很低,因为基座 Qwen2.5-VL-7B 的指令遵循差、生成的 Python 代码常常出错,根本没法和环境正常交互,会引入大量训练噪声。于是先做冷启动:用 Gemini-2.5-Pro(Preview-05-06)配上结构化提示词去和环境交互、解拼图,采集专家轨迹;再做两道质量过滤——先只保留 Gemini 输出与 ground truth 一致的样本,再人工逐步核验每一步交互的合理性与一致性。为保证模型在 RL 阶段能用全套动作,轨迹还按步数(4–8 步)和动作类型(Swap/Observe/Crop/Zoom)做了平衡,最终得到 1.6K 条高质量轨迹做监督微调。这一步的作用不是直接提性能(实测冷启动后 3×3 上甚至略降),而是把模型从"连环境都接不上"拉到"能正常交互",给后续 RL 铺好地基。
4. GRPO 强化学习与三项奖励:用过程反馈把能力真正练出来
最后用 Group Relative Policy Optimization(GRPO)做强化学习。GRPO 不学单独的价值函数,而是把一组采样输出的平均奖励当基线,组内相对奖励算优势 \(\hat{A}_{i,t}\),优化目标是带 clip 和 KL 正则的策略目标 \(J_{GRPO}(\theta)\)。奖励由三部分相加:准确率奖励(所有碎片都摆对得 1,否则 0)、格式奖励(推理/代码/答案分别正确包在 <think>/<code>/<answer> 里得 1)、步数奖励(鼓励用尽量少的步数解完)。步数奖励的设计有讲究——2×2 拼图理论上最多 3 步交换就能解完,步数过多会塞进无效操作、稀释有效的感知与推理;同时为防止训练早期模型"钻空子"刷步数奖励,步数奖励只在拼图被正确解出时才发放,解错则直接给最大步数惩罚:
其中 \(\lambda=-0.05\) 是步数惩罚系数。总奖励为 \(R = \alpha R_{acc} + \beta R_{format} + \gamma R_{step}\),实验中 \(\alpha,\beta,\gamma\) 分别设为 0.8、0.2、1.0。这套组合奖励既保证答对是第一目标,又约束输出格式可解析、过程尽量精炼,从而让模型在多轮交互里把感知和推理能力真正"练"出来。
损失函数 / 训练策略¶
训练分两阶段、均为全参数调优:冷启动 SFT 在 llama-factory 上用 1.6K 轨迹做;RL 在 verl 上用 15.6K 图像跑 GRPO。推理与评测统一用 VLMEvalKit,且所有通用下游基准都在严格单轮设定下评测,与所有 baseline 协议一致以保证公平。全部实验在 8 张 80GB A100 上完成。
实验关键数据¶
主实验¶
拼图测试集 300 张图,切 2×2 和 3×3,用两个指标:Acc(所有碎片都摆对才记 1)与 Score(正确块数 / 总块数)。
| 模型 | 2×2 Acc | 2×2 Score | 3×3 Acc | 3×3 Score |
|---|---|---|---|---|
| Random | 4.1 | 24.9 | 0.0 | 11.2 |
| GPT-4o | 41.1 | 59.0 | 4.9 | 41.5 |
| Gemini-2.5-Pro | 46.4 | 59.0 | 14.6 | 45.1 |
| Qwen2.5-VL-72B | 27.4 | 47.6 | 3.9 | 36.0 |
| Qwen2.5-VL-7B(基座) | 9.5 | 29.4 | 0.4 | 31.1 |
| + Cold-Start | 22.0 | 43.8 | 0.2 | 11.0 |
| + RL(AGILE) | 82.8 | 89.0 | 20.8 | 62.1 |
7B 基座在最简单的 2×2 上也只有 9.5% Acc,而 AGILE 把它拉到 82.8%,3×3 上从 0.4% 提到 20.8%,全面超过闭源 Gemini-2.5-Pro 和 10 倍大的 Qwen2.5-VL-72B。
通用视觉任务在 9 个基准上评测,验证拼图训练能否迁移:
| 基准 | Qwen2.5-VL-7B | + RL | ∆ |
|---|---|---|---|
| HRBench4K | 68.8 | 73.0 | +4.2 |
| HRBench8K | 65.3 | 70.5 | +5.2 |
| VStarBench | 76.4 | 80.6 | +4.2 |
| MMVP | 74.3 | 78.0 | +3.7 |
| MME-RealWorld | 44.6 | 48.4 | +3.8 |
| 9 基准平均 | 62.1 | 65.2 | +3.1 |
拼图训练并非过拟合到拼图本身,而是把"捕捉视觉关系 + 结构化推理"的底层能力迁移到了高分辨率理解、真实场景、细粒度识别等通用任务上。
消融实验¶
| 配置 | 2×2 Acc | 说明 |
|---|---|---|
| Qwen2.5-VL-7B 基座 | 9.5 | 起点 |
| + Cold-Start(仅 SFT) | 22.0 | 装上基本交互能力,但 3×3 反而略降,单靠 SFT 不够 |
| + RL(完整 AGILE) | 82.8 | RL 才是性能跃升的主力 |
数据规模分析:把 RL 训练数据从小到大扩展,拼图 Acc 从 22.0% 升到 82.8%,HRBench4K 和 RealWorldQA 分别涨 2.0% 和 1.8%,呈现清晰的"数据越多越强"趋势。拼图数据 vs 通用 QA 数据:等预算下拼图训练效果可比甚至超过通用 QA;10K 拼图 + 10K QA 的组合在通用基准上优于纯 20K QA。
关键发现¶
- RL 是性能跃升的关键:冷启动 SFT 只把模型从"接不上环境"拉到"能交互"(2×2 22.0%),真正把 2×2 Acc 推到 82.8% 的是 GRPO 强化学习;单靠 SFT 在 3×3 上甚至略有下降。
- 拼图能力可迁移:在拼图上练出的感知/推理能力在 9 个完全不同的通用视觉基准上平均涨 3.1%,说明学到的是底层能力而非拼图技巧。
- 程序化数据可扩展性是核心红利:因为拼图数据由代码合成、难度可控、ground truth 自带,数据规模可由算力决定,直接缓解了多模态 RL 数据稀缺这一根本瓶颈,且数据越多性能越强。
亮点与洞察¶
- 用"代理任务 + 交互"双管齐下:拼图作为代理任务解决了"数据可无限合成且自带答案",交互式建模解决了"VLM 静态求解能力弱",两者结合才让一个 7B 模型在底层能力上反超 72B 和闭源大模型——单独任何一招都不够。
- 步数奖励的"先解对再奖励步数"很巧妙:直接奖励少步数会让模型在没解对时就钻空子刷奖励;AGILE 用 \(\mathbb{I}_{\{R_{acc}=1\}}\) 把步数奖励锁在"已解对"之后发放,解错就给最大惩罚,这个 reward shaping 细节可直接迁移到其他"过程要短但首先要对"的交互任务。
- 冷启动的定位很清醒:作者明确冷启动不是为了提性能(实测 3×3 还略降),而是为了让模型"能正常和环境交互",把脏轨迹噪声压下去再上 RL——这种"SFT 铺地基、RL 出能力"的分工对 agentic RL 训练有普适参考价值。
- 程序化合成可作为通用 RL 数据范式:把"答案天然可验证 + 难度可程序调节"的任务做成代理任务,是绕开多模态 RL 数据稀缺的一条可复用思路,可推广到其他需要感知+推理的领域。
局限与展望¶
- 代理任务与目标能力的覆盖范围:拼图主要刻画空间结构感知与排列推理,对需要语义常识、跨模态对齐、长程因果推理的能力提升可能有限;论文展示的通用迁移平均仅 +3.1%,幅度不大。
- 3×3 仍然偏弱:即便 RL 后,3×3 Acc 也只有 20.8%,说明随网格变大、交互步数和搜索空间爆炸,方法的可扩展性还有瓶颈。
- 依赖闭源教师采冷启动:1.6K 高质量轨迹靠 Gemini-2.5-Pro 采集 + 人工核验,仍有一定成本与质量天花板,离"完全自举"还有距离。
- 单一基座验证:实验只在 Qwen2.5-VL-7B 上做,方法在更大/更小或不同架构 VLM 上的普适性尚待验证。
相关工作与启发¶
- vs Jigsaw-R1:同样用拼图做基于谜题的 RL 范式,但 Jigsaw-R1 因训练受限,模型在 2×2 拼图上仍然很差、没能吃到代理任务的红利;AGILE 把拼图改成多轮交互过程 + 冷启动 + GRPO,把 2×2 拉到 82.8%,真正发挥了代理任务的价值。
- vs DeepEyes / Perception-R1 / R1-V 等感知向 RL:它们用 RL 强化计数、grounding 或调用视觉工具来提感知;AGILE 不针对某个具体感知子任务,而是用拼图这个同时考感知+推理的代理任务统一提升底层能力,并强调数据的可程序化扩展。
- vs Logic-RL / Enigmata / Code2Logic / ViGaL 等代理任务:这些主要用文本谜题或代码合成游戏提升 LLM/VLM 的数学与逻辑推理;AGILE 把"代理任务 + 规则可验证奖励"的思路落到视觉感知这一更基础的层面,并以交互式 rollout 提供逐步反馈,区别在于它强化的是"看清 + 推断空间关系"的底层视觉能力。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把拼图重塑为交互式代理任务、并用程序化合成数据规模化训练,是一个角度清奇又自洽的组合
- 实验充分度: ⭐⭐⭐⭐ 拼图 + 9 个通用基准 + 数据规模/QA 对比消融较完整,但只验证了单一 7B 基座
- 写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰,奖励设计与数据构造讲得明白
- 价值: ⭐⭐⭐⭐⭐ 为"多模态 RL 数据稀缺"给出可扩展、自带监督的解法,对 agentic 视觉训练有方法论意义