跳转至

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/RUCAIBox/Revisiting-Visual-CoT
领域: LLM推理 / 多模态VLM
关键词: 视觉链式推理, 视觉 CoT, 泛化, SFT-then-RL, 迷宫导航

一句话总结

作者用可控的迷宫导航任务系统对比了语言 CoT、grounding CoT、视觉 CoT 三类「think with image」式监督格式,发现更长/更花哨的视觉 CoT 只能加快收敛、抬不高最终天花板,而只保留最少 grounding 信息的极简 CoT(一条坐标路径)反而泛化最好,提出「short is long」效应并给出构造可泛化视觉推理 SFT 数据的实操指南。

研究背景与动机

领域现状:视觉推理正成为视觉语言模型(VLM)的关键能力,业界普遍用 CoT 数据做监督微调来教模型「想清楚再答」。主流认知是「越长越好」——更长的 CoT 带来多步推演和自我反思,而 o3 式的视觉 CoT(在图上裁剪、画线、标注,再把改过的图喂回去)被认为更贴近人类视觉认知,能进一步提升各类视觉推理 benchmark。

现有痛点:这些结论大多是在容易被预训练先验和数据污染干扰的真实 benchmark 上得到的,到底是哪种 CoT 设计在起作用、为什么起作用、哪种才真正支撑「可泛化」的推理,从来没人讲清楚。语言、空间坐标、图像操作这三种把中间推理「外化」出来的方式机制完全不同,但被笼统当成「加 CoT 就涨点」。

核心矛盾:「让监督信号更丰富(更长、带图像操作)」与「让模型学到可迁移的抽象规则」之间未必正相关——丰富的轨迹可能只是帮模型更快拟合到某个特定布局,而非内化出尺度无关的导航规律。

本文目标:在一个干净、可控、难度可调的环境里,把语言 / grounding / 视觉三类 CoT 拆开,分别回答:① 它们各自带来什么收益?② 视觉中心任务里 CoT 到底靠什么能力工作?③ 谁的泛化最好?

切入角度:选迷宫(maze)做测试床。理由是它的推理规则完全由视觉输入表达、难度可由网格大小平滑调节(4×4 到 10×10)、当前 VLM 在上面表现极差(Qwen2.5-VL-7B 在 4×4 上成功率 <10%,不会被预训练能力饱和掩盖)、且解和中间步骤都能用规则函数自动合成与过滤,天然避开数据污染。

核心 idea:在统一的 SFT-then-RL 流程下公平比较四种 CoT 格式,用「能不能跨迷宫尺寸泛化」而非「训练集成功率」来判优,最终发现剥到最少的 grounding 信息反而最利于泛化

方法详解

整体框架

这其实是一篇机制分析 / 数据构造研究,而非提出一个新模型——它的「方法」是一套严格控制变量的实验协议:以 Qwen2.5-VL-7B 为统一底座,对四种 CoT 格式各自合成 8K 条冷启动轨迹做 SFT、再在迷宫数据上用 RL(GRPO)训到收敛(最多 1000 步),然后在未见过的更大迷宫上测泛化。整条链路是「迷宫规则化合成 → 四类 CoT 轨迹格式化 → 各格式独立 SFT 得策略模型 → RLVR 强化 → 跨尺寸泛化评测」。四种格式只在「中间推理怎么外化」这一处变量上不同,其余完全对齐,从而把「格式」对学习与泛化的影响干净地隔离出来。

输入是一张 N×N 迷宫图 \(I\) 加指令 \(Q\)(要求输出从起点 S 到终点 E、不穿墙的坐标路径,最终路径放进 \boxed{});输出是模型生成的推理过程 <think>…</think> 加路径。墙定义在相邻格之间而非占据格子,路径需满足相邻两格之间无墙 \(w_{(i_k,j_k)\to(i_{k+1},j_{k+1})}=0\)

关键设计

1. 四种 CoT 格式:把「推理外化方式」做成唯一变量

这是全文的实验骨架,针对的痛点是「以往把不同 CoT 混为一谈、说不清谁在起作用」。四种格式从「啰嗦」到「极简」排开:

  • 语言 CoT(L-CoT):纯文本,用「north/south/west/east」描述每一步,轨迹 \(R^{lang}_T=r^{(l)}_1,\dots,r^{(l)}_T\)\(r^{(l)}_t\in V_{text}\)。先用规则函数把路径转成方向序列,再让 Gemini-2.5-Pro 合成自然语言推理。
  • grounding CoT(G-CoT):每步把语言引用显式绑定到图上的空间坐标,元素表示为 \(g_k=(G_k,C_k)\)\(G_k\in\{point,line,region\}\);合成时还注入反思模式(故意造撞墙/死胡同的错误路径 + 纠错推理)来加深推理。
  • 视觉 CoT(V-CoT):在 grounding 基础上允许「动手改图」——用画线操作 \(I_{t+1}=\phi_t(I_t,g_t)\) 把当前部分路径画到图上,再把更新后的图喂回模型,形成图文交错推理。
  • G-CoT-least(极简 grounding):直接把最终路径坐标序列当作答案,不写额外文字解释也不写绝对坐标——因为迷宫任务的目标输出本身就是一串访问过的格点,推理已隐式嵌在路径里。这是「grounding 信息最少」的极端。

把四者放进同一 SFT-then-RL 管线,就能问出「外化越多是否越好」。

2. SFT-then-RL 训练协议:先冷启动塑形、再用可验证奖励强化

针对的痛点是「当前 VLM 连像样的迷宫思路都生成不出来,直接 RL 会崩」。流程分两段:SFT 阶段把合成推理包进 <think></think>、答案包进 \boxed{},每种格式各 8K 条;视觉 CoT 是图文交错数据,交叉熵只在文本 token 上算。RL 阶段额外合成 20K 迷宫样本,用 GRPO 优化,奖励为

\[r=\alpha\cdot r_{acc}+(1-\alpha)\cdot r_{format},\quad \alpha=0.9\]

其中 \(r_{acc}\) 由规则函数判定预测路径是否连通起终点且不穿墙,\(r_{format}\) 约束输出格式。关键的方法学贡献在于训到真收敛:以往视觉 RL 工作常只训几十到几百步,模型欠训练、天花板看不清;本文一律训到 1000 步、性能收敛,才能公平比较各格式的「最终上限」而非「早期速度」。SFT 时冻结视觉编码器,RL 时解冻。

3. 用「跨尺寸泛化」而非「训练成功率」判优:揭示 short is long

这是结论得以成立的判据设计。痛点是「训练集都能刷到 100%,看不出谁真学到规律」。作者改看两类泛化:单尺度泛化(只在 6×6 上 SFT+RL,测未见的 7×7)和跨尺度泛化(4×4–6×6 上 SFT、7×7–9×9 上 RL,测未见的 10×10)。结果是 G-CoT-least 在两种设置下都稳健保持高成功率,而 V-CoT 约 800 步后饱和、始终落后。机制解释:极简 grounding 迫使模型内化尺度无关的局部导航规则(沿走廊走、遇死胡同回溯),而视觉 CoT 容易过拟合到具体视觉布局和操作模式。由此得出「short is long」——简洁但 grounding 良好的监督,比啰嗦重监督更能学到可复用的推理模式。

损失函数 / 训练策略

SFT 用标准交叉熵(V-CoT 仅对文本 token 计损);RL 用 GRPO,奖励见上式(\(\alpha=0.9\))。SFT 三个 epoch、学习率 \(1\times10^{-5}\)、warm-up 比例 0.1、batch 64;RL rollout batch 128、mini-batch 32、每样本 8 次 rollout,训到收敛(≤1000 步)。

实验关键数据

主实验

核心结论来自迷宫上的训练动态(图 2–5,文中以曲线呈现)与跨任务验证(表 1)。迷宫上的三条关键观察:

观察维度 L-CoT G-CoT V-CoT G-CoT-least
RL 收敛速度 最慢 中等 快(≈语言 CoT 的一半步数) 最快,超过 V-CoT
训练集最终成功率 →100% →100% →100% →100%(从未见显式坐标)
7×7 未见迷宫泛化 一般 较好 800 步后饱和、偏低 最好且稳定

要点:视觉 / 更长 CoT 只加速收敛、不抬天花板;剥到最少 grounding 的 G-CoT-least 起点更高、收敛更快,且泛化最强。

把结论外推到其他视觉中心任务(表 1,准确率 %):

模型 V*Bench Overall HR-Bench 4K Overall FrozenLake Jigsaw
Qwen2.5-VL-7B 72.25 72.50 20.00 0.00
+ V-CoT RL 83.25 72.00 - -
+ G-CoT-least RL 85.86 74.12 90.33 75.60

Jigsaw 从 0% 拉到 70%+,FrozenLake 从 20% 拉到 90%+;在 VBench / HR-Bench 真实高分辨 VQA 上,不裁图、不画图的 G-CoT-least 反而全面胜过显式裁图的 V-CoT,说明模型能隐式*完成视觉推理。

消融实验

本文形态特殊——它本身就是一组「消融式」对照,核心对照即把 CoT 格式当作被消去/替换的变量:

配置 关键现象 说明
Zero RL(无 SFT 冷启动) 训练崩溃 证明 SFT 冷启动是稳定 RL 的必要条件
L-CoT / G-CoT / V-CoT 训练集均→100%,但天花板相近 视觉/更长 CoT 只快不强
G-CoT → G-CoT-least 起点更高、收敛更快、仍达 100% 去掉显式坐标系反而更好
V-CoT vs G-CoT-least(跨尺寸) V-CoT 800 步饱和、落后 极简 grounding 泛化更强

关键发现

  • 「short is long」:贡献最大的不是某个模块,而是「把 grounding 信息剥到最少」这一反直觉选择——它避免对特定坐标系/布局过拟合,提供更紧凑、更可迁移的归纳偏置。
  • 机制层面:视觉中心任务里,RL 主要强化的是模型既有的 grounding 能力;一旦 grounding 与视觉环境对齐,模型就能用极短 CoT 甚至隐式推理完成任务,无需显式吐坐标或改图。
  • 冷启动不可省:从零 RL 会崩,SFT 先把策略空间塑形、缓解探索与奖励稀疏问题。

亮点与洞察

  • 用可控迷宫隔离变量很聪明:规则纯视觉、难度可调、解可自动合成,把「数据污染 + 预训练先验」这两个最大干扰因素摁住,才让「格式」的影响第一次被干净测出来。这套测试床思路可迁移到任何想做机制分析的视觉推理研究。
  • 训到真收敛是常被忽视的方法学细节:很多「视觉 CoT 更强」的结论其实是在欠训练阶段比早期速度;本文训到 1000 步收敛后,速度优势消失、天花板趋同,提醒社区比较 RL 方法时必须控训练充分度。
  • 「最少 grounding」当作归纳偏置这个洞察可直接指导 SFT 数据构造:与其堆长 CoT,不如给一条干净的 grounded 答案,让 RL 去强化模型自己的隐式空间表征。

局限与展望

  • 作者承认主要在迷宫这一类「视觉中心 + 规则可自动合成」的任务上验证,虽外推到 FrozenLake / Jigsaw / V*Bench,但仍计划扩展到更丰富的任务族与更多 VLM。
  • 结论的成立依赖「答案本身就是 grounding 序列」的任务结构(迷宫/路径/拼图);对于答案非空间序列、需要大量语言推演的任务(如视觉数学、图表理解),「short is long」是否成立尚未验证——这类任务里语言 CoT 可能仍不可替代。
  • 只用了单一底座 Qwen2.5-VL-7B;不同规模/不同预训练 grounding 能力的模型上,「极简 grounding 最优」的临界点可能不同。

相关工作与启发

  • vs 长 CoT / 视觉 CoT 主流叙事(o3「think with image」等): 主流认为外化越多、链越长越好;本文用控变量实验给出反例——视觉 CoT 只加速不增效,啰嗦反而伤泛化,纠正了「视觉 CoT 普遍更强」的过度乐观。
  • vs grounding CoT 工作(用 bbox/点/线把语言绑到视觉证据): 本文不止用 grounding,还把它推到极限(G-CoT-least),并证明显式坐标系不是必需,模型可在隐式潜空间里完成空间推理。
  • vs 视觉中心 RL 工作: 这些工作观察到「视觉任务里 RL 诱导的 CoT 往往很短」,本文进一步揭示其机制——RL 主要在强化既有 grounding 能力,grounding 一旦够强,极短 CoT 即可。

评分

  • 新颖性: ⭐⭐⭐⭐ 反直觉的「short is long」结论 + 干净的控变量设计,机制洞察扎实,但不提新模型。
  • 实验充分度: ⭐⭐⭐⭐ 训到收敛的公平比较 + 多任务外推(迷宫/游戏/真实 VQA),唯任务族仍偏「答案即空间序列」。
  • 写作质量: ⭐⭐⭐⭐ 问题—假设—验证三段式清晰,take-away 提炼到位。
  • 价值: ⭐⭐⭐⭐ 直接给出可泛化视觉推理 SFT 数据的实操指南,对社区构造数据有现实指导意义。