Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/RUCAIBox/Revisiting-Visual-CoT
领域: LLM推理 / 多模态VLM
关键词: 视觉链式推理, 视觉 CoT, 泛化, SFT-then-RL, 迷宫导航

一句话总结¶

作者用可控的迷宫导航任务系统对比了语言 CoT、grounding CoT、视觉 CoT 三类「think with image」式监督格式，发现更长/更花哨的视觉 CoT 只能加快收敛、抬不高最终天花板，而只保留最少 grounding 信息的极简 CoT（一条坐标路径）反而泛化最好，提出「short is long」效应并给出构造可泛化视觉推理 SFT 数据的实操指南。

研究背景与动机¶

领域现状：视觉推理正成为视觉语言模型（VLM）的关键能力，业界普遍用 CoT 数据做监督微调来教模型「想清楚再答」。主流认知是「越长越好」——更长的 CoT 带来多步推演和自我反思，而 o3 式的视觉 CoT（在图上裁剪、画线、标注，再把改过的图喂回去）被认为更贴近人类视觉认知，能进一步提升各类视觉推理 benchmark。

现有痛点：这些结论大多是在容易被预训练先验和数据污染干扰的真实 benchmark 上得到的，到底是哪种 CoT 设计在起作用、为什么起作用、哪种才真正支撑「可泛化」的推理，从来没人讲清楚。语言、空间坐标、图像操作这三种把中间推理「外化」出来的方式机制完全不同，但被笼统当成「加 CoT 就涨点」。

核心矛盾：「让监督信号更丰富（更长、带图像操作）」与「让模型学到可迁移的抽象规则」之间未必正相关——丰富的轨迹可能只是帮模型更快拟合到某个特定布局，而非内化出尺度无关的导航规律。

本文目标：在一个干净、可控、难度可调的环境里，把语言 / grounding / 视觉三类 CoT 拆开，分别回答：① 它们各自带来什么收益？② 视觉中心任务里 CoT 到底靠什么能力工作？③ 谁的泛化最好？

切入角度：选迷宫（maze）做测试床。理由是它的推理规则完全由视觉输入表达、难度可由网格大小平滑调节（4×4 到 10×10）、当前 VLM 在上面表现极差（Qwen2.5-VL-7B 在 4×4 上成功率 <10%，不会被预训练能力饱和掩盖）、且解和中间步骤都能用规则函数自动合成与过滤，天然避开数据污染。

核心 idea：在统一的 SFT-then-RL 流程下公平比较四种 CoT 格式，用「能不能跨迷宫尺寸泛化」而非「训练集成功率」来判优，最终发现剥到最少的 grounding 信息反而最利于泛化。

方法详解¶

整体框架¶

这其实是一篇机制分析 / 数据构造研究，而非提出一个新模型——它的「方法」是一套严格控制变量的实验协议：以 Qwen2.5-VL-7B 为统一底座，对四种 CoT 格式各自合成 8K 条冷启动轨迹做 SFT、再在迷宫数据上用 RL（GRPO）训到收敛（最多 1000 步），然后在未见过的更大迷宫上测泛化。整条链路是「迷宫规则化合成 → 四类 CoT 轨迹格式化 → 各格式独立 SFT 得策略模型 → RLVR 强化 → 跨尺寸泛化评测」。四种格式只在「中间推理怎么外化」这一处变量上不同，其余完全对齐，从而把「格式」对学习与泛化的影响干净地隔离出来。

输入是一张 N×N 迷宫图 \(I\) 加指令 \(Q\)（要求输出从起点 S 到终点 E、不穿墙的坐标路径，最终路径放进 \boxed{}）；输出是模型生成的推理过程 <think>…</think> 加路径。墙定义在相邻格之间而非占据格子，路径需满足相邻两格之间无墙 \(w_{(i_k,j_k)\to(i_{k+1},j_{k+1})}=0\)。

关键设计¶

1. 四种 CoT 格式：把「推理外化方式」做成唯一变量

这是全文的实验骨架，针对的痛点是「以往把不同 CoT 混为一谈、说不清谁在起作用」。四种格式从「啰嗦」到「极简」排开：

语言 CoT（L-CoT）：纯文本，用「north/south/west/east」描述每一步，轨迹 \(R^{lang}_T=r^{(l)}_1,\dots,r^{(l)}_T\)，\(r^{(l)}_t\in V_{text}\)。先用规则函数把路径转成方向序列，再让 Gemini-2.5-Pro 合成自然语言推理。
grounding CoT（G-CoT）：每步把语言引用显式绑定到图上的空间坐标，元素表示为 \(g_k=(G_k,C_k)\)，\(G_k\in\{point,line,region\}\)；合成时还注入反思模式（故意造撞墙/死胡同的错误路径 + 纠错推理）来加深推理。
视觉 CoT（V-CoT）：在 grounding 基础上允许「动手改图」——用画线操作 \(I_{t+1}=\phi_t(I_t,g_t)\) 把当前部分路径画到图上，再把更新后的图喂回模型，形成图文交错推理。
G-CoT-least（极简 grounding）：直接把最终路径坐标序列当作答案，不写额外文字解释也不写绝对坐标——因为迷宫任务的目标输出本身就是一串访问过的格点，推理已隐式嵌在路径里。这是「grounding 信息最少」的极端。

把四者放进同一 SFT-then-RL 管线，就能问出「外化越多是否越好」。

2. SFT-then-RL 训练协议：先冷启动塑形、再用可验证奖励强化

针对的痛点是「当前 VLM 连像样的迷宫思路都生成不出来，直接 RL 会崩」。流程分两段：SFT 阶段把合成推理包进 <think></think>、答案包进 \boxed{}，每种格式各 8K 条；视觉 CoT 是图文交错数据，交叉熵只在文本 token 上算。RL 阶段额外合成 20K 迷宫样本，用 GRPO 优化，奖励为

\[r=\alpha\cdot r_{acc}+(1-\alpha)\cdot r_{format},\quad \alpha=0.9\]

其中 \(r_{acc}\) 由规则函数判定预测路径是否连通起终点且不穿墙，\(r_{format}\) 约束输出格式。关键的方法学贡献在于训到真收敛：以往视觉 RL 工作常只训几十到几百步，模型欠训练、天花板看不清；本文一律训到 1000 步、性能收敛，才能公平比较各格式的「最终上限」而非「早期速度」。SFT 时冻结视觉编码器，RL 时解冻。

3. 用「跨尺寸泛化」而非「训练成功率」判优：揭示 short is long

这是结论得以成立的判据设计。痛点是「训练集都能刷到 100%，看不出谁真学到规律」。作者改看两类泛化：单尺度泛化（只在 6×6 上 SFT+RL，测未见的 7×7）和跨尺度泛化（4×4–6×6 上 SFT、7×7–9×9 上 RL，测未见的 10×10）。结果是 G-CoT-least 在两种设置下都稳健保持高成功率，而 V-CoT 约 800 步后饱和、始终落后。机制解释：极简 grounding 迫使模型内化尺度无关的局部导航规则（沿走廊走、遇死胡同回溯），而视觉 CoT 容易过拟合到具体视觉布局和操作模式。由此得出「short is long」——简洁但 grounding 良好的监督，比啰嗦重监督更能学到可复用的推理模式。

损失函数 / 训练策略¶

SFT 用标准交叉熵（V-CoT 仅对文本 token 计损）；RL 用 GRPO，奖励见上式（\(\alpha=0.9\)）。SFT 三个 epoch、学习率 \(1\times10^{-5}\)、warm-up 比例 0.1、batch 64；RL rollout batch 128、mini-batch 32、每样本 8 次 rollout，训到收敛（≤1000 步）。

实验关键数据¶

主实验¶

核心结论来自迷宫上的训练动态（图 2–5，文中以曲线呈现）与跨任务验证（表 1）。迷宫上的三条关键观察：

观察维度	L-CoT	G-CoT	V-CoT	G-CoT-least
RL 收敛速度	最慢	中等	快（≈语言 CoT 的一半步数）	最快，超过 V-CoT
训练集最终成功率	→100%	→100%	→100%	→100%（从未见显式坐标）
7×7 未见迷宫泛化	一般	较好	800 步后饱和、偏低	最好且稳定

要点：视觉 / 更长 CoT 只加速收敛、不抬天花板；剥到最少 grounding 的 G-CoT-least 起点更高、收敛更快，且泛化最强。

把结论外推到其他视觉中心任务（表 1，准确率 %）：

模型	V*Bench Overall	HR-Bench 4K Overall	FrozenLake	Jigsaw
Qwen2.5-VL-7B	72.25	72.50	20.00	0.00
+ V-CoT RL	83.25	72.00	-	-
+ G-CoT-least RL	85.86	74.12	90.33	75.60

Jigsaw 从 0% 拉到 70%+，FrozenLake 从 20% 拉到 90%+；在 VBench / HR-Bench 真实高分辨 VQA 上，不裁图、不画图的 G-CoT-least 反而全面胜过显式裁图的 V-CoT，说明模型能隐式*完成视觉推理。

消融实验¶

本文形态特殊——它本身就是一组「消融式」对照，核心对照即把 CoT 格式当作被消去/替换的变量：

配置	关键现象	说明
Zero RL（无 SFT 冷启动）	训练崩溃	证明 SFT 冷启动是稳定 RL 的必要条件
L-CoT / G-CoT / V-CoT	训练集均→100%，但天花板相近	视觉/更长 CoT 只快不强
G-CoT → G-CoT-least	起点更高、收敛更快、仍达 100%	去掉显式坐标系反而更好
V-CoT vs G-CoT-least（跨尺寸）	V-CoT 800 步饱和、落后	极简 grounding 泛化更强

关键发现¶

「short is long」：贡献最大的不是某个模块，而是「把 grounding 信息剥到最少」这一反直觉选择——它避免对特定坐标系/布局过拟合，提供更紧凑、更可迁移的归纳偏置。
机制层面：视觉中心任务里，RL 主要强化的是模型既有的 grounding 能力；一旦 grounding 与视觉环境对齐，模型就能用极短 CoT 甚至隐式推理完成任务，无需显式吐坐标或改图。
冷启动不可省：从零 RL 会崩，SFT 先把策略空间塑形、缓解探索与奖励稀疏问题。

亮点与洞察¶

用可控迷宫隔离变量很聪明：规则纯视觉、难度可调、解可自动合成，把「数据污染 + 预训练先验」这两个最大干扰因素摁住，才让「格式」的影响第一次被干净测出来。这套测试床思路可迁移到任何想做机制分析的视觉推理研究。
训到真收敛是常被忽视的方法学细节：很多「视觉 CoT 更强」的结论其实是在欠训练阶段比早期速度；本文训到 1000 步收敛后，速度优势消失、天花板趋同，提醒社区比较 RL 方法时必须控训练充分度。
「最少 grounding」当作归纳偏置这个洞察可直接指导 SFT 数据构造：与其堆长 CoT，不如给一条干净的 grounded 答案，让 RL 去强化模型自己的隐式空间表征。

局限与展望¶

作者承认主要在迷宫这一类「视觉中心 + 规则可自动合成」的任务上验证，虽外推到 FrozenLake / Jigsaw / V*Bench，但仍计划扩展到更丰富的任务族与更多 VLM。
结论的成立依赖「答案本身就是 grounding 序列」的任务结构（迷宫/路径/拼图）；对于答案非空间序列、需要大量语言推演的任务（如视觉数学、图表理解），「short is long」是否成立尚未验证——这类任务里语言 CoT 可能仍不可替代。
只用了单一底座 Qwen2.5-VL-7B；不同规模/不同预训练 grounding 能力的模型上，「极简 grounding 最优」的临界点可能不同。

评分¶

新颖性: ⭐⭐⭐⭐ 反直觉的「short is long」结论 + 干净的控变量设计，机制洞察扎实，但不提新模型。
实验充分度: ⭐⭐⭐⭐ 训到收敛的公平比较 + 多任务外推（迷宫/游戏/真实 VQA），唯任务族仍偏「答案即空间序列」。
写作质量: ⭐⭐⭐⭐ 问题—假设—验证三段式清晰，take-away 提炼到位。
价值: ⭐⭐⭐⭐ 直接给出可泛化视觉推理 SFT 数据的实操指南，对社区构造数据有现实指导意义。