SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZSMDuKtYbt
代码: https://github.com/Ruiyang-061X/SketchThinker-R1
领域: VLM推理 / 高效推理 / 多模态大模型
关键词: 草图式推理, 多模态推理, 强化学习, 推理效率, 奖励模型

一句话总结¶

SketchThinker-R1 用“先把长推理压成草图式推理、再训练 SketchJudge 奖励模型、最后用 GRPO 强化学习”的三阶段流程，让多模态大模型在视觉问答和视觉逻辑/数学/物理推理中少写大量中间推理 token，同时保持甚至提升最终答案准确率。

研究背景与动机¶

领域现状：多模态大模型正在沿着 R1/o1 式路线发展：模型先生成较长的思考过程，再给出最终答案。对于数学图题、视觉逻辑题、物理常识题这类任务，长链式推理确实能让模型显式梳理图像线索、问题条件和求解步骤，因此不少 LMM 推理方法会鼓励模型“多想一点”。

现有痛点：长推理带来的收益并不是免费的。推理链越长，输出 token 成本和响应时间越高；更麻烦的是，冗长推理经常把无关线索也写进来，模型可能在后续步骤里被自己生成的枝节带偏。对于交互式多模态应用，用户并不总是需要完整的长篇解释，而是更需要模型抓住关键视觉证据并快速给出可靠答案。

核心矛盾：这篇论文瞄准的是“推理能力”和“推理开销”之间的矛盾。直接限制输出长度会让模型少想，但也容易把必要步骤一起砍掉；只做普通 R1-style 强化学习又会让模型形成越来越长的显式思考。作者认为更合适的目标不是单纯变短，而是学会一种类似人类草稿纸的 sketch-style reasoning：只保留能支撑答案的关键逻辑节点。

本文目标：作者希望训练一个多模态推理模型，使它在面对图像问题时能够自动生成短而集中的思考过程：保留关键视觉线索、关键计算或逻辑跳转，去掉冗余解释和重复确认，并在多领域 benchmark 上保持答案准确率。

切入角度：论文的切入点很直接：既然人类解题时常常只在草稿上写几行核心步骤，那么 LMM 也可以被训练成这种“草图式思考”模式。难点在于不能只靠 prompt 要求模型少写，因为 prompt-based 压缩会牺牲准确率；也不能只用长度惩罚，因为长度奖励容易诱导模型为了变短而忽略正确性。

核心 idea：SketchThinker-R1 用一个显式判断推理风格的 SketchJudge 奖励模型，把“草图式而非冗长”的推理风格作为 RL 奖励的一部分，从而让模型内化高信息密度的多模态推理方式。

方法详解¶

整体框架¶

SketchThinker-R1 是一个训练框架，而不是单个新解码算法。它从已有的长链式多模态推理数据出发，先构造草图式推理数据给基座 LMM 做冷启动；然后训练一个能判别“草图式/普通长推理”的 SketchJudge；最后把冷启动后的 LMM 放进 GRPO 强化学习，用准确率、格式和 SketchJudge 风格分数共同塑造模型输出。

整个流程的关键在于把“短”拆成了两个不同概念：一是冷启动阶段的数据压缩，让模型先见过高质量的短推理；二是 RL 阶段的风格奖励，让模型在新任务上继续倾向于写关键逻辑，而不是机械追求最短长度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["长链式多模态<br/>推理数据"] --> B["草图冷启动：<br/>先学会保留关键逻辑"]
    B --> C["SketchJudge：<br/>把推理风格变成奖励"]
    C --> D["草图式 GRPO：<br/>在准确率约束下泛化短推理"]
    D --> E["SketchThinker-R1：<br/>低 token 推理"]

关键设计¶

1. 草图冷启动：先把“少写”变成可学习的推理风格

直接对一个基座多模态模型做 RL，让它自己探索草图式推理，论文发现学习很慢，最终 token 下降也有限。原因是模型一开始并不知道什么叫“只留下关键逻辑”：如果只给最终准确率奖励，长推理仍然是更容易探索到的策略；如果只给长度压力，又容易把必要线索一起删掉。因此作者先做 Sketch-Mode Cold Start，把 LLaVA-CoT-100K 和 Vision-R1-cold 里的长推理 \(T_{Long}\) 转成草图式推理 \(T_{Sketch}\)。

转换过程由强 LLM 完成，规则不是简单摘要，而是要求保留解题所需的关键事实和逻辑顺序，去掉无关细节、冗长解释和具体展开，并把结果整理成编号列表。随后用这些样本对 Qwen2.5-VL-Instruct 这类基座 LMM 做监督微调，优化普通自回归 SFT 目标 \(L_{SFT}=-\frac{1}{N}\sum_i\sum_t\log \pi_\theta(o_{i,t}\mid o_{i,<t},q_i)\)。这一步的作用像给模型一个“推理书写格式”的初始坐标：它不是学会某个 benchmark 的答案，而是先学会在视觉问题里用更高密度的中间步骤表达推理。

2. SketchJudge：把推理风格变成可训练的奖励信号

只靠 SFT 冷启动会有分布外泛化问题：模型在冷启动数据上会写短，但到了新的数学、逻辑或物理图题上，不一定知道哪些步骤可以省、哪些不能省。为了解决这个问题，论文训练了 SketchJudge Reward Model。它输入一段 thinking process，输出 1 或 0：草图式推理记为 1，普通冗长推理记为 0。

这个奖励模型的训练数据来自同一批冷启动样本的两种版本：原始长推理 \(T_{Long}\) 标为 0，转换后的 \(T_{Sketch}\) 标为 1。这样做的好处是，RL 阶段不需要人工写复杂规则去衡量“是不是啰嗦”，而是把推理风格判断交给一个专门训练过的模型。论文还比较了“直接 prompt 一个现成 LLM 打分”和“对 LLM 做 SFT 后打分”，后者能给出更可靠的风格监督，最终的准确率和 token 效率都更好。

3. 草图式 GRPO：用小权重风格奖励约束推理，而不是用长度硬砍

最后阶段使用 GRPO 对冷启动后的 LMM 做强化学习。每个问题会采样一组候选回答，根据奖励计算组内优势 \(A_i=\frac{r_i-mean(\{r_1,\cdots,r_G\})}{std(\{r_1,\cdots,r_G\})}\)，再用带 clip 和 KL penalty 的 GRPO 目标更新策略。关键不是 GRPO 本身，而是奖励设计：

\[ R_i = 0.5R_{accuracy}(o_i)+0.4R_{format}(o_i)+0.1R_{thinking\text{-}style}(o_i) \]

其中 \(R_{thinking\text{-}style}\) 由 SketchJudge 判断 thinking 部分是否为 sketch-style，若是则为 1，否则为 0。这个权重设计很克制：风格奖励只有 0.1，准确率仍占最大比重。论文的消融说明，如果把 sketch reward 权重继续加大，token 会更短，但准确率会掉，出现模型为了拿风格分而忽略解题的 reward hacking。换句话说，SketchThinker-R1 不是训练模型“越短越好”，而是训练它在答案正确和格式合规的前提下，把推理写成关键步骤。

4. 多源任务构造：让草图式推理跨领域迁移

SketchColdStart-20K 从两个多模态推理数据源各采样 10K，RL 阶段的 SketchRL-1K 则从 MMStar、MathVista、LogicVista、SeePhys 各采样 250 个问题。这个设计让模型同时见到通用视觉理解、数学视觉推理、视觉逻辑和视觉物理问题，避免“短推理能力”只适配某一种题型。

消融结果也支持这个判断：只用 LLaVA-CoT-100K 或只用 Vision-R1-cold 构造冷启动数据，MMMU 上的准确率和 EoT 都低于两者混合。作者还做了 RL 数据规模扩展实验，从 1K 增到 5K 时，SketchThinker-R1-7B 的 MMMU 准确率从 62.8 提到 66.1，平均推理 token 从 64.3 降到 56.8，说明草图式推理不是靠单个小数据集偶然拟合出来的。

一个完整示例¶

可以把它想成一道带图的几何题。普通 Vanilla-R1 可能会先描述图像里每个点、每条线、可能的定理，再反复确认条件，最后才给出答案；其中很多文字只是把视觉信息复述了一遍。SketchThinker-R1 的目标输出更像草稿纸：

识别图中关键形状和已知量。
选用与问题相关的公式或关系。
代入必要数值。
得到答案并匹配选项。

这个例子里，模型并没有跳过推理，而是跳过了“解释自己为什么看到这条线”“反复复述每个选项”这类低信息密度内容。论文中的定性样例也显示，SketchThinker-R1 往往只围绕关键 cues 展开，因此比 Vanilla-R1 更短，同时人类和 LVLM 评价都认为它的推理 trace 更容易读。

损失函数 / 训练策略¶

冷启动和 SketchJudge 训练都使用 LLaMA-Factory。SketchThinker-R1-7B 的基座是 Qwen2.5-VL-7B-Instruct，3B 版本使用 Qwen2.5-VL-3B-Instruct；冷启动 LoRA rank 为 8，学习率 \(1.0e^{-5}\)，训练 10 个 epoch。SketchJudge 使用 Qwen2.5-7B-Instruct 做骨干，训练集由 20K 条长推理和 20K 条草图推理组成，共 40K 个带 0/1 标签的样本。

RL 阶段使用 Easy-R1 和 GRPO，默认最大 prompt 长度 2048，最大 response 长度 2048，KL 系数 0.01，AdamW 学习率 \(1.0e^{-6}\)，weight decay \(1.0e^{-2}\)。主实验中 rollout 采样次数为 5，温度为 1.0，训练 15 个 epoch，共 105 个训练 step。附录里还报告了动态奖励权重：训练前期更重视 sketch-style 奖励，后期逐渐提高准确率权重，在 MMMU 上能把 EoT 从固定权重的 0.977 提到 1.011。

实验关键数据¶

主实验¶

论文在 MMMU、MathVision、VisuLogic 和 PhyX 四个 benchmark 上评估准确率、平均推理 token 数和 EoT。EoT 定义为 \(Acc/N_{token}\)，用于衡量单位推理 token 带来的准确率收益。

模型 / 方法	MMMU Acc.	MMMU #Token	MathVision Acc.	MathVision #Token	VisuLogic Acc.	PhyX Acc.	结论
Vanilla-R1-7B	61.0	182.2	31.0	221.1	27.6	46.7	标准 R1 式训练，准确率尚可但推理很长
Constrained CoT	58.6	78.2	26.2	79.2	26.4	42.4	prompt 限长显著省 token，但准确率掉得明显
Chain-of-Draft	58.9	86.3	27.4	85.4	26.5	42.2	每步变短，仍损失较多性能
C3oT	59.3	127.1	28.8	125.5	27.1	43.8	SFT 短 CoT 泛化有限
VeriThinker	60.1	105.8	29.1	152.5	27.5	45.5	比 prompt 稳，但 token 仍偏多
L1	59.5	136.8	29.5	146.7	27.2	45.1	长度奖励不等于高质量短推理
ThinkPrune	59.2	104.9	29.6	136.3	26.9	46.3	截断式奖励会损失部分推理信息
SketchThinker-R1-7B	62.8	64.3	31.7	65.5	27.8	48.6	准确率最高或接近最高，同时 token 最低

7B 主结果里，SketchThinker-R1 相比 Vanilla-R1 在四个 benchmark 上都大幅降低推理 token。以 MMMU 为例，平均 token 从 182.2 降到 64.3，准确率还从 61.0 提升到 62.8；在 MathVision 上 token 从 221.1 降到 65.5，准确率从 31.0 提到 31.7。论文总结为超过 64% 的 reasoning token cost reduction，且没有牺牲最终答案准确率。

模型 / 方法	MMMU Acc.	MMMU #Token	MathVision Acc.	MathVision #Token	VisuLogic #Token	PhyX #Token	结论
Vanilla-R1-3B	54.8	128.3	26.9	151.2	139.5	173.2	小模型本来就比 7B 更短，但仍有冗余
Constrained CoT	52.7	76.2	22.1	63.4	69.1	63.6	限长导致准确率下降
C3oT	54.1	107.5	24.1	105.1	104.3	93.2	SFT 压缩不够彻底
ThinkPrune	53.2	95.2	23.8	92.3	73.3	82.2	有压缩，但准确率不稳
SketchThinker-R1-3B	55.9	54.5	25.3	72.7	36.9	67.3	3B 上同样显著减少 token，并保持较强准确率

3B 结果说明方法不是只对 7B 有效。由于 3B 模型原本推理链就更短，下降空间小一些，但 SketchThinker-R1-3B 仍把 MMMU token 从 128.3 降到 54.5，并把准确率从 54.8 提到 55.9；VisuLogic 的平均 token 更是从 139.5 降到 36.9。

消融实验¶

配置	MMMU Acc.	#Token	EoT	说明
只做 Sketch-Mode Cold Start	61.4	114.5	0.536	能初步学短推理，但泛化不够
只做 Sketch-Thinking RL	62.1	152.2	0.408	没有冷启动时探索效率低，token 降幅有限
Cold Start + RL	62.8	64.3	0.977	两阶段结合后准确率和效率最好
SketchJudge 7B + SFT	62.8	64.3	0.977	风格奖励最可靠
SketchJudge 7B 不 SFT	61.0	72.1	0.846	直接用现成模型判别风格，监督噪声更大
Binary style reward	62.8	64.3	0.977	0/1 风格奖励优于 dense 打分
Dense style reward	62.6	65.4	0.957	连续分数不如二值监督直接
Dynamic reward weight	63.2	62.5	1.011	前期重风格、后期重准确率，进一步提升 EoT

关键发现¶

Sketch-Mode Cold Start 和 Sketch-Thinking RL 是互补关系。前者给模型一个草图式推理的初始能力，后者让这种能力迁移到新的 benchmark；任一单独使用都会留下明显短板。
奖励里不能过度强调“像 sketch”。当 sketch-style reward 从 0.1 提到 0.4 时，token 继续变短，但准确率从 62.8 降到 60.8，说明太强的风格奖励会诱导模型为短而短。
冷启动数据的来源和生成质量会影响最终模型偏向。GPT-5 生成的 sketch 数据带来最高 EoT；开源 LLM 生成的数据更短，但准确率更低，说明“短推理数据”本身也有质量-效率取舍。
解释性分析是这篇论文比较有意思的补充。5 名人类评价者给 SketchThinker-R1 的平均解释性分数为 4.25，高于 Vanilla-R1 的 3.95；Qwen3-VL-Plus 大规模评价也得到 4.33 vs 4.12 的同向结论。

亮点与洞察¶

把推理压缩从长度问题改写成风格学习问题。论文没有简单规定“最多写多少 token”，而是训练模型识别并偏好关键逻辑流。这比长度惩罚更贴近实际需求：简单题少写，难题仍可相对多写。
SketchJudge 是一个很实用的中间监督器。很多高效推理工作只能靠最终答案或 token 数做奖励，信号太粗；这里额外引入推理风格奖励，让 RL 能区分“短但漏步骤”和“短且保留关键步骤”。
0.1 的小风格权重很关键。这说明效率优化最好不要压过准确率目标。真正可用的短推理不是越短越好，而是把冗余 token 从正确推理中剥离出来。
草图式数据可能不只适合后训练。附录讨论了把 condensed reasoning data 用到预训练阶段的可能性：短推理样本 token 更少、信息密度更高，理论上可以在同等算力下暴露更多不同推理模式。

局限与展望¶

论文主要在四个视觉推理 benchmark 上验证，覆盖了通用、多模态数学、逻辑和物理，但还没有充分说明在真实长上下文 GUI agent、视频推理、多轮交互任务中是否仍能保持同样收益。
Sketch-style 数据依赖强 LLM 转换，主设置里使用 GPT-5。虽然论文做了不同 LLM 的消融，但这意味着方法质量部分取决于外部教师模型；如果教师压缩时漏掉关键步骤，学生模型可能学到错误的“省略”。
SketchJudge 只做二分类风格判断，不能细粒度指出哪一步冗余、哪一步缺失。未来可以把 reward model 做成过程级反馈，比如按步骤标注“必要/可删/缺失”，给 RL 更细的监督。
论文没有深入分析失败样例。比如哪些题需要长推理、SketchThinker-R1 是否会在复杂组合推理中提前收束、是否存在看似简洁但实际跳步的答案，这些都值得进一步展开。
目前奖励仍需要解析模型输出里的 thinking process。对于不显式暴露思考过程或采用隐藏 reasoning 的模型，如何迁移 SketchJudge 监督还需要额外设计。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把 sketch-style reasoning 显式做成 LMM 的训练目标和奖励信号，思路清晰且区别于单纯限长。
实验充分度: ⭐⭐⭐⭐☆ 主实验、模型规模、阶段消融、奖励权重、数据规模和解释性评价都比较完整，但失败案例分析还可以更细。
写作质量: ⭐⭐⭐⭐☆ 论文结构直接，方法容易复现；部分实现细节和附录实验很丰富，但对 sketch-style 的边界定义仍略依赖经验描述。
价值: ⭐⭐⭐⭐⭐ 对需要低延迟、低 token 成本的多模态推理系统很有实际意义，也给“如何训练模型少想但不乱答”提供了可复用范式。