ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=mB3vxfrQZM
代码: https://github.com/ThinkMorph/ThinkMorph
主页: https://thinkmorph.github.io
领域: 多模态VLM / LLM推理
关键词: 交错思维链, 多模态推理, 统一模型, 视觉操作, 涌现能力

一句话总结¶

ThinkMorph 提出"文本与图像应当是互补而非同构的思维模态"这一原则，在一个统一多模态模型（Bagel-7B）上用约 24K 条精心构造的交错推理轨迹微调，让模型学会"先文字假设→再具体操作图像→再文字验证"的交错推理，视觉密集任务上平均比基座提升 34.7%，并涌现出训练中未见的视觉操作、自主切换推理模式、测试时扩展更优等高阶多模态智能。

研究背景与动机¶

领域现状：多模态推理不是一次性的感知任务，而是需要语言与视觉反复协同的迭代过程。纯文本思维链（text CoT）虽然推进了语言推理，但对"必须动手摆弄视觉内容"的任务（空间推理、拼图、精细识别）几乎没有帮助——模型只会描述图片，不会"在脑子里画草图"。

现有痛点：为了模拟人类"边想边画"（think-and-sketch）的能力，已有两类做法都不理想。一类是工具增强：调用外部裁剪工具或专门的草图模型，推理过程间接、脆弱，依赖外部模块拼接。另一类是统一模型自己生成图像思维，但还没有一套能让文字推理和图像推理"互相促进"的通用配方。典型反例是 MVoT：它在走迷宫任务里引入交错的动作表示，但文字部分只是和生成图像同构（isomorphic）的简单动作标签，换个领域就失效。

核心矛盾：什么才算"有意义的交错思维链"始终没说清。如果文字和图像只是同一信息的两种等价表达（同构），交错就是冗余；只有当两种模态各自提供对方给不了的线索时，交错才真正推进推理。

本文目标：构造一种文字与图像互补的交错推理范式，让模型既保持连贯的语言逻辑，又能具体地操纵视觉内容，并且能泛化到训练领域之外。

切入角度：作者假设文本思维和图像思维应当像人类解题时那样分工——文字负责抽象假设与验证，图像负责把假设"画出来"提供整体空间上下文。围绕这个原则去设计数据，而不是堆数据量。

核心 idea：用"互补而非同构"的原则构造约 24K 条交错轨迹（文字假设→视觉操作→文字验证），在统一模型上做双目标微调，把文字推理和视觉操作绑成"手拉手往前走"的解题过程。

方法详解¶

整体框架¶

ThinkMorph 把一个统一多模态模型 \(P_\theta\) 用于交错推理。对一个可能同时含文本和图像的多模态问题 \(Q=(Q_\text{text}, Q_\text{img})\)，模型生成一串交错的思维 token 序列 \(T=(\hat{m}_1, \hat{m}_2, \dots, \hat{m}_n)\)，其中每个 \(\hat{m}_i \in \{\hat{t}_i, \hat{v}_i\}\) 要么是文本 token 要么是图像 token，由分隔符 token（<image_start> / <image_end>）控制模态切换。和只输出文本 token 的常规 CoT 不同，ThinkMorph 还能在推理中途生成图像 token，真正"画"出中间状态。

整条管线分三步：先依照"互补而非同构"的交错思维范式确定轨迹结构（文字假设→图像操作→文字验证）；据此在四类视觉参与度不同的任务上构建约 24K 条高质量交错轨迹数据集；最后在 Bagel-7B 基座上用图像/文本双目标微调。推理时模型自回归地交错生成文本与图像思维，最终给出答案。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模态问题 Q<br/>(文本 + 图像)"] --> B["交错思维范式<br/>文字假设→图像操作→文字验证"]
    B --> C["四任务可验证视觉操作数据集<br/>~24K 交错轨迹"]
    C --> D["Bagel 双目标微调<br/>图像 MSE + 文本 CE"]
    D --> E["交错推理生成<br/>自回归交替输出文/图思维"]
    E --> F["答案 + 涌现能力"]

关键设计¶

1. 交错思维范式：文字与图像互补而非同构

针对"什么才算有意义的交错"这一根本痛点，作者把每条交错轨迹固定成"文字假设 → 视觉操作 → 文字验证"的三段式分工，让两种模态各干各的活、互相补位，而不是互为翻版。以四个任务为例：拼图（Jigsaw Assembly）里，开头的 \(\hat{t}\) token 逐块描述每块拼图的局部内容，随后的 \(\hat{v}\) token 按当前排列假设 \(\sigma\) 把重排后的拼图画出来，提供文字给不了的整体空间上下文，最后的 \(\hat{t}\) token 对重建结果做一致性验证；空间导航里，文字先建立粗粒度全局抽象，图像渲染出路径 \(\pi^\star\) 的轨迹（红线+箭头叠加在迷宫上），文字再逐步复核移动序列；视觉搜索里，文字先假设目标区域，图像画出红色边界框作显式锚点，文字再确认目标属性。这种安排的关键在于：图像 token 承担的是"文字单独表达不了的步骤"（重排后的拼图暴露错位、叠加箭头验证路线、边界框定位物体），所以交错才有信息增益。实验也证实，当文字已能识别解题关键元素时（如 ChartQA），后续视觉高亮只是锦上添花；而当线索是文字说不清的空间朝向时（如 MMVP 判断"鸭子朝左还是朝右"），视觉操作就从可选变成必需。

2. 四任务可验证视觉操作数据集：把"视觉思维"落到可验证的具体操作上

视觉思维难以外显，是数据难以规模化的根源。作者的解法是只选支持具体、可验证的中间视觉操作的四类任务来造数据：拼图装配（可视化重排后的碎片）、空间导航（用红线和箭头叠加路径）、视觉搜索（红框高亮区域）、图表重聚焦（红框/叠加高亮相关数据）。每类各约 6K 条，合计 24,990 条。拼图和导航的题目由自定义合成流水线生成；视觉搜索和图表重聚焦则走"MLLM + 人在回路"的过滤流程。质量控制相当激进——以视觉搜索为例，作者发现已有 Visual CoT 数据集（GQA、VSR）里大量题目表述含糊、答案有误或高亮了无关物体，于是强制约束"目标物体的边界框面积必须占整图的 1%–30%"，把数据从 144K 筛到 6,990 条高质量样本。正因每个视觉操作都对应一个可核验的中间结果，"互补"才不会沦为乱画。此外还从交错轨迹派生出两条单模态基线：纯文本思维（用 GPT-4.1 逐步求解）和纯视觉思维（只取交错轨迹的图像输出），用于后续模态对比。

3. Bagel 双目标微调：在统一模型上同时优化文本与图像 token

要让一个模型既生成连贯文字又生成有意义的图像，必须对两类 token 用不同的监督。作者以 Bagel 为基座，按其官方实现训练，优化双目标：图像 token 用均方误差损失 \(L_\text{img}\)（MSE），文本 token 用负对数似然 \(L_\text{text}\)（CE）。这样同一序列里，文字部分按语言建模优化、图像部分按重建优化，两路梯度共同塑造出"文字逻辑+视觉操作"协同的统一表示。值得注意的是，作者刻意只用 24K 数据做轻量微调——之所以小数据也能大幅泛化，是因为视觉操作的"原始能力"来自 Bagel 大规模多模态预训练，交错微调起的是对齐作用：把这些零散的操作能力激活并引导到结构化的解题步骤里（预训练供给原料，交错微调指明方向）。

一个完整示例：图表数值差计算（Chart Refocus）¶

以问题"图中最高和第二高的柱子数值差是多少？"为例走一遍流程：① 文字假设阶段——模型先识别出三个国家的可支配收入柱按降序排列，锁定 Austria（最高 24,770.5）和 Norway（次高 24,688.3）这两个解题关键元素；② 视觉操作阶段——模型生成一张把 Austria 和 Norway 两根柱子用红框高亮的图，把注意力锚定到相关数据点；③ 文字验证阶段——基于高亮图复核数值并计算 \(24770.5 - 24688.3 = 82.2\)，给出答案 82.2。这个例子恰好展示了"互补"的一种极端形态——前置视觉参与（front-loaded visual engagement）：关键信息在文字阶段就已识别，视觉高亮是补充而非必需。对照之下，在 MMVP 判断"鸭子嘴朝左还是朝右"时，文字无法表达朝向线索，视觉高亮就成了主导推理的必需环节。

实验关键数据¶

主实验：泛化到广域视觉中心任务（vs 各类大模型）¶

在 24K 全任务交错数据上微调后，ThinkMorph-7B 与十个主流模型对比（★为域外基准），相对基座 Bagel-7B 在九项任务上平均提升 20.74%：

基准	Bagel-7B	ThinkMorph-7B	Δ vs Bagel	对照
VSP	0.83	75.83	+75.00	基座几乎失败
VisPuzzle	35.00	79.00	+44.00	域内拼图
ChartQA	61.82	78.10	+16.28	—
VStar ★	55.49	67.02	+11.53	—
BLINK-J ★	67.33	72.00	+4.67	—
MMVP ★	70.33	80.33	+10.00	持平 Gemini 2.5 Flash (80.33)
SAT ★	44.67	52.67	+8.00	超 InternVL3.5-38B (49.33)
BLINK ★	47.66	60.07	+12.41	—
CV-Bench ★	76.03	80.82	+4.79	—

仅用 7B 参数 + 24K 数据，ThinkMorph 在 SAT 空间推理上（52.67）超过大得多的 InternVL3.5-38B（49.33），在 MMVP 感知（80.33）追平 Gemini 2.5 Flash；相比同为统一模型的 Janus-Pro-7B、Chameleon-7B（VStar 仅 38.22 / 28.27，SAT 接近 0），优势达 28.8%–42.7%。

模态对比实验：交错 vs 纯文本 vs 纯视觉¶

在同一基座上分别用三种模式微调（★为域外）：

模式	VSP	VStar★	VisPuzzle	BLINK-J★	ChartQA	MMVP★
Bagel-7B（基座）	0.83	55.49	35.00	67.33	62.05	70.33
纯文本	49.17	56.02	63.50	68.67	81.66	76.33
纯视觉	85.50	58.63	61.25	47.33	73.08	73.00
交错（ThinkMorph）	86.67	63.87	73.75	73.33	79.78	82.66

交错推理在视觉中心任务上几乎全面领先，平均比基座提升 34.74%，比次优模式高 5.33%。最戏剧性的是空间导航：基座 0.83% 几近全错，交错推理拉到 86.67%（+85.84%）。唯一例外是域内 ChartQA，纯文本反超交错 1.88%——因为文字已能识别关键数据，验证了"需不需要交错取决于任务是否真的需要视觉线索"。

关键发现（三大涌现能力）¶

涌现能力 1——未见过的视觉操作：模型在域外任务上自发产生训练数据里没有的视觉操作，作者识别出八类（zoom-in 最常见，还有 inpainting、多框、运动预测、透视变换、区域裁剪等），在某些基准上可占推理时全部视觉操作的 10%。这些操作不是随机噪声而是任务有效的：问"灯笼椒是红还是黄"时模型会自动放大局部以分辨细微色差。统计上特定文字线索可靠触发特定操作（"examine closely"/"focus on"→zoom-in，"restore"/"reconstruct"→inpainting）。
涌现能力 2——自主切换推理模式：尽管只在交错数据上训练，模型在约 5.3% 的推理样本上自主切回纯文本推理；这些切换样本准确率 81.25%，比强行用交错推理同批样本（73.96%）高 7.29%，且若强制继续交错会多消耗约 75% token（156 vs 89）。说明模型隐式学会"初始视觉编码已够用时就走文字、省算力"。
涌现能力 3——测试时扩展更优：Best-of-N 采样下交错推理因轨迹多样性更高而扩展更稳，分布偏移越大优势越明显——在最难的 BLINK-J 上从 65.33% 涨到 73.33%（+8.0%），同时纯视觉反而掉 2.0%、纯文本只涨 2.67%，交错与纯视觉拉开约 10 个点。

亮点与洞察¶

"互补而非同构"是一句能落地的原则：它不仅是口号，而是直接决定了数据轨迹该长成"文字假设→视觉操作→文字验证"的样子，也解释了为何 MVoT 式同构标签泛化不了——这种"原则驱动数据设计"的思路很值得迁移到其他需要多模态协同的任务。
小数据微调能激活预训练里的"沉睡技能"：24K 数据就让模型涌现出 8 类未见过的视觉操作，作者的解释（预训练供原料、交错微调指方向）把"涌现"落到了机制层面，比单纯报告分数更有说服力。
自主切换模式同时带来准确率和效率双赢：切回文本不仅更准还省 75% token，这提示"何时该用哪种模态"本身可以是一种被学到的元能力，可迁移到 agent 的工具/模态调度上。
用可验证视觉操作约束数据质量：强制 bbox 占图 1%–30%、把 144K 砍到 6,990，这种"宁缺毋滥"的过滤方式是高质量多模态推理数据的可复用 trick。

局限与展望¶

任务范围仍偏视觉中心：四类训练任务都强依赖具体可视化操作，对"无明显视觉操作可言"的抽象推理（如纯数学、常识）能否同样受益尚未验证。
域内 ChartQA 上交错反被纯文本超越：说明交错并非万灵药，对视觉信息冗余的任务反而增加开销；如何让模型更早判断"该不该交错"仍有空间（涌现能力 2 只是部分解决）。
依赖统一模型的图像生成能力：双目标微调建立在 Bagel 既有的图像 token 生成能力上，换到不具备强生成能力的基座上效果可能打折。
涌现能力的可控性有限：未见过的视觉操作虽然多数有效，但作者也承认是"自发"产生，缺乏对其触发与正确性的显式控制，可靠性在高风险场景存疑。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "互补而非同构"的原则清晰且能落地，三大涌现能力的发现有启发性
实验充分度: ⭐⭐⭐⭐ 模态对比 + 域外泛化 + 测试时扩展三层验证扎实，但任务范围偏视觉中心
写作质量: ⭐⭐⭐⭐⭐ 原则—数据—训练—涌现层层递进，案例图文并茂
价值: ⭐⭐⭐⭐⭐ 为统一模型的多模态交错推理提供了可复制的配方和分析视角