Mull-Tokens: Modality-Agnostic Latent Thinking¶

会议: CVPR2026
arXiv: 2512.10941
代码: https://arijitray.com/multimodal_thinking/ (项目主页)
领域: 多模态VLM
关键词: 视觉空间推理, 潜在推理, 模态无关token, 思维链, GRPO

一句话总结¶

本文提出 Mull-Tokens——一组追加在问题后的「模态无关潜在 token」，可同时承载图像或文本中间信息，充当模型内部的多模态草稿纸；通过「多模态预热 → 放松训练 → GRPO 精炼」三阶段训练，仅用 20 个 token 就在四个空间推理 benchmark 上平均比最强 baseline 提升 +3%、在拼图推理硬切片上最高提升 +16%。

研究背景与动机¶

领域现状：现实视觉任务（解拼图、IQ 测试、视频空间关系、换视角推理）需要在空间、时间、3D 上做推理，光靠语言说不清。文本思维链（Text CoT）擅长语言逻辑，但在视觉任务上会「漂移」——推着推着脱离了图像证据。

现有痛点：为了让模型「带着图像思考」，现有路线各有硬伤：① 工具增强（裁剪工具、专用素描模型）做不了复杂视觉操作且脆弱；② 统一生成模型显式生成中间子目标图像，训练昂贵；③ 最新方法用显式视觉 token 或稠密连续 embedding 当图像思维，但都需要为具体任务量身定制的数据集，没有通用配方。更尴尬的是，作者发现朴素地交错插入「模态特定」的视觉潜变量有时反而掉点——在视觉拼图任务上，监督模型交错文本思维和视觉潜变量，性能比纯文本推理还差。

核心矛盾：「让模型思考时切换到图像模态」这件事本身很别扭——模型很少主动切到图像思维（强行逼它切反而掉点），而且无论文本还是显式图像 token，都把推理硬绑死在某个模态上，既不灵活又昂贵。

本文目标：找到一个简单、便宜、不需要 bespoke 数据、也不需要在模态间显式切换的中间推理表示。

切入角度：受 NLP 潜在推理（latent reasoning，如 Coconut、pause token）启发——既然推理可以在连续/离散的潜在槽里隐式进行，那何必规定这个槽是「文本」还是「图像」？

核心 idea：引入一组模态无关的潜在 token（Mull-Tokens），它既能编码视觉布局也能编码符号映射，由「对最终答案是否有用」来自由决定语义，从而把多模态思考压进一小段统一的内部草稿。

方法详解¶

整体框架¶

模型在 Qwen2.5-VL (7B) 基础上，把 \(K\) 个特殊 token \(z_{1:K}=(\langle\text{Mull}\rangle_1,\dots,\langle\text{Mull}\rangle_K)\) 追加到「图像 + 问题」之后，让 Transformer 把这些槽当作内部计算空间，推完直接输出答案 \(y\)，中间不解码成任何文本或图像。难点在于：如何让这些初始无意义的潜在槽学会承载「有用的多模态推理信息」，而不是退化成一堆冗余算力。作者用三阶段训练逐步注入再放手：先用图文交错的 CoT 轨迹「预热」槽的语义（Stage 1），再砍掉所有中间监督、只盯最终答案让槽自由优化（Stage 2），最后用 GRPO 强化那些「真正因果导向正确答案」的潜在链（Stage 3）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像/视频 + 问题<br/>追加 K 个 Mull-Token"] --> B["Mull-Tokens<br/>模态无关潜思槽"]
    B --> C["Stage 1：多模态预热<br/>文本槽对齐词 / 图像槽对齐视觉embedding"]
    C --> D["Stage 2：放松训练<br/>砍掉槽监督，只盯最终答案，K 固定为 20"]
    D --> E["Stage 3：GRPO 精炼<br/>奖励因果有用的潜在链"]
    E --> F["输出：直接预测答案 y"]

关键设计¶

1. Mull-Tokens：模态无关的内部草稿纸

针对「文本/图像思维都被硬绑死在某个模态、且需要定制数据」的痛点，作者把中间推理表示设计成一组固定长度的特殊潜在 token \(z_{1:K}\)，它们既可承载图像条件信息（如拼图当前布局、深度图），也可承载文本条件信息（如符号映射）。关键在于：训练时不再监督「中间应该输出什么文本/图像」，而是监督「用了 \(z_{1:K}\) 能否提升 \(p_\theta(y\mid x^{\text{img}},x^{\text{txt}})\)」，让槽的内部语义自由适配任务。这等价于把 CoT 从「显式 token 序列」变成「功能性约束」——你不用规定它怎么想，只要求它想得对。和给词表加 <plan>/<pause> 类似，但 Mull-Token 是模态无关的，且数量极少（10–40 个就够），相比文本 CoT 的几百个词 token 或一张图的几百个视觉 token，推理开销大幅下降

2. Stage 1 多模态预热：把图文语义锚进潜在槽

如果直接让随机初始化的槽去优化答案（即跳过预热），它很容易退化成「一堆没意义的额外算力」。所以第一阶段用图文交错的 CoT 数据集 \(\mathcal{D}_{\text{CoT}}\) 做锚定：构造交错序列 \(s=(q_{1:M},z_1,\tilde c_1,\dots,z_T,\tilde c_T,y_{1:L})\)，此时 \(K\) 等于推理轨迹长度（一个 Mull-Token 对一个 CoT 步）。对第 \(t\) 个槽的隐状态 \(h_t^{\text{Mull}}\) 施加两类监督：若该步是文本（\(c_t\in\mathcal V^{txt}\)），过语言模型头做交叉熵 \(\mathcal L_t^{text}=-\log p_\theta(c_t\mid s_{<t})\)；若该步是子目标图像（\(c_t\in\mathcal V^{img}\)），用冻结的 Qwen 图像编码器 + 平均池化得到 \(v_t=\bar g_\phi(I_t)\)，再用余弦相似度对齐 \(\mathcal L_t^{img}=1-\cos(h_t^{\text{Mull}},v_t)\)。总目标叠加标准答案/问题的自回归损失：

\[\mathcal L_{\text{stage1}}=\sum_{i\in\mathcal I_{AR}}\mathcal L_i^{AR}+\lambda_{text}\sum_{t\in\mathcal T_{text}}\mathcal L_t^{text}+\lambda_{img}\sum_{t\in\mathcal T_{img}}\mathcal L_t^{img}\]

这一步是性能的命门：消融显示只有图文双模态预热（而非纯文本预热、或干脆不预热）才能让槽真正「装得下」多模态推理信息

3. Stage 2 放松训练：砍掉脚手架，把推理压成紧凑潜在链

Stage 1 的显式 CoT 可能本身是次优的脚手架，若一直照搬会限制模型。第二阶段把序列简化为 \(s'=(q_{1:M},z_{1:K},y_{1:L})\)——去掉所有中间步，丢弃 \(z_{1:K}\) 上的全部损失，只优化答案似然 \(\mathcal L_{\text{stage2}}=-\sum_\ell\log p_\theta(y_\ell\mid s'_{<\ell})\)。此时把 \(K\) 固定成一个小常数（如 20），等于把整条推理轨迹压缩进紧凑潜在表示，顺带缓解了冗长文本 CoT 的漂移问题（模型没法在误导性的中间措辞上停留）。一个关键取舍是「递归形式」：连续递归潜变量（\(z_{t+1}^{\text{cont}}=f_\theta(z_t^{\text{cont}},x)\)）需要逐步串行更新，既破坏 Transformer 并行、又会随链长累积误差；作者改用离散 token 潜变量——分配固定 \(K\) 个 \(\langle\text{Mull}\rangle\)，其隐状态 \(H^{\text{Mull}}\) 由标准自注意力并行算出、再被答案 token 注意到，既兼容并行又能通过自注意力实现「内部递归」

4. Stage 3 GRPO 精炼：奖励因果有用的潜在链

Stage 2 只保证「用了槽能降低答案损失」，但模型可能学到捷径——直接从 \((x^{img},x^{txt})\) 映到 \(y\)、几乎忽略 \(z_{1:K}\)。为强制潜在链对答案因果负责，第三阶段引入 GRPO：把策略写成 \(\pi_\theta(y_{1:L},z_{1:K}\mid x)\)，对离散答案给奖励 1、对数值答案给基于归一化误差的分级相似度 \(\mathrm{score}\)。由于首个答案 token \(y_1\) 是从最后一个槽状态 \(h_K^{\text{Mull}}\) 采样的，奖励梯度主要经 \(h_K^{\text{Mull}}\)、再经自注意力回传到整条潜在链 \(h_{1:K}^{\text{Mull}}\)，从而塑造出「真正导致正确答案」而非「只是与正确答案共现」的潜在轨迹。实验显示这一步在 BLINK、VSI 的推理硬切片上能进一步加分

实验关键数据¶

主实验¶

基座 Qwen2.5-VL (7B)，8×H100 训练；评测 BLINK、SAT-Real、VSI-Bench、ERQA 四个空间推理 benchmark（Avg(All) 为综合平均）。

配置	BLINK Jig	BLINK Reas	VSI Reas	SAT-R Avg	Avg(All)	vs DirAns
a. Qwen2.5-VL (7B) 基座	58.66	41.00	22.96	59.00	44.30	—
b. + DirAns FT（直接答案微调）	58.66	48.60	30.65	71.66	50.87	基准
c. + TextCoT FT	69.30	49.34	31.04	68.33	48.90	−1.97
d. + GRPO（文本链）	72.00	50.74	30.15	69.00	48.50	−2.37
e. + Interleave Im-Txt（图文交错潜变量[67]）	68.67	50.38	32.96	74.00	50.49	−0.38
f. + Mull-Tokens（Stage 2）	74.00	56.38	32.85	77.66	53.92	+3.05
g. + GRPO（Stage 3）	74.67	56.66	33.49	77.00	54.04	+3.17

关键对比：直接答案微调（b）本身是个意外强的 baseline，把文本 CoT（c、d）和图文交错（e）全比下去；只有 Mull-Tokens（f、g）真正反超它。BLINK 拼图切片在 Stage 3 上相对 DirAns 提升 +16.01%（74.67 vs 58.66），是「推理密集」场景收益最大的证据。

消融实验¶

预热方式消融（Table 2，含「是否预热 / 预热是否需要图像」）：

配置	BLINK Avg	BLINK Reas	SAT-R	结论
b. DirAns FT	61.4	48.6	71.7	强基准
c. 不预热（仅 Stage 2）	59.2	45.2	67.3	比基座好 +4.2%，但输给 DirAns
d. 纯文本预热	65.9	52.9	71.3	仅比 DirAns +1.07%
e. 图文双模态预热（本文）	66.8	56.4	77.7	比 DirAns +3.05%

其它分析： - 离散 vs 连续潜变量（Fig 5a）：在各 \(k\) 值下离散都优于连续；连续 embedding 随数量增多反而退化（误差沿长链累积），且离散能用 token 并行，训练/推理显著更快。 - 潜在 token 数 \(K\)（Fig 5b/c）：推理切片随 \(K\) 增多变好，但太多反而掉点；GRPO 之后性能随 \(K\) 的 scaling 更明显（因 GRPO 因果奖励了潜在链）。 - 泛化（Table 3）：MMSI-Bench 多步推理 +1.2%、不同视角属性判断 +8.0%、SiteBench 通用空间 +2.1%。 - 可与文本理由共存（Table 4）：Mull-Tokens + 文本理由综合 51.1，高于纯文本 48.9 与图文交错 50.5；模型会自行决定哪些任务需要文本理由、哪些只用潜在 token 直答。

关键发现¶

贡献最大的是「图文双模态预热」：去掉预热（c）直接跌破 DirAns baseline，说明 Mull-Tokens 的收益不是靠「更宽的算力通路」，而是真的装进了多模态推理信息。
强 baseline 的反直觉现象：文本 CoT 和图文交错潜变量都打不过「直接拿答案微调」，这正是论文要解决的核心矛盾。
ERQA 上所有微调变体都贴近基座，作者归因于该 benchmark 偏感知（问直接可见的物体状态），推理改进空间小。

亮点与洞察¶

「模态无关」是关键解法：不强迫模型在文本/图像间显式切换（它本来就不爱切、强切还掉点），而是给一个统一潜在槽让它自己决定装什么——这个去约束化的设计直接绕开了「交错图文思维失败」的根因。
极低 token 开销的 Pareto 优势：仅 20 个潜在 token 对比文本 CoT 的 200–500 个词 token，既省推理又涨点，呼应了「更短的推理轨迹同样有效」的近期发现。
三阶段「注入语义 → 放手优化 → 因果强化」的训练范式可迁移：Stage 1 用现成多模态 CoT 数据锚定 + Stage 2 砍监督让其自由 + Stage 3 用 GRPO 防捷径，这套配方对任何「想训练潜在推理 token」的场景都通用（作者也指出换掉 \(\bar g_\phi\) 和相似度损失即可扩展到 3D/轨迹模态）。
GRPO 用来防「绕过潜在链的捷径」：把强化学习目标对准「潜在链是否因果有用」而非只对答案，是个值得借鉴的角度。

局限与展望¶

依赖现成多模态 CoT 数据做预热：Stage 1 需要图文交错 CoT 轨迹（Zebra-CoT 等），扩展到 3D/轨迹等模态时因缺这类数据被作者明确留作 future work。
潜在 token 不可读：Mull-Tokens 本身不能解码成人类可读输出，可解释性靠搭配显式文本理由（Table 4）间接补偿。
\(K\) 需要按任务调：太多潜在 token 会掉点，最优 \(K\) 与 GRPO 是否使用相关，缺乏自适应选 \(K\) 的机制。
绝对数值口径敏感：作者自述 VSI-Bench 的绝对分会因帧数、答案匹配逻辑、system prompt 不同而和并行工作不可直接比——横向比大小需谨慎。
gain 集中在推理密集切片：在感知重的 benchmark（ERQA）上几乎无提升，方法收益面有边界。

评分¶

新颖性: ⭐⭐⭐⭐ 「模态无关潜在推理槽」是对图文交错思维失败的简洁而切中要害的回应，三阶段训练范式有通用性。
实验充分度: ⭐⭐⭐⭐ 四主 benchmark + 两泛化集，预热方式 / 离散vs连续 / \(K\) / 与文本理由共存等消融较完整，仅缺更多骨干验证。
写作质量: ⭐⭐⭐⭐ 动机链（强 baseline 反直觉 → 交错失败 → 模态无关）讲得清楚，公式与图示配套。
价值: ⭐⭐⭐⭐ 低 token 开销 + 不需 bespoke 数据 + 可扩展多模态，对多模态推理工程实用性高。