Mull-Tokens: Modality-Agnostic Latent Thinking¶
会议: CVPR2026
arXiv: 2512.10941
代码: https://arijitray.com/multimodal_thinking/ (项目主页)
领域: 多模态VLM
关键词: 视觉空间推理, 潜在推理, 模态无关token, 思维链, GRPO
一句话总结¶
本文提出 Mull-Tokens——一组追加在问题后的「模态无关潜在 token」,可同时承载图像或文本中间信息,充当模型内部的多模态草稿纸;通过「多模态预热 → 放松训练 → GRPO 精炼」三阶段训练,仅用 20 个 token 就在四个空间推理 benchmark 上平均比最强 baseline 提升 +3%、在拼图推理硬切片上最高提升 +16%。
研究背景与动机¶
领域现状:现实视觉任务(解拼图、IQ 测试、视频空间关系、换视角推理)需要在空间、时间、3D 上做推理,光靠语言说不清。文本思维链(Text CoT)擅长语言逻辑,但在视觉任务上会「漂移」——推着推着脱离了图像证据。
现有痛点:为了让模型「带着图像思考」,现有路线各有硬伤:① 工具增强(裁剪工具、专用素描模型)做不了复杂视觉操作且脆弱;② 统一生成模型显式生成中间子目标图像,训练昂贵;③ 最新方法用显式视觉 token 或稠密连续 embedding 当图像思维,但都需要为具体任务量身定制的数据集,没有通用配方。更尴尬的是,作者发现朴素地交错插入「模态特定」的视觉潜变量有时反而掉点——在视觉拼图任务上,监督模型交错文本思维和视觉潜变量,性能比纯文本推理还差。
核心矛盾:「让模型思考时切换到图像模态」这件事本身很别扭——模型很少主动切到图像思维(强行逼它切反而掉点),而且无论文本还是显式图像 token,都把推理硬绑死在某个模态上,既不灵活又昂贵。
本文目标:找到一个简单、便宜、不需要 bespoke 数据、也不需要在模态间显式切换的中间推理表示。
切入角度:受 NLP 潜在推理(latent reasoning,如 Coconut、pause token)启发——既然推理可以在连续/离散的潜在槽里隐式进行,那何必规定这个槽是「文本」还是「图像」?
核心 idea:引入一组模态无关的潜在 token(Mull-Tokens),它既能编码视觉布局也能编码符号映射,由「对最终答案是否有用」来自由决定语义,从而把多模态思考压进一小段统一的内部草稿。
方法详解¶
整体框架¶
模型在 Qwen2.5-VL (7B) 基础上,把 \(K\) 个特殊 token \(z_{1:K}=(\langle\text{Mull}\rangle_1,\dots,\langle\text{Mull}\rangle_K)\) 追加到「图像 + 问题」之后,让 Transformer 把这些槽当作内部计算空间,推完直接输出答案 \(y\),中间不解码成任何文本或图像。难点在于:如何让这些初始无意义的潜在槽学会承载「有用的多模态推理信息」,而不是退化成一堆冗余算力。作者用三阶段训练逐步注入再放手:先用图文交错的 CoT 轨迹「预热」槽的语义(Stage 1),再砍掉所有中间监督、只盯最终答案让槽自由优化(Stage 2),最后用 GRPO 强化那些「真正因果导向正确答案」的潜在链(Stage 3)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:图像/视频 + 问题<br/>追加 K 个 Mull-Token"] --> B["Mull-Tokens<br/>模态无关潜思槽"]
B --> C["Stage 1:多模态预热<br/>文本槽对齐词 / 图像槽对齐视觉embedding"]
C --> D["Stage 2:放松训练<br/>砍掉槽监督,只盯最终答案,K 固定为 20"]
D --> E["Stage 3:GRPO 精炼<br/>奖励因果有用的潜在链"]
E --> F["输出:直接预测答案 y"]
关键设计¶
1. Mull-Tokens:模态无关的内部草稿纸
针对「文本/图像思维都被硬绑死在某个模态、且需要定制数据」的痛点,作者把中间推理表示设计成一组固定长度的特殊潜在 token \(z_{1:K}\),它们既可承载图像条件信息(如拼图当前布局、深度图),也可承载文本条件信息(如符号映射)。关键在于:训练时不再监督「中间应该输出什么文本/图像」,而是监督「用了 \(z_{1:K}\) 能否提升 \(p_\theta(y\mid x^{\text{img}},x^{\text{txt}})\)」,让槽的内部语义自由适配任务。这等价于把 CoT 从「显式 token 序列」变成「功能性约束」——你不用规定它怎么想,只要求它想得对。和给词表加 <plan>/<pause> 类似,但 Mull-Token 是模态无关的,且数量极少(10–40 个就够),相比文本 CoT 的几百个词 token 或一张图的几百个视觉 token,推理开销大幅下降
2. Stage 1 多模态预热:把图文语义锚进潜在槽
如果直接让随机初始化的槽去优化答案(即跳过预热),它很容易退化成「一堆没意义的额外算力」。所以第一阶段用图文交错的 CoT 数据集 \(\mathcal{D}_{\text{CoT}}\) 做锚定:构造交错序列 \(s=(q_{1:M},z_1,\tilde c_1,\dots,z_T,\tilde c_T,y_{1:L})\),此时 \(K\) 等于推理轨迹长度(一个 Mull-Token 对一个 CoT 步)。对第 \(t\) 个槽的隐状态 \(h_t^{\text{Mull}}\) 施加两类监督:若该步是文本(\(c_t\in\mathcal V^{txt}\)),过语言模型头做交叉熵 \(\mathcal L_t^{text}=-\log p_\theta(c_t\mid s_{<t})\);若该步是子目标图像(\(c_t\in\mathcal V^{img}\)),用冻结的 Qwen 图像编码器 + 平均池化得到 \(v_t=\bar g_\phi(I_t)\),再用余弦相似度对齐 \(\mathcal L_t^{img}=1-\cos(h_t^{\text{Mull}},v_t)\)。总目标叠加标准答案/问题的自回归损失:
这一步是性能的命门:消融显示只有图文双模态预热(而非纯文本预热、或干脆不预热)才能让槽真正「装得下」多模态推理信息
3. Stage 2 放松训练:砍掉脚手架,把推理压成紧凑潜在链
Stage 1 的显式 CoT 可能本身是次优的脚手架,若一直照搬会限制模型。第二阶段把序列简化为 \(s'=(q_{1:M},z_{1:K},y_{1:L})\)——去掉所有中间步,丢弃 \(z_{1:K}\) 上的全部损失,只优化答案似然 \(\mathcal L_{\text{stage2}}=-\sum_\ell\log p_\theta(y_\ell\mid s'_{<\ell})\)。此时把 \(K\) 固定成一个小常数(如 20),等于把整条推理轨迹压缩进紧凑潜在表示,顺带缓解了冗长文本 CoT 的漂移问题(模型没法在误导性的中间措辞上停留)。一个关键取舍是「递归形式」:连续递归潜变量(\(z_{t+1}^{\text{cont}}=f_\theta(z_t^{\text{cont}},x)\))需要逐步串行更新,既破坏 Transformer 并行、又会随链长累积误差;作者改用离散 token 潜变量——分配固定 \(K\) 个 \(\langle\text{Mull}\rangle\),其隐状态 \(H^{\text{Mull}}\) 由标准自注意力并行算出、再被答案 token 注意到,既兼容并行又能通过自注意力实现「内部递归」
4. Stage 3 GRPO 精炼:奖励因果有用的潜在链
Stage 2 只保证「用了槽能降低答案损失」,但模型可能学到捷径——直接从 \((x^{img},x^{txt})\) 映到 \(y\)、几乎忽略 \(z_{1:K}\)。为强制潜在链对答案因果负责,第三阶段引入 GRPO:把策略写成 \(\pi_\theta(y_{1:L},z_{1:K}\mid x)\),对离散答案给奖励 1、对数值答案给基于归一化误差的分级相似度 \(\mathrm{score}\)。由于首个答案 token \(y_1\) 是从最后一个槽状态 \(h_K^{\text{Mull}}\) 采样的,奖励梯度主要经 \(h_K^{\text{Mull}}\)、再经自注意力回传到整条潜在链 \(h_{1:K}^{\text{Mull}}\),从而塑造出「真正导致正确答案」而非「只是与正确答案共现」的潜在轨迹。实验显示这一步在 BLINK、VSI 的推理硬切片上能进一步加分
实验关键数据¶
主实验¶
基座 Qwen2.5-VL (7B),8×H100 训练;评测 BLINK、SAT-Real、VSI-Bench、ERQA 四个空间推理 benchmark(Avg(All) 为综合平均)。
| 配置 | BLINK Jig | BLINK Reas | VSI Reas | SAT-R Avg | Avg(All) | vs DirAns |
|---|---|---|---|---|---|---|
| a. Qwen2.5-VL (7B) 基座 | 58.66 | 41.00 | 22.96 | 59.00 | 44.30 | — |
| b. + DirAns FT(直接答案微调) | 58.66 | 48.60 | 30.65 | 71.66 | 50.87 | 基准 |
| c. + TextCoT FT | 69.30 | 49.34 | 31.04 | 68.33 | 48.90 | −1.97 |
| d. + GRPO(文本链) | 72.00 | 50.74 | 30.15 | 69.00 | 48.50 | −2.37 |
| e. + Interleave Im-Txt(图文交错潜变量[67]) | 68.67 | 50.38 | 32.96 | 74.00 | 50.49 | −0.38 |
| f. + Mull-Tokens(Stage 2) | 74.00 | 56.38 | 32.85 | 77.66 | 53.92 | +3.05 |
| g. + GRPO(Stage 3) | 74.67 | 56.66 | 33.49 | 77.00 | 54.04 | +3.17 |
关键对比:直接答案微调(b)本身是个意外强的 baseline,把文本 CoT(c、d)和图文交错(e)全比下去;只有 Mull-Tokens(f、g)真正反超它。BLINK 拼图切片在 Stage 3 上相对 DirAns 提升 +16.01%(74.67 vs 58.66),是「推理密集」场景收益最大的证据。
消融实验¶
预热方式消融(Table 2,含「是否预热 / 预热是否需要图像」):
| 配置 | BLINK Avg | BLINK Reas | SAT-R | 结论 |
|---|---|---|---|---|
| b. DirAns FT | 61.4 | 48.6 | 71.7 | 强基准 |
| c. 不预热(仅 Stage 2) | 59.2 | 45.2 | 67.3 | 比基座好 +4.2%,但输给 DirAns |
| d. 纯文本预热 | 65.9 | 52.9 | 71.3 | 仅比 DirAns +1.07% |
| e. 图文双模态预热(本文) | 66.8 | 56.4 | 77.7 | 比 DirAns +3.05% |
其它分析: - 离散 vs 连续潜变量(Fig 5a):在各 \(k\) 值下离散都优于连续;连续 embedding 随数量增多反而退化(误差沿长链累积),且离散能用 token 并行,训练/推理显著更快。 - 潜在 token 数 \(K\)(Fig 5b/c):推理切片随 \(K\) 增多变好,但太多反而掉点;GRPO 之后性能随 \(K\) 的 scaling 更明显(因 GRPO 因果奖励了潜在链)。 - 泛化(Table 3):MMSI-Bench 多步推理 +1.2%、不同视角属性判断 +8.0%、SiteBench 通用空间 +2.1%。 - 可与文本理由共存(Table 4):Mull-Tokens + 文本理由综合 51.1,高于纯文本 48.9 与图文交错 50.5;模型会自行决定哪些任务需要文本理由、哪些只用潜在 token 直答。
关键发现¶
- 贡献最大的是「图文双模态预热」:去掉预热(c)直接跌破 DirAns baseline,说明 Mull-Tokens 的收益不是靠「更宽的算力通路」,而是真的装进了多模态推理信息。
- 强 baseline 的反直觉现象:文本 CoT 和图文交错潜变量都打不过「直接拿答案微调」,这正是论文要解决的核心矛盾。
- ERQA 上所有微调变体都贴近基座,作者归因于该 benchmark 偏感知(问直接可见的物体状态),推理改进空间小。
亮点与洞察¶
- 「模态无关」是关键解法:不强迫模型在文本/图像间显式切换(它本来就不爱切、强切还掉点),而是给一个统一潜在槽让它自己决定装什么——这个去约束化的设计直接绕开了「交错图文思维失败」的根因。
- 极低 token 开销的 Pareto 优势:仅 20 个潜在 token 对比文本 CoT 的 200–500 个词 token,既省推理又涨点,呼应了「更短的推理轨迹同样有效」的近期发现。
- 三阶段「注入语义 → 放手优化 → 因果强化」的训练范式可迁移:Stage 1 用现成多模态 CoT 数据锚定 + Stage 2 砍监督让其自由 + Stage 3 用 GRPO 防捷径,这套配方对任何「想训练潜在推理 token」的场景都通用(作者也指出换掉 \(\bar g_\phi\) 和相似度损失即可扩展到 3D/轨迹模态)。
- GRPO 用来防「绕过潜在链的捷径」:把强化学习目标对准「潜在链是否因果有用」而非只对答案,是个值得借鉴的角度。
局限与展望¶
- 依赖现成多模态 CoT 数据做预热:Stage 1 需要图文交错 CoT 轨迹(Zebra-CoT 等),扩展到 3D/轨迹等模态时因缺这类数据被作者明确留作 future work。
- 潜在 token 不可读:Mull-Tokens 本身不能解码成人类可读输出,可解释性靠搭配显式文本理由(Table 4)间接补偿。
- \(K\) 需要按任务调:太多潜在 token 会掉点,最优 \(K\) 与 GRPO 是否使用相关,缺乏自适应选 \(K\) 的机制。
- 绝对数值口径敏感:作者自述 VSI-Bench 的绝对分会因帧数、答案匹配逻辑、system prompt 不同而和并行工作不可直接比——横向比大小需谨慎。
- gain 集中在推理密集切片:在感知重的 benchmark(ERQA)上几乎无提升,方法收益面有边界。
相关工作与启发¶
- vs MIRAGE / Interleave Im-Txt [67]:他们用图像潜变量 + 显式文本理由交错推理(模态特定),本文用模态无关潜在槽且不需显式切换模态;实验里本文(f/g)综合 53.9/54.0 反超其 50.5,证明「模态无关」比「视觉受限」更有效。
- vs 文本 CoT / GRPO(纯文本链):纯文本推理在视觉任务上会漂移、且整体跑不过直接答案微调;本文把推理压进少量潜在 token,既抗漂移又省 token。
- vs 连续递归潜变量(Coconut [23] 类):连续递归破坏并行、长链累积误差,本文改用离散 token + 自注意力内部递归,兼顾并行效率与稳定性。
- vs 显式视觉 token 方法 [4]:同样靠「学习到的思维 token」涨点,但本文用的 token 更少且模态无关,推理开销(20 vs 几百)大幅下降。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「模态无关潜在推理槽」是对图文交错思维失败的简洁而切中要害的回应,三阶段训练范式有通用性。
- 实验充分度: ⭐⭐⭐⭐ 四主 benchmark + 两泛化集,预热方式 / 离散vs连续 / \(K\) / 与文本理由共存等消融较完整,仅缺更多骨干验证。
- 写作质量: ⭐⭐⭐⭐ 动机链(强 baseline 反直觉 → 交错失败 → 模态无关)讲得清楚,公式与图示配套。
- 价值: ⭐⭐⭐⭐ 低 token 开销 + 不需 bespoke 数据 + 可扩展多模态,对多模态推理工程实用性高。