ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding¶

会议: ICLR 2026
arXiv: 2602.23306
代码: https://1ranguan.github.io/thinkomni
领域: 多模态VLM
关键词: 全模态推理, 引导解码, LRM, 无训练, 对比缩放

一句话总结¶

提出 ThinkOmni 无训练框架，利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM)，通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号，MathVista 达 70.2%、MMAU 达 75.5%，匹配或超越 RFT 方法。

研究背景与动机¶

领域现状: 大推理模型(LRM)如 DeepSeek-R1、o1 在文本推理任务上表现卓越，但仅处理文本输入。全模态 LLM(OLLM)如 Qwen2.5-Omni 虽能处理文本+音频+图像+视频，但在复杂推理任务上仍有短板。

现有痛点: 提升 OLLM 推理能力的现有路径面临多重挑战： - 数据稀缺: SFT 需要大量高质量多模态推理样本，获取成本高 - 训练昂贵: RFT（强化微调）需要大量 GPU 资源（7B 模型需 8×40G，32B 需 16×80G） - 任务特化: 现有增强方案（如 Omni-R1、HumanOmniV2）局限于特定下游任务，缺乏泛化性 - 模态局限: 多数工作仅关注单一模态（图像或音频），未真正实现跨模态推理

核心矛盾: LRM 有强推理能力但无法处理非文本输入；OLLM 能处理多模态输入但推理能力不足。两者优势互补，但如何在推理时无训练地融合是关键难题。

本文目标 不依赖额外训练数据或微调，将 LRM 的文本推理能力"提升"到全模态场景。

切入角度: 从推理时引导解码(guidance decoding)切入，将 LRM 作为 OLLM 的解码时"顾问"，在 logits 层面融合两者信号。

核心 idea: 用 LRM 产生的纯文本推理信号在 logits 层引导 OLLM 的全模态解码，并通过逐步对比缩放自适应调节感知-推理平衡。

方法详解¶

整体框架¶

ThinkOmni 把纯文本大推理模型(LRM) \(M_R\) 当作全模态模型(OLLM) \(M_O\) 的解码时"顾问"：每生成一个 token，都在 logits 层把 OLLM 的全模态感知信号和 LRM 的文本推理信号对比融合成一个增强分布，按它采样下一个 token、追加进前缀，逐步生成。整个过程不动任何参数，只靠两个组件协作——LRM-as-a-Guide 把推理模型的文本推理增量"嫁接"进全模态解码，Stepwise Contrastive Scaling 在每一步自动判断当前该多听感知还是多听推理并分配权重，从而无须手动调参就能适配数学、音频、通用全模态等不同任务。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["全模态输入 O ＋<br/>已生成文本前缀 x（&lt;t）"]
    subgraph GUIDE["LRM-as-a-Guide：三路 logits"]
        direction LR
        ZB["OLLM 全模态<br/>z_base = M_O(x, O)"]
        ZN["OLLM 仅文本<br/>z⁻ = M_O(x)"]
        ZP["LRM 仅文本<br/>z⁺ = M_R(x)"]
    end
    subgraph SCALE["Stepwise Contrastive Scaling：逐步自适应配权"]
        direction TB
        JS["JS 散度量推理/感知贡献<br/>D_R、D_P → α_r、α_p（含 warmup）"]
        FUSE["双对比项融合<br/>P̂ = Softmax[ z_base<br/>+ α_r·(z⁺−z⁻) + α_p·(z_base−z⁻) ]"]
    end
    OUT["按 P̂ 采样下一个 token<br/>追加进前缀"]

    IN --> GUIDE
    GUIDE --> JS
    JS --> FUSE
    FUSE --> OUT
    OUT -->|"每个解码步重复"| IN

关键设计¶

1. LRM-as-a-Guide：让看不见图像的推理模型也能贡献推理信号

OLLM 能看图听音但推理弱，LRM 推理强却只吃文本，难点在于如何让一个感知不到多模态输入的模型去引导多模态解码。ThinkOmni 在每个解码步取三组 logits：OLLM 带全模态输入的基础项 \(z^{base}=M_O(x_{<t},O)\)、OLLM 去掉多模态输入的纯文本负项 \(z^{-}=M_O(x_{<t})\)、以及 LRM 仅看文本前缀的正项 \(z^{+}=M_R(x_{<t})\)，先按单一对比项融合 \(\hat{P}=\mathrm{Softmax}[z^{base}+\alpha\cdot(z^{+}-z^{-})]\)。关键在对比项 \(z^{+}-z^{-}\)——它像差分放大器，把 LRM 相对 OLLM 纯文本模式的推理偏好增量放大出来，同时抵消两个模型共有的语言噪声。LRM 虽看不到原始图像音频，但随着解码推进，已生成的文本前缀里已经隐含了 OLLM 写下的多模态信息，于是 LRM 仍能基于这些线索给出有效的推理引导。

2. Stepwise Contrastive Scaling：让推理/感知权重随任务和解码步自适应

固定的引导权重 \(\alpha\) 适配不了所有场景——数学题需要更强推理、音频感知题需要更强感知；\(\alpha\) 偏大时 \(z^{+}/z^{-}\) 缺乏全模态内容会诱发幻觉，偏小又削弱引导，实验也表明各任务最优 \(\alpha\) 差异很大。ThinkOmni 因此在每个解码步先用 Jensen-Shannon 散度在线度量推理与感知的相对贡献：推理项 \(D_R=\mathrm{JS}(P_R\,\|\,P)\)、感知项 \(D_P=\mathrm{JS}(P_O\,\|\,P)\)，其中 \(P_O,P_R,P\) 分别是 \(M_O(x_{<t},O)\)、\(M_R(x_{<t})\)、\(M_O(x_{<t})\) 的 softmax 分布，谁的分布偏离更大就说明谁此刻更该被信任。基于这把"标尺"，方法把原来的单一对比项展开成两路独立的对比信号：

\[\hat{P}=\mathrm{Softmax}\big[M_O(x_{<t},O)+\alpha^{r}_{t}\cdot(M_R(x_{<t})-M_O(x_{<t}))+\alpha^{p}_{t}\cdot(M_O(x_{<t},O)-M_O(x_{<t}))\big]\]

第一个对比项注入 LRM 的推理增量、由推理权重 \(\alpha^{r}_{t}\) 控制；第二个对比项是一种较激进的视觉对比解码——直接用"有多模态输入减去无多模态输入"的差值来强化感知、由感知权重 \(\alpha^{p}_{t}\) 控制。两个权重按 \(D_R,D_P\) 的相对大小分配并归一化到 \(\alpha^{r}_{t}+\alpha^{p}_{t}=1\)，于是推理增强与感知增强能同时施加而互不挤占。此外在初始解码阶段对 \(\alpha^{r}_{t}\) 做 warmup 压制，避免前缀尚短、信息不足时 LRM 过早主导导致跑偏。

损失函数 / 训练策略¶

完全无训练，不需任何额外数据或微调。唯一约束是 OLLM 与 LRM 共享词表（如同属 Qwen 家族），以便 logits 在同一词表空间对齐。代价是每个解码步需 3 次前向传播，推理开销约为原始模型的 2.88×。

实验关键数据¶

主实验¶

模型	MathVista	MathVision	MathVerse	MMAU	DailyOmni	OmniBench
GPT-4o	63.8	30.4	50.8	62.5	56.5	-
Gemini-2.0-Flash	73.1	41.3	59.3	70.5	67.8	-
Qwen2.5-Omni-7B	66.8	25.0	40.2	71.5	57.9	42.1
+DeepSeek Guide	68.8(+2.0)	28.2(+3.2)	42.0(+1.8)	73.8(+2.3)	59.8(+1.9)	43.2(+1.1)
+Qwen3 Guide	70.2(+3.4)	32.9(+7.9)	45.1(+4.9)	75.5(+4.0)	59.5(+1.6)	43.6(+1.5)
Omni-R1 (RFT)	64.7	25.4	39.8	70.5	59.6	43.0
+Qwen3 Guide	71.3(+6.6)	31.5(+6.1)	45.2(+5.4)	75.4(+4.9)	59.8(+0.2)	43.4(+0.4)

消融实验 - 与其他无训练方法对比（基于 Qwen2.5-Omni-7B）¶

方法	MathVista	MMAU	OmniBench
Base Model	66.8	71.5	42.1
Average Logits Fusion	55.0(-11.8)	55.7(-15.8)	36.1(-6.0)
Caption-then-Answer	61.0(-5.8)	59.7(-11.8)	32.3(-9.8)
VCD	66.5(-0.3)	72.2(+0.7)	43.1(+1.0)
ThinkOmni	68.8(+2.0)	73.8(+2.3)	43.2(+1.1)

关键发现¶

在已经过 RFT 的 Omni-R1 上再应用 ThinkOmni 仍有显著提升（MathVista +6.6），说明方法与 RFT 互补
更强的 LRM（Qwen3 > DeepSeek-R1-Distill）带来更大提升，验证了"引导质量决定提升幅度"
数学/科学任务提升最大（MathVision +7.9），音频/通用任务提升较小，符合预期（LRM 训练偏向数学科学）
简单的 logits 平均融合会严重损害性能（-11.8），说明对比融合的必要性
效率分析：7B+7B 配置下 generate 延迟 2.88×，prefill 延迟 1.38×（因 LRM 仅处理文本，前缀较轻）

亮点与洞察¶

无训练框架超越有训练方法: 基于 Qwen2.5-Omni-7B + Qwen3，在多个基准上匹配或超越需要 RFT 的 Omni-R1 和 HumanOmniV2
Stepwise Contrastive Scaling 优雅实用: 通过 JS 散度自动估计推理/感知需求，避免了手动调参的痛苦
即插即用 + 可扩展: 随着更强 LRM 出现（LRM 发展通常快于多模态变体），ThinkOmni 可自动受益
质性分析丰富: token 级别的 LRM 贡献可视化显示逻辑连接词和关键术语主要由 LRM 引导，内容词由 OLLM 贡献

局限与展望¶

要求 OLLM 和 LRM 共享词表，限制了模型组合的灵活性（如无法用 LLaMA 系 LRM 引导 Qwen 系 OLLM）
每步需 3 次前向传播，推理开销约 2.88× 原始模型，对部署延迟敏感的场景有挑战
在音频和通用全模态任务上提升有限（DailyOmni 仅 +1.6），说明对感知密集型任务帮助有限
当多模态输入中存在矛盾信息时（如标签与视觉内容矛盾），LRM 可能错误引导推理

评分¶

新颖性: ⭐⭐⭐⭐ 跨模态引导解码的思路新颖，Stepwise Contrastive Scaling 设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 6 个基准、3 个 OLLM、多种 LRM、完整消融和效率分析
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析透彻，可视化案例丰富
价值: ⭐⭐⭐⭐⭐ 无训练即超越 RFT 方法，实用性极强，范式创新对社区有重要启发