Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=8qk6eUnvbH
代码: https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
领域: 视觉语言推理 / 多模态强化学习
关键词: 视觉推理, 推理模式选择, GRPO, 强化学习, LVLM, 自适应推理

一句话总结¶

提出 MoVT 范式与 AdaVaR 框架，把"文本推理"和"视觉接地推理"两种模式统一进一个 LVLM，并用改进的 AdaGRPO 算法让模型学会根据题目上下文自适应地选对推理模式，从而在数学、视觉搜索、幻觉、空间推理等多类任务上同时提升。

研究背景与动机¶

领域现状：多模态推理沿用 LLM 的 CoT 思路，但 CoT 形式（本文称"推理模式"）分成两类——一类是文本推理（Text-based），全程用自然语言表达思考过程，和 LLM 一致；另一类是视觉接地推理（Visually-grounded），在思考中生成结构化输出（如 object [x1,y1,x2,y2] 边界框坐标）把文字概念锚定到图像区域。

现有痛点：不同模式带来不同的归纳偏置，各有所长也各有短板。文本推理擅长抽象推理（数学），但容易因"过度思考"和语言偏见产生幻觉；视觉接地推理擅长利用视觉信息、抑制幻觉、处理物体明确的问题，但在数学题上几乎没有增益（长度、大小这类抽象概念无法被坐标接地）。论文用 Figure 1b 直观展示：现有专精单一模式的模型，在自己擅长的领域大涨，在不擅长的领域大跌（如某文本模型 V 掉 18.3、某接地模型 WeMath 掉 15.5）。没有任何单一模式能在所有任务上称王。*

核心矛盾：要建"通用"视觉推理模型，就必须融合互补的多种模式；但融合面临两大难题——(i) 如何把异构的推理模式统一表示并让一个模型同时学会；(ii) 如何让模型具备上下文自适应的模式选择能力。

本文目标：建一个能在多种模式间推理、并根据上下文自动挑最优模式的通用视觉推理模型。

核心 idea（MoVT + AdaVaR）：用模式前缀 token把多模式统一进一个自回归序列，先 SFT 冷启动学会各模式，再用自定义的 AdaGRPO 强化学习诱导模式选择能力——其关键在于把"选哪个模式"和"怎么推理"解耦成可分别优化的两层。

方法详解¶

整体框架¶

AdaVaR 是一个两阶段自适应视觉推理框架。先把推理过程的自回归生成拆成两步：$P(a,t,m\,|\,i,q)=P(m\,|\,i,q)\times P(a,t\,|\,m,i,q)$，即"先根据图像 $i$ 和问题 $q$ 选模式 $m$（生成模式前缀），再基于所选模式生成思考 $t$ 与答案 $a$"，两步在同一条序列里顺序完成。Stage 1（SFT 冷启动）把两种模式的专家轨迹混进同一模型学会基础推理能力；Stage 2（AdaGRPO 强化学习）则诱导上下文自适应的模式选择，同时增强推理能力。

flowchart TD
    A[图像 i + 问题 q] --> B[统一格式: 模式前缀 + think + answer]
    B --> C[Stage 1: SFT 冷启动<br/>文本/接地数据 1:1 混合]
    C --> D[Stage 2: AdaGRPO 强化学习]
    D --> E1[Prefix-Guided 探索<br/>固定前缀均匀采样两模式]
    D --> E2[Adaptive Advantage<br/>模式相对优势 + rollout 优势]
    D --> E3[Curriculum 课程调度<br/>二元混合→多样混合]
    E1 & E2 & E3 --> F[AdaVaR 模型<br/>自适应选模式推理]

关键设计¶

1. 推理模式统一：用前缀 token 把异构 CoT 塞进一个自回归序列。 论文为每种模式分配一个唯一前缀 token——文本模式用 <text>、接地模式用 <ground>，放在思考路径开头作为"上下文指示符"。系统提示里告诉模型它有两种思考模式，回答格式统一为 <mode prefix> <think> 推理过程 </think> <answer> 答案 </answer>。这样不同模式的数据能混在一起，用统一的 SFT 训练，模型靠前缀就能区分该走哪种推理；同时也为后续 RL 的"固定前缀做均匀探索"埋下伏笔。SFT 数据上，文本推理走 DeepSeek-R1 式蒸馏+拒绝采样构造，接地推理直接复用已有高质量数据，两者比例严格控成 1:1 以免引入对模式选择的偏置。

2. AdaGRPO 的痛点诊断：原版 GRPO 在模式选择场景失效。 标准 GRPO 的优化目标用 rollout 级优势 $A_j=\frac{r_j-\mathrm{mean}(\{r\})}{\mathrm{std}(\{r\})}$ 对所有 token 一视同仁。论文指出它有两处不适配：一是 SFT 后的策略模型可能偏爱某一模式，导致采的 $2n$ 条 rollout 全来自同一模式，对不同模式探索不均；二是 GRPO 只算 rollout 间优势，没有显式建模模式之间的偏好，无法引导选模式。AdaGRPO 正是针对这两点动手术。

3. Prefix-Guided 模式探索 + 模式相对优势：把"选模式"单独拎出来优化。 探索上，AdaGRPO 把 $2n$ 条 rollout 强制切成两个子组：$n$ 条固定前缀 <text> 的文本 rollout、$n$ 条固定前缀 <ground> 的接地 rollout，保证两模式被均匀探索。优势计算上，对两个子组的奖励分别拟合成高斯分布 $P_t$、$P_v$，用"从一个模式采的 rollout 优于另一个模式"的概率来定义模式相对优势：$A_v=\Phi\!\left(\frac{\mu_v-\mu_t}{\sqrt{\sigma_v^2+\sigma_t^2}}\right)=1-A_t$（$\Phi$ 为标准正态 CDF）。最妙的是优势的 token 级分配——模式相对优势 $A_t,A_v$ 只贴到模式前缀 token 上（引导选更优模式），而 rollout 级优势 $A_j$ 贴到思考过程 token 上（增强推理能力），用指示函数写成： $$A'_{j,t}=\begin{cases}\mathbb{1}\{o_j\in\text{grd}\}A_v+\mathbb{1}\{o_j\in\text{txt}\}A_t & o_{j,t}\in m\\[2pt] A_j & \text{otherwise}\end{cases}$$ 这样"选哪个模式"和"怎么把这个模式推好"被解耦到不同 token 上分别学习。

4. 课程式数据调度：从粗粒度区分到细粒度选择。 RL 数据由两部分构成——含可验证答案的现成数据集（Geo170K、OmniCount、MM-Eureka）和从 LLaVA-OneVision/InternVL SFT 数据里按可验证性与难度筛出、并下采样平衡各任务的子集。课程上先用 binary mixture（只含 OmniCount + 较简单的 Geo170K 几何题）让模型学会模式间的粗粒度区分，再切到 diverse mixture（覆盖数学、OCR、计数、科学、接地、文档等更难任务）学细粒度模式选择，难度与任务分布都由简到繁。

实验关键数据¶

主实验表格（8 benchmark 平均准确率，节选）¶

模型	MathVista	MathVision	WeMath	MMStar	V*	POPE	SpatialScore	平均
GPT-4o	63.8	30.4	42.9	64.7	66.0	86.9	30.6	53.20
Qwen2.5-VL-7B（基座）	68.2	25.1	31.2	60.3	78.0	87.8	15.2	50.90
MM-Eureka（文本）	72.6	28.1	36.9	64.0	59.7	86.3	27.1	52.52
DeepEyes（接地）	70.1	26.6	32.7	61.3	90.1	87.9	20.3	53.72
AdaVaR-7B（本文）	74.4	28.5	44.8	63.0	83.4	89.0	20.4	55.82
AdaVaR-3B（本文）	69.8	24.5	33.8	59.3	77.0	88.2	18.9	50.84

关键结论：AdaVaR 是唯一在所有数据集上都不低于 Qwen2.5-VL 基座的模型；AdaVaR-7B 平均分超过 GPT-4o（55.82 vs 53.20），AdaVaR-3B 平均分逼近 7B 基座（50.84 vs 50.90）。单模式模型则普遍"偏科"——文本模型 V* 大跌、接地模型数学几乎无增益。

消融实验表格（AdaVaR-3B）¶

配置	MathVista	WeMath	MMStar	V*	POPE	平均
AdaVaR-3B（完整）	69.8	33.8	59.3	77.1	88.2	50.8
w/o Ada-Adv + PG-Exp	66.3	31.3	56.6	75.4	89.1	49.6
w/o Ada-Adv	68.4	33.7	58.9	77.4	88.0	50.3
w/o Diverse Mixed Data	67.4	33.4	57.3	76.4	82.1	49.0
w/o Curriculum Learning	66.8	33.4	57.8	76.9	88.2	50.1

每个组件去掉都掉点，其中自适应优势 + 前缀引导探索和多样混合数据贡献最大。另有单模式 baseline 对比：Grounded-SFT-RL（48.7）、Text-SFT-RL（48.8）、Mix-SFT-RL（48.5，去掉前缀直接混数据反而最差），均低于 AdaVaR 的 50.8。

关键发现¶

模式确实分工：文本模式在数学题上选用率高、接地模式在物体中心任务上选用率高（如 V* 上 GRD% 达 99%、数学题上 GRD% 趋近 0）。
统一不伤个体：单模式 baseline 与 AdaVaR 对应模式表现差距极小，说明把两模式塞进一个模型不会拖累任一模式。
互补存在上界：若"任一模式答对即算对"，上界（56.8）远超基座和单模式模型，即便数学题上接地模式也能补救文本模式答错的样本，印证两模式互补、MoVT 范式潜力大。
前缀不可省：去掉前缀的 Mix-SFT-RL 表现甚至低于单模式 baseline，证明前缀 token 是模式区分与均匀探索的关键。

亮点与洞察¶

把"选模式"当成一个可学习的决策层：用自回归分解 $P(m|i,q)\times P(a,t|m,i,q)$ 把模式选择显式建模成序列的第一步，再用 token 级优势分配把"选模式"和"做推理"解耦——这是全文最优雅的设计。
AdaGRPO 的模式相对优势用高斯 CDF 估计胜率，把"模式 A 是否优于模式 B"量化成概率贴到前缀 token 上，比 GRPO 只看 rollout 级标量奖励更能直接引导选择。
"通用"而非"专精"的评测立场：跨数学/视觉搜索/幻觉/空间推理 8 个 benchmark 综合评，避免了单领域刷点的局限，AdaVaR 是唯一全面不降的模型，说服力强。
推理时还内置模式切换兜底：若某模式卡在重复逻辑出不来答案，自动切到另一模式重试。

局限与展望¶

仅整合两种模式：当前只考虑文本与边界框接地两种推理模式，更多模式（如分割图、工具调用、视觉 prompt）尚未纳入，扩展性有待验证。
接地格式较单一：视觉接地仅用 object [x1,y1,x2,y2] 边界框，对需要更细粒度区域（如分割掩码、关键点）的任务表达力可能不足。
离上界仍有差距：AdaVaR-3B 实际 50.8 vs 上界 56.8，说明模式选择仍非最优，自适应能力还有提升空间。
依赖可验证奖励：RL 阶段依赖规则可判定的答案，对开放式、主观性强的视觉推理任务难以直接套用。

评分¶

新颖性: ⭐⭐⭐⭐ — 把"推理模式选择"显式建模为可学习决策层，并为此定制 AdaGRPO（前缀引导探索 + 高斯 CDF 模式相对优势 + token 级优势解耦），视角和算法都有原创性。
实验充分度: ⭐⭐⭐⭐ — 8 个跨域 benchmark、3B/7B 两规模、单模式/混合/去前缀多组 baseline、含上界分析与模式选用率可视化的消融，相当扎实。
写作质量: ⭐⭐⭐⭐ — 动机用 Figure 1b 一图点透"无单一模式称王"，方法推导清晰，公式与图示配合好。
价值: ⭐⭐⭐⭐ — 为"通用视觉推理模型"提供了可行范式，代码/模型/数据开源，对多策略融合类研究有方法论借鉴意义。