Think360: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth¶

会议: CVPR 2026
arXiv: 2603.22689
代码: Think360
领域: 多模态VLM / LLM推理
关键词: 多模态推理, 推理宽度, 思维树评估, 基准测试, 大语言模型

一句话总结¶

本文提出 Think360，一个聚焦于"推理宽度"（即模型在多路径搜索、多约束剪枝、回溯试错等方面的能力）的多模态基准，包含 1200+ 高质量样本，并设计细粒度 Tree-of-Thought 评估协议，揭示当前 MLLM 在宽度方向推理上的显著短板。

研究背景与动机¶

领域现状：近年来大型推理模型（LRM）在 test-time scaling 和长链推理方面取得显著进展。现有基准如 MathVista、MathVerse、OlympiadBench 等不断推高难度和任务覆盖面，从 K-12 到研究生级别、从文本到多模态输入。
现有痛点：几乎所有已有评测基准都隐含地只衡量"推理深度"（reasoning depth），即模型沿单一推理链条逐步推导的能力。然而，人类解决问题时很少仅靠线性推演，更多是在解空间中多方向搜索、分支回溯、试错剪枝，最终整合部分发现形成答案。
核心矛盾：推理深度和推理宽度是两个正交维度。现有基准将二者混为一谈，导致无法区分模型到底是"想得深"还是"搜得广"。缺乏对宽度维度的系统评测，使得模型的真实推理能力被片面评估。
本文目标 构建一个专门评估推理宽度的多模态基准，包括：(a) 系统化地定义推理宽度的认知能力维度，(b) 设计合理的评测协议来同时量化深度和宽度，(c) 全面评测主流 MLLM 的宽度推理能力。
切入角度：作者类比神经网络架构中的"宽度"设计（shortcut connection、dropout、金字塔特征、梯度反传）与推理过程中的策略（剪枝、分而治之、试错、回溯），建立了深度/宽度在架构与推理之间的对应关系。
核心 idea：通过构建聚焦宽度推理的 1200+ 多模态基准 Think360 和 Tree-of-Thought 评估协议，系统揭示 MLLM 在探索式推理方面的不足。

方法详解¶

整体框架¶

Think360 想回答一个被现有基准忽略的问题：MLLM 到底是"想得深"还是"搜得广"？为此它不去训练新模型，而是把"宽度推理"做成一个可量化的评测对象。整篇工作分两条线落地：一条是数据线，从竞赛题、教材、已有基准、益智游戏四类来源收集原始题目，经过粗到细的质量过滤和重写，最终沉淀成 1225 道答案可客观验证的多模态题；另一条是评测线，在传统 pass@1 准确率之外，额外用一套 Tree-of-Thought 协议把模型的整段回复拆成推理树，分别量出"深度"和"宽度"两个分数，再叠加推理时间、token 消耗等效率指标，构成多维度的诊断画像。这两条线由最上游的"推理宽度形式化定义"统一统领：定义决定了数据线该专门去搜哪类题、也决定了评测线为什么要把深度和宽度分开打分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    DEF["推理宽度的形式化定义<br/>5 种宽度认知能力 + 神经网络架构类比"]
    subgraph DATA["多源数据构建与质量过滤"]
        direction TB
        S["四类数据源<br/>竞赛 / 教材 / 已有基准 / 益智游戏"]
        C["粗筛：关键词匹配 + GPT-4o 初判"]
        F["细筛：人工质量与多样性把关"]
        R["标注重构<br/>证明题→可验证数值 / 游戏题→可枚举问答"]
        S --> C --> F --> R
    end
    TAX["细粒度分类体系<br/>答案 / 难度 / 认知能力 / 题型 四轴"]
    DS["Think360 数据集<br/>1225 道可客观判分多模态题"]
    subgraph EVAL["ToT-Eval 评估协议"]
        direction TB
        T["GPT-4o 把回复拆成推理树<br/>父子=顺序依赖 / 兄弟=并行探索"]
        SC["逐节点判正确性<br/>深度分=最长正确链 / 宽度分=有效并行分支数"]
        T --> SC
    end
    OUT["多维诊断画像<br/>pass@1 + 深度/宽度分 + 时间/token"]
    DEF --> DATA --> TAX --> DS --> EVAL --> OUT
    DEF -. 深度↔宽度区分 .-> EVAL

关键设计¶

1. 推理宽度的形式化定义：把"搜得广"从"想得深"里拆出来

现有基准的隐含假设是推理能力等同于沿单一链条往下推的深度，但人解题时更多是在解空间里横向搜索、分支回溯、试错剪枝。Think360 把这种横向能力命名为推理宽度，并进一步拆成五种认知子能力：试错搜索（trial-and-error）、多约束剪枝（branch-and-bound）、分治（divide-and-conquer）、假设检验（hypothesize-and-test）、感知理解（perceive-and-comprehend）。论文给这五种能力配了一个贴切的类比——它们恰好对应神经网络架构里的"宽度"设计：dropout 之于剪枝、shortcut 之于回溯、金字塔特征之于分治。这层对应让"宽度"从一个模糊的直觉变成了可以逐项考察的维度，也直接解释了为什么旧基准会把"只会沿固定路径走得远"的模型误判为"会推理"。

2. 多源数据构建与质量过滤：专门把稀缺的宽度题筛出来并改造成可验证形式

宽度推理题在现有基准里是绝对的少数派——MathVista 里只占 2.7%，OlympiadBench 只占 1.7%，靠抽取根本攒不够量，必须主动收集和改造。Think360 从数学/逻辑竞赛题、教材例题、已有基准（MathVision、DynaMath、MME-Reasoning 等）、在线益智游戏与 IQ 测试四类来源取材，再用两阶段过滤去芜存菁：粗筛先用关键词（如 maximum/minimum、possible ways 这类暗示搜索/枚举的词）做匹配，配合 GPT-4o 当评判初步打分；细筛交由人工做二次质量和多样性把关。来源格式参差不齐是个绕不开的麻烦，所以证明题被改写成答案可验证的形式，游戏题被设计成可枚举的问答格式，最终所有题目都落到能客观判分的统一接口上。

3. 细粒度分类体系：用非互斥标签如实反映一题多能力的本质

宽度推理题往往需要同时调用好几种能力，如果套用互斥分类会把这种共现关系抹平。Think360 因此沿四个轴给题目打标签：答案类型（选择题 16.9%、自由作答 83.1%）、难度（Easy/Basic/Medium/Hard/Olympiad 五级，分布近似正态）、认知能力（前述 5 种）、题型（6 种）。其中认知能力和题型两轴都是非互斥的，一道题可以同时挂多个标签。这样设计的回报是：通过频率统计和弦图可视化，能直接看出哪些能力经常被一起调用，为后面分维度的失败分析提供了抓手。

4. Tree-of-Thought 评估协议（ToT-Eval）：把整段回复拆成推理树，分别量出深度和宽度

只看最终答案对错的 outcome-based 评测，分不清模型是"一步到位"还是真的做了充分探索，这恰恰是宽度评测最需要的信息。ToT-Eval 分两步补上这个缺口。第一步是树构建：把问题和模型的完整回复喂给 GPT-4o，让它抽出关键推理步骤并组织成层次树——父子关系表示顺序的推理依赖（这是深度方向），同层兄弟节点表示并行探索的替代方案（这是宽度方向）。第二步是评分：仍由 GPT-4o 逐节点判定正确性（逻辑是否成立、事实是否准确），在此基础上，深度得分取最长一条全部正确的推理链的深度，宽度得分取有效的并行分支数。两个分数一起，才把"探索得够不够广"和"推得够不够深"这两件事分开量了出来。

损失函数 / 训练策略¶

本文为 benchmark 评测工作，不涉及模型训练。评估方面设定温度 0.7，每题重复 3 次取均值以减少方差。所有模型配置为支持的最大输出长度。同时测试了有/无 Chain-of-Thought 提示的影响。

实验关键数据¶

主实验¶

评测涵盖 12 个主要模型系列（GPT、Gemini、Claude、Grok、Doubao、QwenVL、InternVL、LLaVA、Llama、GLM-V、MiMo、Kimi），共 30+ 模型。

模型	总体准确率	推理时间(s)	Token消耗	Trial-and-Error	Branch-and-Bound
Gemini-2.5-pro	46.0%	160.19	17270	38.5%	51.8%
o3	42.3%	261.59	6326	35.5%	48.0%
o4-mini	42.1%	84.61	6736	34.3%	48.0%
Gemini-2.5-flash-thinking	38.3%	107.33	21273	31.1%	43.4%
o1	36.8%	186.81	6537	29.6%	40.6%
Claude-3.7-Sonnet-Thinking	35.5%	295.94	13819	29.4%	38.8%
MiMo-VL-RL (7B)	28.3%	334.21	7381	24.9%	27.9%
GPT-4o	16.0%	13.28	309	15.3%	16.8%
LLaVA-Onevision (7B)	8.3%	36.58	648	5.8%	10.0%

消融实验¶

配置	关键指标	说明
CoT prompting (GPT-4o)	+0.4% 准确率	CoT 提示带来微小提升，推理时间翻倍
Perceive-and-Comprehend 子集	高于总体均值	感知理解型任务模型表现相对好
Trial-and-Error 子集	低于总体均值	试错搜索型任务是模型短板
Divide-and-Conquer 子集	低于总体均值	分而治之任务同样困难
Text-Only vs Image+Text	详见附录	多模态输入的影响分析

关键发现¶

Gemini-2.5-pro 以 46.0% 准确率排名第一，其 thinking token 平均 17270 个，约为 o3/o4-mini 的 3 倍，但推理时间反而更短（160s vs o3 的 262s），说明该模型的推理效率更高。
综合性价比最优为 o4-mini：准确率 42.1% 与 o3 相当，但推理时间仅 85s（o3 的 1/3）。
所有模型在 40% 以下挣扎：仅 3 个模型突破 40% 门槛，说明宽度推理对当前 MLLM 仍是严峻挑战。
感知理解 vs. 试错搜索的分化：各模型在 Perceive-and-Comprehend 子集上表现普遍高于平均，但在 Trial-and-Error 和 Divide-and-Conquer 子集上显著低于平均，表明当前 MLLM 更擅长结构化感知而非探索式推理。
开源模型差距明显：最佳开源模型 MiMo-VL-RL (7B) 准确率 28.3%，与闭源领先者差距约 18 个百分点。

亮点与洞察¶

推理宽度的概念化：将推理宽度与深度明确分离，并建立了与神经网络架构设计的精彩类比（dropout↔剪枝、shortcut↔回溯、金字塔↔分治等），概念清晰且有启发性。
ToT-Eval 评估协议：不仅评最终答案，还分析推理过程的树结构，量化深度和宽度两个维度，比传统 pass@1 提供了更丰富的诊断信息。这一评估方式可以迁移到任何需要评价推理质量的场景。
1200+ 题目的精细构建流程：从竞赛题到益智游戏，多源数据经过关键词匹配 + LLM-as-Judge + 人工审核的三级过滤，保证了题目质量和宽度推理的针对性。证明题和游戏题的改造方法值得借鉴。

局限与展望¶

评估依赖 GPT-4o/GPT-4o-mini：树构建和节点正确性判断都依赖 GPT-4o，引入了评估器自身的偏差，且评估成本较高。
数据集规模有限：1225 道题相对主流推理基准（如 MathVista 5000+ 题）偏少，各认知能力子集的样本量可能不足以支持稳健的统计结论。
缺乏过程奖励/过程监督的评估：虽然提出了 ToT-Eval，但未将其应用于训练（如 process-based reward），未能验证对模型改进的指导作用。
可扩展性：如何自动化生成更多高质量宽度推理题目，避免人工标注瓶颈，是实际推广的关键问题。

评分¶

新颖性: ⭐⭐⭐⭐ 推理宽度作为独立维度的系统化评测是新颖视角，但 benchmark 类工作本身创新有限
实验充分度: ⭐⭐⭐⭐⭐ 30+ 模型全面评测，分维度分难度分析详尽
写作质量: ⭐⭐⭐⭐ 概念阐述清晰，类比贴切，但部分表格过于密集影响阅读
价值: ⭐⭐⭐⭐ 揭示了 MLLM 推理能力的盲区，对后续模型设计和训练策略有指导意义