Think360: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth¶

会议: CVPR 2026
arXiv: 2603.22689
代码: Think360
领域: 多模态VLM / LLM推理
关键词: 多模态推理, 推理宽度, 思维树评估, 基准测试, 大语言模型

一句话总结¶

本文提出 Think360，一个聚焦于"推理宽度"（即模型在多路径搜索、多约束剪枝、回溯试错等方面的能力）的多模态基准，包含 1200+ 高质量样本，并设计细粒度 Tree-of-Thought 评估协议，揭示当前 MLLM 在宽度方向推理上的显著短板。

研究背景与动机¶

领域现状：近年来大型推理模型（LRM）在 test-time scaling 和长链推理方面取得显著进展。现有基准如 MathVista、MathVerse、OlympiadBench 等不断推高难度和任务覆盖面，从 K-12 到研究生级别、从文本到多模态输入。
现有痛点：几乎所有已有评测基准都隐含地只衡量"推理深度"（reasoning depth），即模型沿单一推理链条逐步推导的能力。然而，人类解决问题时很少仅靠线性推演，更多是在解空间中多方向搜索、分支回溯、试错剪枝，最终整合部分发现形成答案。
核心矛盾：推理深度和推理宽度是两个正交维度。现有基准将二者混为一谈，导致无法区分模型到底是"想得深"还是"搜得广"。缺乏对宽度维度的系统评测，使得模型的真实推理能力被片面评估。
本文目标 构建一个专门评估推理宽度的多模态基准，包括：(a) 系统化地定义推理宽度的认知能力维度，(b) 设计合理的评测协议来同时量化深度和宽度，(c) 全面评测主流 MLLM 的宽度推理能力。
切入角度：作者类比神经网络架构中的"宽度"设计（shortcut connection、dropout、金字塔特征、梯度反传）与推理过程中的策略（剪枝、分而治之、试错、回溯），建立了深度/宽度在架构与推理之间的对应关系。
核心 idea：通过构建聚焦宽度推理的 1200+ 多模态基准 Think360 和 Tree-of-Thought 评估协议，系统揭示 MLLM 在探索式推理方面的不足。

方法详解¶

整体框架¶

Think360 是一个评测基准而非模型方法。整体构建流程分为三个阶段：(1) 多源原始数据收集 → (2) 粗到细质量过滤 → (3) 标注与重写。评测方面采用 pass@1 准确率 + Tree-of-Thought 深度/宽度得分 + 推理时间/token消耗。

关键设计¶

推理宽度的形式化定义
- 功能：将推理宽度与推理深度明确区分为两个正交维度
- 核心思路：推理深度衡量沿单一推理链条的逐步延伸能力；推理宽度聚焦于系统化地试错搜索（trial-and-error）、多约束剪枝（branch-and-bound）、分治策略（divide-and-conquer）、假设检验（hypothesize-and-test）以及感知理解（perceive-and-comprehend）五种认知能力。这五种能力对应了不同类型的"横向"搜索策略，类比于神经网络中 dropout 对应剪枝、shortcut 对应回溯等。
- 设计动机：已有基准几乎没有专门量化宽度推理的，导致模型被认为"会推理"但实际上只是"能沿固定路径走得远"，缺乏对多路径搜索能力的系统评估。
多源数据构建与质量过滤
- 功能：构建 1225 道高质量多模态推理题
- 核心思路：数据来自四类来源——数学/逻辑竞赛题、教材例题、已有基准（MathVision、DynaMath、MME-Reasoning 等）、在线益智游戏/IQ 测试。过滤采用两阶段策略：粗筛用关键词匹配（如 maximum/minimum、possible ways）+ GPT-4o 作为评判；细筛由人工进行二次质量和多样性检查。对证明题进行改写使答案可验证，对游戏题设计可枚举的问答格式。
- 设计动机：直接从已有基准抽取的宽度推理题占比极低（如 MathVista 仅 2.7%，OlympiadBench 仅 1.7%），需要专门收集和改造。同时不同来源的数据格式差异大，必须统一为可客观验证的形式。
细粒度分类体系
- 功能：从多个维度对题目进行分类，支持细粒度分析
- 核心思路：采用四个分类轴——答案类型（选择题 16.9%、自由作答 83.1%）、难度分级（Easy/Basic/Medium/Hard/Olympiad 五级，近似正态分布）、认知能力（5 种非互斥类别）、题型（6 种非互斥类别）。非互斥分类允许一道题同时标注多种认知能力。
- 设计动机：互斥分类无法反映推理宽度题目通常需要同时调用多种能力的特点；非互斥分类通过频率统计和弦图可视化揭示不同能力间的共现关系。
Tree-of-Thought 评估协议（ToT-Eval）
- 功能：超越传统的 pass@1 准确率，从深度和宽度两个维度量化模型推理过程
- 核心思路：分为两步——(a) 树构建：给定问题和模型完整回复，由 GPT-4o 提取关键推理步骤并组织为层次树结构，其中深度表示顺序推理依赖（父子关系），宽度表示并行探索的替代方案（同层兄弟节点）。(b) 深度/宽度评分：由 GPT-4o 判定每个节点的正确性（逻辑是否合理、事实是否准确）。深度得分 = 最长正确推理链深度，宽度得分 = 有效的并行推理分支数。
- 设计动机：传统 outcome-based 评测只看最终答案对错，无法区分模型是"一步到位"还是经过了充分的探索和验证。ToT-Eval 能够同时量化模型在探索广度和推理深度上的表现，更精准地反映宽度推理能力。

损失函数 / 训练策略¶

本文为 benchmark 评测工作，不涉及模型训练。评估方面设定温度 0.7，每题重复 3 次取均值以减少方差。所有模型配置为支持的最大输出长度。同时测试了有/无 Chain-of-Thought 提示的影响。

实验关键数据¶

主实验¶

评测涵盖 12 个主要模型系列（GPT、Gemini、Claude、Grok、Doubao、QwenVL、InternVL、LLaVA、Llama、GLM-V、MiMo、Kimi），共 30+ 模型。

模型	总体准确率	推理时间(s)	Token消耗	Trial-and-Error	Branch-and-Bound
Gemini-2.5-pro	46.0%	160.19	17270	38.5%	51.8%
o3	42.3%	261.59	6326	35.5%	48.0%
o4-mini	42.1%	84.61	6736	34.3%	48.0%
Gemini-2.5-flash-thinking	38.3%	107.33	21273	31.1%	43.4%
o1	36.8%	186.81	6537	29.6%	40.6%
Claude-3.7-Sonnet-Thinking	35.5%	295.94	13819	29.4%	38.8%
MiMo-VL-RL (7B)	28.3%	334.21	7381	24.9%	27.9%
GPT-4o	16.0%	13.28	309	15.3%	16.8%
LLaVA-Onevision (7B)	8.3%	36.58	648	5.8%	10.0%

消融实验¶

配置	关键指标	说明
CoT prompting (GPT-4o)	+0.4% 准确率	CoT 提示带来微小提升，推理时间翻倍
Perceive-and-Comprehend 子集	高于总体均值	感知理解型任务模型表现相对好
Trial-and-Error 子集	低于总体均值	试错搜索型任务是模型短板
Divide-and-Conquer 子集	低于总体均值	分而治之任务同样困难
Text-Only vs Image+Text	详见附录	多模态输入的影响分析

关键发现¶

Gemini-2.5-pro 以 46.0% 准确率排名第一，其 thinking token 平均 17270 个，约为 o3/o4-mini 的 3 倍，但推理时间反而更短（160s vs o3 的 262s），说明该模型的推理效率更高。
综合性价比最优为 o4-mini：准确率 42.1% 与 o3 相当，但推理时间仅 85s（o3 的 1/3）。
所有模型在 40% 以下挣扎：仅 3 个模型突破 40% 门槛，说明宽度推理对当前 MLLM 仍是严峻挑战。
感知理解 vs. 试错搜索的分化：各模型在 Perceive-and-Comprehend 子集上表现普遍高于平均，但在 Trial-and-Error 和 Divide-and-Conquer 子集上显著低于平均，表明当前 MLLM 更擅长结构化感知而非探索式推理。
开源模型差距明显：最佳开源模型 MiMo-VL-RL (7B) 准确率 28.3%，与闭源领先者差距约 18 个百分点。

亮点与洞察¶

推理宽度的概念化：将推理宽度与深度明确分离，并建立了与神经网络架构设计的精彩类比（dropout↔剪枝、shortcut↔回溯、金字塔↔分治等），概念清晰且有启发性。
ToT-Eval 评估协议：不仅评最终答案，还分析推理过程的树结构，量化深度和宽度两个维度，比传统 pass@1 提供了更丰富的诊断信息。这一评估方式可以迁移到任何需要评价推理质量的场景。
1200+ 题目的精细构建流程：从竞赛题到益智游戏，多源数据经过关键词匹配 + LLM-as-Judge + 人工审核的三级过滤，保证了题目质量和宽度推理的针对性。证明题和游戏题的改造方法值得借鉴。

局限与展望¶

评估依赖 GPT-4o/GPT-4o-mini：树构建和节点正确性判断都依赖 GPT-4o，引入了评估器自身的偏差，且评估成本较高。
数据集规模有限：1225 道题相对主流推理基准（如 MathVista 5000+ 题）偏少，各认知能力子集的样本量可能不足以支持稳健的统计结论。
缺乏过程奖励/过程监督的评估：虽然提出了 ToT-Eval，但未将其应用于训练（如 process-based reward），未能验证对模型改进的指导作用。
可扩展性：如何自动化生成更多高质量宽度推理题目，避免人工标注瓶颈，是实际推广的关键问题。

评分¶

新颖性: ⭐⭐⭐⭐ 推理宽度作为独立维度的系统化评测是新颖视角，但 benchmark 类工作本身创新有限
实验充分度: ⭐⭐⭐⭐⭐ 30+ 模型全面评测，分维度分难度分析详尽
写作质量: ⭐⭐⭐⭐ 概念阐述清晰，类比贴切，但部分表格过于密集影响阅读
价值: ⭐⭐⭐⭐ 揭示了 MLLM 推理能力的盲区，对后续模型设计和训练策略有指导意义