🧠 VLM Reasoning¶
💬 ACL2026 · 32 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (150) · 🧪 ICML2026 (31) · 🔬 ICLR2026 (30) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)
🔥 高频主题: 推理 ×30 · 多模态 ×19 · LLM ×4 · Agent ×2
- A Survey of Multimodal Mathematical Reasoning: From Perception, Alignment to Reasoning
-
本综述提出 Perception–Alignment–Reasoning (PAR) 过程框架 + Answer–Process–Executable (APE) 评估框架两个互补视角,系统地组织几何/图表表格/视觉应用题三大任务族,把现有方法和 benchmark 都映射到这两个十字坐标上,是首篇 process-centric 多模态数学推理综述。
- Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization
-
提出GPRO框架,通过元推理控制器在每个token生成步动态路由计算到三条路径(快速/感知重检/推理反思),解决LVLM的过度思考问题,同时提升精度和效率。
- AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation
-
提出AnchorSeg,将推理分割重构为基于语言引导查询库的结构化条件生成过程,通过锚点查询显式解耦空间定位与语义推理,配合Token-Mask循环一致性训练目标,在ReasonSeg上达到SOTA(67.7% gIoU, 68.1% cIoU)。
- ArrowGEV: Grounding Events in Video via Learning the Arrow of Time
-
提出 ArrowGEV,一个受物理学"时间之箭"启发的强化学习框架,通过区分时间敏感和时间不敏感事件来建模视频中的时间方向性,提升 VLM 的事件定位精度和时序理解能力。
- Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning
-
VisReason 构建了一个包含 1,505 道日常视觉推理题的多模态 benchmark,专门测试模型是否能直接基于视觉证据推理,结果显示最强模型平均准确率也只有 47.5%,显著低于人类 71.4%,且 CoT 与更大推理预算只能带来有限提升。
- CAPruner: Conceptual-Adjacent Scene Graph Pruner for Enhancing 3D Spatial Reasoning of Large Language Models
-
本文针对"把完整 3D 场景图喂给 LLM 会爆 token、而现有基于距离的 KNN 剪枝又常常剪掉任务关键关系"的矛盾,提出 CAPruner——把"查询语义相关性"和"空间邻近性"融进一个仅 1219 参数的小 MLP 来给场景图的每条边打重要性分,并用只标注了目标物体的数据通过"边权聚合成节点权"的方式做弱监督训练,从而在固定边预算下保留对具体 3D-VL 任务真正有用的关系,显著提升下游 LLM 的空间推理准确率。
- ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding
-
提出 ChemVLR,首个化学领域推理型 VLM,通过跨模态逆向工程策略构建 760K 推理数据集,结合持续预训练-SFT-RL 三阶段训练流程,在分子识别和反应预测任务上显著超越专有模型和领域专家 VLM。
- Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning
-
SPUR 是首个针对生物医学实验图像(多面板染色图/Western blot/统计图)"感知 → 理解 → 推理"三阶段评测的 benchmark,包含 4264 道专家审定 MCQ,揭示当今 MLLM 仅 Gemini 3 Pro Preview 勉强突破 60%,定量推理普遍比定性推理低 12.76%–31.41%。
- Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision
-
作者构建了首个真实+物理仿真混合的第一人称"手指指点"问答基准 EgoPoint-Bench(11.7k QA / 5 维度 / 3 级语义指代),证实当前 SOTA MLLM 普遍依赖"视觉邻近 / 显著性"伪相关而非真正解析指尖射线,并通过在仿真数据上 LoRA 微调获得平均最高 +25 点的提升与稳健的 sim-to-real 泛化。
- DRIFT: Transferring Reasoning Priors for Efficient MLLM Fine-Tuning
-
DRIFT 把"文本推理专家与多模态模型的参数差"当成方向先验,在多模态 SFT 反向传播时只对梯度做轻量偏置(不动权重),用 4K 多模态 CoT 数据、约 2 小时训练就能把 Qwen2.5-VL-7B 在 MathVista/MathVerse/WeMath 等基准上稳定推过参数合并基线和重型 SFT/RL 方法。
- ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection
-
本文形式化定义了多模态错误检测任务,并构建了 ErrorRadar 基准——包含 2,500 道来自真实学生作答的 K-12 多模态数学题,评估 MLLM 在错误步骤识别(STEP)和错误类型分类(CATE)两个子任务上的能力,发现最强模型 GPT-4o 仍落后人类评估约 10-15%。
- Faithful-First Reasoning, Planning, and Acting for Multimodal LLMs
-
本文提出 Faithful-First RPA 框架,通过 FaithEvi 管线在每一步推理中评估感知忠实性(claimed objects 是否在图像中真实存在),以及 FaithAct 机制在推理生成过程中强制执行基于证据的规划和行动,在不降低任务准确率的前提下将感知忠实性提升最高 24%。
- Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
-
本文提出 Laser,通过动态窗口对齐学习(DWAL)在潜在空间中进行视觉推理,使模型在推理过程中维持未来语义的"概率叠加态"而非逐 token 精确预测,实现"先全局后局部"的认知层次,在 6 个基准上以仅 6 个推理 token(减少 97%+)达到潜在推理方法的 SOTA,超越 Monet 平均 5.03%。
- GeoArena: Evaluating Open-World Geographic Reasoning in Large Vision-Language Models
-
本文提出 GeoArena,一个面向 LVLM 开放世界地理推理的"动态、无标签、过程导向"评测平台,把 in-the-wild 图像下的地理定位评估改写为成对推理对齐任务,用人类偏好 + Bradley-Terry 评分对 17 个前沿 LVLM 排榜,专家-众包一致率达 78%。
- GeoRC: A Benchmark for Geolocation Reasoning Chains
-
提出 GeoRC,首个由GeoGuessr冠军级专家撰写的地理定位推理链基准(800条推理链,500个场景),评估VLM生成可审计推理链的能力,发现闭源VLM虽能匹敌人类定位准确率但推理链质量仍大幅落后,开源VLM则几乎等同于纯幻觉基线。
- HierVA: Hierarchical Visual Agent — Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning
-
HierVA 用 "manager–worker" 双层多模态 agent,把图表推理过程中的图像和文本 context 都按"获取–限定–蒸馏"的纪律管理起来,零训练地在 CharXiv 等复杂图表推理 benchmark 上稳超 CoT 和 "thinking with images" 等强基线。
- iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models
-
iReasoner在无标注图像上让LMM自问自答,并把最终答案一致性扩展为中间CoT步骤的一致性奖励,从而在Qwen2.5-VL-7B上带来最高约+2.13点的多模态推理提升。
- MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models
-
本文提出 MMErroR,一个包含 1997 个样本的多模态错误推理基准,每个样本嵌入一个单一推理错误,覆盖 6 大领域和 4 种错误类型,要求 VLM 不仅检测推理链中的错误存在,还要分类错误类型(视觉感知错误/知识应用错误/问题理解错误/推理错误),评测 12 个代表性 VLM 后发现最强模型 Gemini-3-Pro-Preview 也仅达 66.65% 准确率。
- OMHBench: Benchmarking Balanced and Grounded Omni-Modal Multi-Hop Reasoning
-
OMHBench 构造了一个覆盖文本、图像、语音三种上下文的 6,144 题全模态三跳推理 benchmark,通过实体-属性链和 6 种均衡推理路径暴露出当前 MLLM 在语音落地、路径鲁棒性和跨模态 grounding 上的系统性短板。
- OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models
-
本文提出 OMIBench——首个面向奥赛级多图推理的大规模基准,涵盖生物、化学、数学、物理四学科超 1000 道竞赛题,发现即使最强 LVLM(Gemini-3-Pro)也仅达约 50% 准确率,比单图基准下降超 25%。
- Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning
-
本文是一篇立场论文(position paper),主张多模态大语言模型(MLLM)可以显著推进跨学科科学推理,提出了四阶段研究路线图(广泛知识识别→类比推理泛化→洞察性推理→创造性假设生成),系统综述了 MLLM 在数学、物理、化学和生物四个领域的应用现状、五大挑战和八个未来方向。
- PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
-
本文把“从单帧观察判断任务完成到哪一步”定义为 VLM 的进度推理能力,构建 Progress-Bench 和 ProgressLM-45K,并证明显式学习“情景检索 + 心理模拟”比单纯提示推理更稳定。
- SciMDR: Advancing Scientific Multimodal Document Reasoning
-
SciMDR 提出 synthesize-and-reground 数据构造框架,先在原子 claim 上合成可信 QA 与推理链,再把它们重嵌入完整科学论文中训练模型,使 7B VLM 在科学多模态文档推理上接近 GPT-5 系列表现。
- ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction
-
ShredBench 构造了一个“把文档撕碎后让多模态大模型复原内容”的评测基准,证明当前 MLLM 即使在常规 OCR 上很强,也普遍缺乏把视觉碎片、阅读顺序和语义上下文合在一起推理的能力。
- Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images
-
这篇论文提出面向多模态关系知识图像的 STAR 数据引擎和两阶段训练框架,用 STAR-64K 合成数据、CoT 标注与知识感知 KGRPO 显著提升 MLLM 对抽象结构化知识图像的理解和推理能力。
- TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity
-
TableVista 构建了一个 3,000 道高质量表格推理题、扩展为 30,000 个视觉样本的多模态表格 benchmark,系统评测 29 个基础模型后发现:模型对风格变化相对稳定,但在复杂结构、跨表推理、视觉碎片化和纯视觉输入下明显退化。
- TemporalVLM: Video LLMs for Temporal Reasoning in Long Videos
-
本文提出 TemporalVLM,通过时间感知的片段编码器(重叠滑动 Video Q-Former + 融合模块)提取局部细粒度时间特征,再用 BiLSTM 聚合全局长程依赖,首次在 Video LLM 中引入 LSTM,在密集视频描述、时序定位、高光检测和动作分割四项任务上超越先前方法。
- Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry
-
本文提出PlantInquiryVQA基准和Chain-of-Inquiry(CoI)框架,包含24,950张植物图像和138,068个问答对,模拟植物学家的适应性诊断提问策略,评估18个MLLM在植物病理诊断中的多步视觉推理能力,发现结构化提问显著提升诊断准确性并减少幻觉,但即使最强模型的临床实用性得分仅0.188。
- TRACE: Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning
-
本文提出 TRACE(Textual Representation of Allocentric Context from Egocentric Video),一种提示方法,引导多模态大语言模型从自我中心视频中生成结构化的文本 allocentric 3D 环境表示——包括元上下文、相机轨迹和实体注册表——作为中间推理步骤来增强空间问答能力,在 VSI-Bench 和 OST-Bench 上一致超越已有提示策略。
- VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning
-
VL-Calibration 将 LVLM 的口头置信度拆成视觉置信度和推理置信度,并用图像扰动 KL、token 熵与 token 级优势重加权训练模型,在 13 个视觉推理基准上同时降低 ECE、提升准确率。
- What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning
-
本文提出 UILoop(UI-in-the-Loop)范式,将 GUI 推理从传统的"屏幕→动作"重构为"屏幕→UI 元素→动作"的循环过程,通过 UI 元素驱动的强化微调教模型显式地定位、理解和利用关键 UI 元素,在 GUI 推理任务上达到 SOTA 性能。
- When Slower Isn't Truer: Inverse Scaling Law of Truthfulness in Multimodal Reasoning
-
本文发现多模态推理模型的"逆缩放定律"——慢思考(reasoning)模型在面对误导性视觉输入时比快思考(chat)模型更容易产生不真实输出,并构建了 TruthfulVQA 基准(5000+ 样本、50 名标注员、三层分级提示)和 TruthfulJudge 评估模型(88.4% 准确率)来系统诊断这一现象。