🧠 VLM Reasoning¶
🔬 ICLR2026 · 30 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (150) · 🧪 ICML2026 (31) · 💬 ACL2026 (32) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)
🔥 高频主题: 推理 ×27 · 多模态 ×15 · Agent ×3 · LLM ×2 · 强化学习 ×2
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
-
AdaReasoner 教多模态大模型(MLLM)在多轮视觉推理中动态编排一组视觉工具——通过"工具冷启动 + 多轮 Tool GRPO"两阶段训练,让 7B 小模型学会自主选用、丢弃和调节工具使用频率,平均涨点 +38.7%,在 VSP 上做到 97.6% 的近满分,反超 GPT-5 与 Claude Sonnet 4。
- Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks
-
Agent-X 是一个面向「视觉中心 agent」的大规模评测基准,用 828 个真实多模态任务(图像/多图/视频/指令文本)覆盖 6 类场景,配上一套细粒度的「步级 + 推理链 + 结果」三模评测指标,结果显示连 GPT/Gemini/Qwen 系列最强模型的全链路成功率都不到 50%,暴露出当前大模型在多步视觉推理和工具调用上的硬伤。
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
-
AGILE 把"解拼图"重新定义成一个让模型一步步写代码、观察环境反馈的交互过程,再配上可任意扩展的程序化合成数据 + 冷启动 SFT + GRPO 强化学习,把 Qwen2.5-VL-7B 在 2×2 拼图上的准确率从 9.5% 拉到 82.8%,并迁移到 9 个通用视觉基准上平均涨 3.1%。
- ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
-
ARES 用"窗口熵"作为探索触发器、用难度感知的层级熵奖励控制探索深度,让多模态大推理模型在简单题上少想、难题上多想,从而在数学/逻辑/多模态基准上同时提升准确率和推理效率。
- AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning
-
AutoGPS 用一个"多模态形式化器(MPF)+ 演绎符号推理器(DSR)"的神经符号协同框架,把平面几何题先翻译成形式语言、再以超图扩展的方式做严格演绎,最终给出既正确又可逐步追溯的解题过程,在 Geometry3K / PGPS9K 上达到 SOTA,并把人评的逐步逻辑正确率从 MLLM 的 ~71% 提到 99%。
- Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning
-
针对在线(on-policy)RLVR 训练中"难样本学不动、采样数据用一次就扔"两大浪费,本文提出离策略框架 BAPO(Batch Adaptation Policy Optimization),用一个"难度感知的经验回放 + 自适应批构造"机制把历史难题和历史高质量轨迹重新拉回训练批次,并在理论上证明改造后的批次仍满足策略改进下界,最终在数学、规划、视觉几何三类推理任务上平均比 GRPO 提升 12.5%,还把基座模型一直做不对的 40.7% 难题给解决了。
- CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process
-
CircuitSense 构建了首个"按工程抽象层级组织、强调从电路图推导符号方程"的多模态大模型基准,用 8,006 道题(人工 curated + 合成生成)系统评测 8 个 MLLM,揭示出闭源模型在感知任务上能超过 85%、但在符号推导上骤降到 19% 以下的根本断层。
- DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage
-
提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。
- Empowering Small VLMs to Think with Dynamic Memorization and Exploration
-
提出 DyME(Dynamic Memorize-Explore),通过逐步动态切换 SFT 记忆模式与 GRPO 探索模式,首次赋予小规模视觉语言模型(<1B 参数)在特定任务上的思维推理能力。
- Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences
-
系统评估了 VLM 对机器人运动路径的空间推理能力,提出 4 种图像查询方法用于让 VLM 根据用户自然语言描述选择最佳运动路径,发现 Qwen2.5-VL 零样本准确率达 71.4%,且微调后小模型可获显著提升。
- FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
-
提出 FRIEDA 基准,系统评估大型视觉语言模型在多步骤、跨地图的制图推理能力,发现最强模型 Gemini-2.5-Pro 准确率仅 38.20%,远低于人类 84.87%。
- GTR-Bench: Evaluating Geo-Temporal Reasoning in Vision-Language Models
-
提出 GTR-Bench,一个面向大规模摄像头网络中移动目标地理时空推理的新基准,评估发现最强模型 Gemini-2.5-Pro(34.9%)远落后于人类水平(78.61%),揭示了当前 VLM 在时空上下文利用失衡、时序预测能力弱、地图-视频对齐能力不足三大缺陷。
- Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification
-
本文发现多模态大语言模型(MLLM)作为 agent 行为验证器时存在严重的"同意偏差"(agreement bias)——系统性地过度认可 agent 行为,并提出 Self-Grounded Verification(SGV)方法,通过两步生成(先提取行为先验、再条件化验证)缓解该偏差,在 web 导航、桌面操作和机器人操控任务中将失败检测率提升最高 25pp、准确率提升 14pp。
- MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning
-
提出 MMR-Life 基准(2646 道 5 选 1 多图选择题,基于 19108 张真实图像,覆盖 7 种推理类型和 21 个任务),首次系统评估 MLLM 在真实生活场景中的多图推理能力,发现最强模型 GPT-5 仅 58.69% 准确率,距人类水平差 14%,并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。
- OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
-
基于认知心理学构建OmniSpatial——首个全面空间推理基准,系统覆盖动态推理、复杂空间逻辑、空间交互和透视转换4大维度50个子类别共8.4K人工标注QA对,让o3最强推理模型仅达56.33%而人类达92.63%→揭示复杂空间推理仍是VLM的核心瓶颈。
- Reasoning-Driven Multimodal LLM for Domain Generalization
-
提出 RD-MLDG——首个将 MLLM 推理链引入域泛化的框架。构建 DomainBed-Reasoning 数据集,系统分析推理监督的两大挑战(优化困难 + 推理模式不匹配),通过 MTCT(多任务交叉训练)与 SARR(自对齐推理正则化)协同解决,在 4 个标准 DG 基准上以 86.89% 的平均准确率大幅超越 GPT-4o(83.46%)和所有 CLIP/ViT 方法。
- Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
-
提出 Ref-Adv 基准数据集,通过 硬干扰物配对 + LLM 辅助最小充分表达式生成 + 三人一致性人工验证 的流水线,构建了一个消除"定位捷径"的现代 REC 基准,在该基准上 13 个当代 MLLM(包括 GPT-4o、Gemini 2.5、Qwen2.5-VL-72B 等)的准确率从 RefCOCO(+/g) 上的 90%+ 大幅下降至 50-68%,系统暴露了模型在复杂视觉推理和真实定位能力上的严重不足。
- Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes
-
提出 MV-RoboBench,首个整合多视角空间推理与机器人操作执行评测的 benchmark,包含 1.7K 人工标注 QA,揭示当前最强 VLM(GPT-5 仅 56.4%)与人类(91.0%)之间存在巨大差距。
- Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation
-
借鉴 Speculative Decoding 的 draft-then-verify 范式提出 Speculative Verdict (SV),用多个轻量 VLM 生成多样推理路径作为 draft,大模型作为 verdict 综合验证并纠错,在信息密集型 VQA 上无需训练即超过 GPT-4o 达 11.9%,且能修复 47-53% 的少数正确案例。
- SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
-
提出SophiaVL-R1——在规则基RL训练MLLM推理时引入整体级思维过程奖励:训练Thinking Reward Model从逻辑一致性/冗余度等五维度评估推理质量→提出Trust-GRPO基于正确/错误答案组的思维奖励对比计算可信度权重\(\gamma\)缓解reward hacking→退火策略\(e^{-\text{steps}/T}\)渐减思维奖励使后期更依赖准确的规则奖励→7B模型在MathVista(71.3%)和MMMU(61.3%)等多个基准全面超越LLaVA-OneVision-72B。
- Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models
-
提出基于认知科学 2×2 分类法(内在/外在 × 静态/动态)的统一空间推理基准 Spatial-DISE,包含 559 个评估 VQA 对和 12K+ 训练数据,在 32 个 SOTA VLM 上的评测揭示了模型在动态空间推理(尤其是心理旋转和折叠)上与人类的巨大差距。
- Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation
-
提出 Spatial CAPTCHA,一种基于 3D 空间推理的新型人类验证框架,利用人类与多模态大语言模型在几何推理、视角变换、遮挡处理和心理旋转等任务上的根本性能力差异来区分人与机器,最优 MLLM 仅达 31.0% Pass@1 准确率,远低于人类表现。
- Spatial Reasoning is Not a Free Lunch: A Controlled Study on LLaVA
-
通过在 LLaVA 框架下控制实验,系统性地研究图像编码器训练目标和 2D 位置编码对 VLM 空间推理能力的影响,发现编码器选择主导空间性能、AIMv2 编码器一致性最好,但 2D-RoPE 的改进不稳定,空间推理的失败根植于当前 VLM 流水线的核心设计选择。
- SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
-
提出SpatiaLab,一个包含1400个视觉QA对的真实场景空间推理基准,涵盖6大类30子类空间任务,支持多选和开放式双格式评估,揭示当前最强VLM(InternVL3.5-72B MCQ 54.93%)与人类(87.57%)之间存在巨大空间推理鸿沟,且开放式设置下差距更大。
- SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs
-
提出 SpinBench,一个以认知科学为基础的诊断性基准测试,通过 7 类渐进式空间推理任务(从物体识别到视角转换)系统评估 37 个 VLMs 的空间理解能力,揭示了模型存在的自我中心偏差、旋转理解薄弱等系统性缺陷。
- ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding
-
提出 ThinkOmni 无训练框架,利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM),通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号,MathVista 达 70.2%、MMAU 达 75.5%,匹配或超越 RFT 方法。
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs
-
提出 VC-STaR(Visual Contrastive Self-Taught Reasoner),基于"VLM 在对比两张相似图像时看得更准"的观察,设计了一套对比式自改进框架:通过构造对比 VQA 对让模型在对比中生成更忠实的视觉分析,再由 LLM 将对比分析融入推理路径,产出高质量视觉推理数据集 VisCoR-55K,微调后在 MMVP 上提升 5.7%、Hallusion 上提升 3.2%。
- VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
-
VidGuard-R1 是首个采用 GRPO(Group Relative Policy Optimization)强化学习微调 MLLM 的视频真伪检测器,通过构建 14 万无快捷方式的真/假视频对数据集,并设计时序伪影奖励和扩散步数质量奖励两种专用奖励机制,在自建数据集上达到 86.17% 准确率,在 GenVidBench 和 GenVideo 基准上实现 95%+ 的 SOTA 零样本检测性能,同时生成可解释的思维链推理。
- VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
-
提出 VLM-SubtleBench,一个评估视觉语言模型在细微差异比较推理能力的基准,覆盖 10 种差异类型和 6 个图像领域(自然、游戏、工业、航空、医学、合成),揭示了 VLM 与人类在空间/时间/视角推理上超过 30% 的性能差距。
- VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use
-
提出 VTool-R1,首个通过强化学习微调训练 VLM 生成交错文本和视觉中间推理步骤的框架,使模型学会"用图像思考"。