跳转至

🧠 VLM Reasoning

🧪 ICML2026 · 31 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (150) · 💬 ACL2026 (32) · 🔬 ICLR2026 (30) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)

🔥 高频主题: 推理 ×27 · 多模态 ×14 · LLM ×3 · 强化学习 ×2

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

把面向 LLM 的「可验证奖励强化学习(RLVR)」搬到视频驱动的 3D 场景理解上:用 GRPO 直接以 3D IoU、F1、准确率等评测指标当奖励来微调一个 4B 的 3D-aware VLM,让训练目标和评测口径对齐,最终在 3D 视频检测、3D 视觉定位、空间推理三类任务上以 4B 参数反超 8B 基线。

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

3ViewSense 认为 VLM 空间推理的瓶颈不是视觉特征不够或语言推理太弱,而是缺少稳定的三维中间表示,因此让模型先从单张图像诱导前视图、左视图、俯视图,再基于这些正交视图推理,在遮挡计数和视角一致空间推理上显著优于同规模 VLM。

Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models

本文把 VLM 空间推理从“被动看完所有视角再回答”改造成“按问题主动取景、更新认知地图、用可执行空间断言验证推理”的 agentic 流程,并用密集奖励微调 Qwen2.5-VL-3B,在 MindCube-Tiny 上取得 80.5% overall accuracy,尤其把 Rotation 子集提升到 85.0%。

Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning

本文把 VLM 的输出强制拆成 <recognition> 感知块和 <think> 推理块,再用一个"蒙眼"文本推理代理(拿不到图,只看 VLM 写下的感知文字)能不能答对题作为感知奖励 \(R_P\),配上结构化语言验证 SVV 作为结果奖励 \(R_O\);MoCA 用 \(R_P\) 当门控做模态级信用分配,让 7B 模型在 9 个 perception/reasoning/rich-modality benchmark 上同时提升,在多个指标上超过 GPT-4o。

Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners

针对统一多模态模型 (unified model) 在 anything-to-image (X2I) 任务上的"理解–生成 gap"(看得懂但生不出),本文提出 Self-Adaptive Interleaved Reasoner:用一个 hierarchical 数据合成 pipeline 在直接生成 / 自我反思 / 多步规划三种模式间分流 5 万条样本,再用 SFT + GRPO 训练并配上 step-wise 推理奖励和 intra-group 复杂度惩罚,让 Emu3.5 在 KRIS-Bench / OmniContext 上超越 GPT-4o、Gemini 2.5 Flash 等闭源模型。

Decomposed On-Policy Distillation for Vision-Language Reasoning: Steering Gradients for Visual Grounding

作者把多模态在线蒸馏的 KL 损失沿贝叶斯链拆成"语言先验"和"视觉接地"两个子目标,发现两者梯度近乎正交、标准蒸馏只是被动取平分,提出 Visual Gradient Steering(VGS)主动把更新方向偏向视觉子空间,在 Qwen3-VL 8B→2B/4B 七个多模态推理基准上平均提升 +2.37%/+1.56%。

Efficient Reasoning with Hidden Thinking

Heima 把多模态 LLM 的冗长 CoT 每个阶段(summary / caption / reasoning)蒸馏成一个特殊 thinking token,让模型在隐空间里"想",token 数从 100-200 量级降到 13-16 个的同时 zero-shot 准确率反而比 LLaVA-CoT 更稳;配套训练一个 LLM "interpreter"用 thinking token 的 hidden state 重建出文字推理链,从而验证压缩损失的信息论上界。

Find, Fix, Reason: Context Repair for Video Reasoning

本文针对视频推理中"on-policy RL 在能力天花板停滞、off-policy 蒸馏又会熵塌缩"的两难,引入一个冻结的、工具集成的大教师模型在学生 rollout 失败时插入最小化的"证据补丁" (key-frame 区间、错误类型),让学生在同一问题上重新作答,并把修复后的轨迹通过 chosen-rollout 机制纳入 GRPO 优化。

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

HATCH 受人类空间认知启发,给多模态大模型设计两个互补训练目标——用几何监督让跨视角对应的图像块特征对齐(PaStA),再用强化学习逼模型先生成显式的"换视角动作"再回答(ActoR)——只用 3B 底座就把多图空间推理刷到能和 GPT-5.2 掰手腕的水平。

From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

本文指出当前 VLM 后训练过度强调"长链推理"而忽视感知瓶颈,把后训练显式拆成"视觉感知 → 文本推理 → 视觉推理"三个独立阶段,并用 RLVR(而非 caption SFT)单独打磨感知,使 Qwen3-VL-8B 在视觉数学和感知 benchmark 上分别相对基线提升约 +5.9% 和 +1.2%,同时把推理 trace 缩短 20.8%。

From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning

作者先揭示主流 ToM 数据集被"捷径"污染(不靠真正心智推理、靠虚假相关就能刷到 99%),提出一个轻量审计框架把这些数据集筛掉,再在四个无捷径数据集上系统证明:带显式推理链的强化微调(Thinking-RFT)比 SFT 平均高 6%、在高阶/多模态场景高 10% 左右,且泛化和反事实鲁棒性都更好——因为 RL 教会模型把推理锚定在真正的因果线索上。

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

本文用因果中介分析把「潜在视觉推理(用 MLLM 隐状态当 latent token 来做视觉想象)」拆成 \(X\to Z\to Y\) 的因果链,实证发现 latent token 既不随输入变化(输入-潜在断连)也几乎不影响答案(潜在-答案断连),从而质疑其必要性,并提出把视觉想象显式写成文本的简单替代法 CapImagine,在视觉感知基准上反超复杂的潜在空间方法。

iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

针对“显式视觉 grounding 反而拖累 CoT 推理”这一反直觉现象,作者提出 iVGR——一个双流 GRPO 训练框架,让文本 CoT 和带框 grounded CoT 同时 rollout,并用一致性奖励把高质量 grounded 轨迹的视觉定位能力“内化”进纯文本 CoT,从而在推理时不用输出坐标就能拿到 grounded 推理的收益。

Learn to Think: Improving Multimodal Reasoning through Vision-Aware Self-Improvement Training

VISTA 把多模态大模型的自我改进训练改造成"难题靠 prefix 重采样补样本、伪正例靠视觉注意力分数 (VAS) 过滤"的两段式 pipeline,在 Qwen2.5-VL-3B 上把数学/医学多模态推理平均提升 +13.66%。

Learning GUI Grounding with Spatial Reasoning from Visual Feedback

把 GUI grounding 从「一次性预测坐标」改写成「在屏幕上挪鼠标找目标」的交互式搜索,用一个带轨迹惩罚的稠密奖励 + GRPO 训练 VLM,让模型从渲染出来的光标得到视觉反馈来对齐数字坐标与屏幕位置,仅用 8K 样本就在 ScreenSpot-Pro 上把 GTA1 的 50.1% 提到 58.1%。

LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations

作者把"训练阶段就缺模态"的多模态动作质量评估重新建模成"基于 LLM 的条件序列到分数推理"问题,用 prompt + 特殊 token 让 LLM 在没有完整数据监督的情况下补全缺失语义,再配合掩码感知的双路融合抑制幻觉,在三个 AQA 数据集上全面超越依赖完整训练数据的 SOTA。

CSMR (Look on Demand): A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning

CSMR 受 Baddeley 工作记忆理论启发,把"视觉证据何时引入推理"做成动态决策——LLM 维护推理状态,按需调用独立感知模块(VLM)拉视觉证据,直到证据够再终止;解决两大现有范式的缺陷(pre-reasoning 文本化丢细节 / unified VL 空间被语言先验污染),在多个多模态推理基准上零样本超越基线。

MentisOculi: Revealing the Limits of Reasoning with Mental Imagery

作者造了一个程序化、分层难度的多步视觉推理基准 MentisOculi(五个"只能靠脑内成像解"的任务),系统检验前沿模型能否像人一样用"心理意象"辅助推理,结论是目前所有显式视觉策略(潜在 token、生成图像、视频)都无法稳定超越纯文本基线——更尖锐的是,统一多模态模型(UMM)即使被喂入正确的真值可视化也用不起来,暴露出"生成错误"叠加"解释错误"的双重瓶颈。

MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models

提出多模态实体追踪基准 MET-Bench(国际象棋 / 三杯赌 / Minecraft 三个域),让视觉语言模型从文本或图像形式的动作序列里追踪实体状态变化,发现「图像动作」远难于「文本动作」、且差距来自视觉推理而非感知;用 GRPO 强化学习能在单模态内大涨,却几乎无法跨模态迁移。

Native Active Perception as Reasoning for Omni-Modal Understanding

OmniAgent 把长视频理解从「把每一帧都看一遍」的被动范式改成「按查询需要、迭代地去看」的主动感知,用 Observation-Thought-Action 循环在一个原生全模态模型里把音视频线索蒸馏进持久文本记忆、即时丢弃原始媒体,从而让推理代价与视频时长解耦;配合 Agentic SFT 冷启 + 带 TAURA 的 Agentic RL,7B 模型在 LVBench 上 50.5% 反超 10 倍大的 Qwen2.5-VL-72B(47.3%),且推理轮数越多性能越好(正向 test-time scaling)。

Position: The Systemic Lack of Agency in Visual Reasoning

这是一篇立场文(position paper),主张当前 VLM 存在一种系统性的"视觉能动性(visual agency)缺失"——它们能在被明确指向时看清细节,却不会主动去搜寻问题没点名、但解题必需的隐式视觉线索;作者用形式化框架、四象限分类法和专门构造的 V-IRD 基准证明:即便最强的闭源模型,其失败也主要卡在"没去找证据"而非"算不出来"。

R\(^3\)L: Reasoning 3D Layouts from Relative Spatial Relations

R³L 把 MLLM 多跳"相对空间关系"推理的两类系统性误差(语义漂移与度量漂移)归因于"反复发生的参考系变换",并通过不变性空间分解(缩短关系链)、一致性空间想象(imagine-and-revise 循环消除冲突)与支持性空间优化(全局-局部位姿重参数化)三个模块,让 GPT-5 生成的开放词汇 3D 场景在 9 类场景下的碰撞率与越界率都接近 0、语义指标显著反超 LayoutVLM/Holodeck/LayoutGPT。

Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning

针对自我中心视频"单轮推理被相机轨迹困住、只能靠语义先验猜几何"的问题,本文提出免训练的 ReRe 框架:先在原视频上形成空间假设(Reason),再用从 3D 几何渲染出的"斜向俯瞰"新视角视频去验证或修正假设(Re-reason),让开源 MLLM 在 VSI-Bench / STI-Bench 上逼近闭源 SOTA。

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

本文系统揭示了被广泛使用的 VSI-Bench 因 3D 标注漂移与帧采样不一致而存在结构性失效,进而重新标注 381 个场景、5365 个对象,并设计帧预算自适应 QA 与"删除查询对象帧"的 dummy 视频压力测试,构建出名为 ReVSI 的高保真空间智能基准;评估显示开源 VLM 在 ReVSI 上掉点最多 40%,且在 dummy 视频上幻觉率仍高,暴露出现有空间推理能力被 VSI-Bench 系统性高估。

Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning

SpecFlow 把多模态空间推理从"像素思维"切到"谱思维"——用块离散余弦变换 + 流匹配 + 渐进式频率激活在固定大小的谱工作空间里维护可视化中间思想,加上分类器无关引导(CFG)让文本制导视觉演化,在保持空间推理精度的同时把 KV 缓存削减 1.6–2.1×。

Temporal-Aware Reasoning Optimization for Video Temporal Grounding

本文提出 TaRO,针对"视频时序定位(VTG)里 RL 训出的推理华而不实"这个问题,用稠密字幕构造高质量推理轨迹做暖启动,再用"打乱关键帧后推理置信度掉多少"当奖励来衡量推理质量,逼模型真正"用时间思考"。

The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design

本文把"VLM 看不清细节"形式化为一个序贯贝叶斯最优实验设计 (S-BOED) 问题,并基于"覆盖率 × 分辨率"的可计算代理目标提出训练免费的 FOVEA 模块,在高分辨率/遥感等基准上稳定超过 Direct 与 ReAct-style 基线。

Thinking in Structures: Evaluating Spatial Intelligence in Constraint-Governed Spaces

作者构造了 SSI-Bench,一个由 1,000 道排序型 VQA 组成、聚焦"受约束的结构化空间"(屋顶、桥梁、塔架等真实 3D 结构)的基准,要求 VLM 对 3-4 个候选构件按几何或拓扑准则给出完整排列;评测 31 个 VLM 后发现最强闭源模型 Gemini-3-Flash 仅 33.6%、最佳开源 GLM-4.6V 22.2%,而人类 91.6%,揭示当前 VLM 在受几何/连接/物理可行性共同约束的真实 3D 场景下缺乏一致的空间推理能力。

VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

VideoKR 是首个面向「知识与推理密集型视频理解」的大规模后训练语料——它新采集 14.5 万条 CC 许可的专业领域长视频、合成 31.5 万条带 CoT 推理链的 QA,靠「人在回路 + 技能导向」的合成管线保证难度/多样性/可靠性,并配套构建去掉「单帧可答」捷径的 VideoKR-Eval 基准;在标准 SFT→GRPO 流程下,仅靠数据设计就让 7/8B 模型在知识密集视频推理上超过此前后训练方法。

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

本文提出 VaLR:在 MLLM 的 CoT 推理每一步之前插入若干"潜在 token",并用 DINOv3/SigLIP/π³ 等视觉编码器的 patch 特征对这些 token 做表征对齐(REPA),从而在长链推理中持续把视觉信息"喂回"模型,把 Qwen2.5-VL 在 VSI-Bench 上的准确率从 33.0% 拉到 52.9%,并首次让 MLLM 表现出"推理越长越准"的 test-time scaling 行为。

What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity (GLANCE)

GLANCE 在 VLM agent 的强化学习里加了一个"想-看对齐"自监督头:让 LLM 在 CoT 里产出的"下一状态预测"通过一个轻量 projector 映射到由 EMA target 视觉编码器编码的真实下一帧表示,预测与实际之间的差距同时充当内在好奇心奖励、视觉编码器的训练信号、以及让 internalized world model "落地"的对齐损失;再配合周期性重置 projector 的课程探索机制对抗好奇心衰退,最终在 5 个 agentic 任务上稳定超过现有 exploitation-only 的 VLM-RL 方法。