🧠 VLM Reasoning¶
🧪 ICML2026 · 31 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (150) · 💬 ACL2026 (32) · 🔬 ICLR2026 (30) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)
🔥 高频主题: 推理 ×27 · 多模态 ×14 · LLM ×3 · 强化学习 ×2
- 3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
-
把面向 LLM 的「可验证奖励强化学习(RLVR)」搬到视频驱动的 3D 场景理解上:用 GRPO 直接以 3D IoU、F1、准确率等评测指标当奖励来微调一个 4B 的 3D-aware VLM,让训练目标和评测口径对齐,最终在 3D 视频检测、3D 视觉定位、空间推理三类任务上以 4B 参数反超 8B 基线。
- 3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models
-
3ViewSense 认为 VLM 空间推理的瓶颈不是视觉特征不够或语言推理太弱,而是缺少稳定的三维中间表示,因此让模型先从单张图像诱导前视图、左视图、俯视图,再基于这些正交视图推理,在遮挡计数和视角一致空间推理上显著优于同规模 VLM。
- Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models
-
本文把 VLM 空间推理从“被动看完所有视角再回答”改造成“按问题主动取景、更新认知地图、用可执行空间断言验证推理”的 agentic 流程,并用密集奖励微调 Qwen2.5-VL-3B,在 MindCube-Tiny 上取得 80.5% overall accuracy,尤其把 Rotation 子集提升到 85.0%。
- Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning
-
本文把 VLM 的输出强制拆成
<recognition>感知块和<think>推理块,再用一个"蒙眼"文本推理代理(拿不到图,只看 VLM 写下的感知文字)能不能答对题作为感知奖励 \(R_P\),配上结构化语言验证 SVV 作为结果奖励 \(R_O\);MoCA 用 \(R_P\) 当门控做模态级信用分配,让 7B 模型在 9 个 perception/reasoning/rich-modality benchmark 上同时提升,在多个指标上超过 GPT-4o。 - Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners
-
针对统一多模态模型 (unified model) 在 anything-to-image (X2I) 任务上的"理解–生成 gap"(看得懂但生不出),本文提出 Self-Adaptive Interleaved Reasoner:用一个 hierarchical 数据合成 pipeline 在直接生成 / 自我反思 / 多步规划三种模式间分流 5 万条样本,再用 SFT + GRPO 训练并配上 step-wise 推理奖励和 intra-group 复杂度惩罚,让 Emu3.5 在 KRIS-Bench / OmniContext 上超越 GPT-4o、Gemini 2.5 Flash 等闭源模型。
- Decomposed On-Policy Distillation for Vision-Language Reasoning: Steering Gradients for Visual Grounding
-
作者把多模态在线蒸馏的 KL 损失沿贝叶斯链拆成"语言先验"和"视觉接地"两个子目标,发现两者梯度近乎正交、标准蒸馏只是被动取平分,提出 Visual Gradient Steering(VGS)主动把更新方向偏向视觉子空间,在 Qwen3-VL 8B→2B/4B 七个多模态推理基准上平均提升 +2.37%/+1.56%。
- Efficient Reasoning with Hidden Thinking
-
Heima 把多模态 LLM 的冗长 CoT 每个阶段(summary / caption / reasoning)蒸馏成一个特殊 thinking token,让模型在隐空间里"想",token 数从 100-200 量级降到 13-16 个的同时 zero-shot 准确率反而比 LLaVA-CoT 更稳;配套训练一个 LLM "interpreter"用 thinking token 的 hidden state 重建出文字推理链,从而验证压缩损失的信息论上界。
- Find, Fix, Reason: Context Repair for Video Reasoning
-
本文针对视频推理中"on-policy RL 在能力天花板停滞、off-policy 蒸馏又会熵塌缩"的两难,引入一个冻结的、工具集成的大教师模型在学生 rollout 失败时插入最小化的"证据补丁" (key-frame 区间、错误类型),让学生在同一问题上重新作答,并把修复后的轨迹通过 chosen-rollout 机制纳入 GRPO 优化。
- From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models
-
HATCH 受人类空间认知启发,给多模态大模型设计两个互补训练目标——用几何监督让跨视角对应的图像块特征对齐(PaStA),再用强化学习逼模型先生成显式的"换视角动作"再回答(ActoR)——只用 3B 底座就把多图空间推理刷到能和 GPT-5.2 掰手腕的水平。
- From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models
-
本文指出当前 VLM 后训练过度强调"长链推理"而忽视感知瓶颈,把后训练显式拆成"视觉感知 → 文本推理 → 视觉推理"三个独立阶段,并用 RLVR(而非 caption SFT)单独打磨感知,使 Qwen3-VL-8B 在视觉数学和感知 benchmark 上分别相对基线提升约 +5.9% 和 +1.2%,同时把推理 trace 缩短 20.8%。
- From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning
-
作者先揭示主流 ToM 数据集被"捷径"污染(不靠真正心智推理、靠虚假相关就能刷到 99%),提出一个轻量审计框架把这些数据集筛掉,再在四个无捷径数据集上系统证明:带显式推理链的强化微调(Thinking-RFT)比 SFT 平均高 6%、在高阶/多模态场景高 10% 左右,且泛化和反事实鲁棒性都更好——因为 RL 教会模型把推理锚定在真正的因果线索上。
- Imagination Helps Visual Reasoning, But Not Yet in Latent Space
-
本文用因果中介分析把「潜在视觉推理(用 MLLM 隐状态当 latent token 来做视觉想象)」拆成 \(X\to Z\to Y\) 的因果链,实证发现 latent token 既不随输入变化(输入-潜在断连)也几乎不影响答案(潜在-答案断连),从而质疑其必要性,并提出把视觉想象显式写成文本的简单替代法 CapImagine,在视觉感知基准上反超复杂的潜在空间方法。
- iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning
-
针对“显式视觉 grounding 反而拖累 CoT 推理”这一反直觉现象,作者提出 iVGR——一个双流 GRPO 训练框架,让文本 CoT 和带框 grounded CoT 同时 rollout,并用一致性奖励把高质量 grounded 轨迹的视觉定位能力“内化”进纯文本 CoT,从而在推理时不用输出坐标就能拿到 grounded 推理的收益。
- Learn to Think: Improving Multimodal Reasoning through Vision-Aware Self-Improvement Training
-
VISTA 把多模态大模型的自我改进训练改造成"难题靠 prefix 重采样补样本、伪正例靠视觉注意力分数 (VAS) 过滤"的两段式 pipeline,在 Qwen2.5-VL-3B 上把数学/医学多模态推理平均提升 +13.66%。
- Learning GUI Grounding with Spatial Reasoning from Visual Feedback
-
把 GUI grounding 从「一次性预测坐标」改写成「在屏幕上挪鼠标找目标」的交互式搜索,用一个带轨迹惩罚的稠密奖励 + GRPO 训练 VLM,让模型从渲染出来的光标得到视觉反馈来对齐数字坐标与屏幕位置,仅用 8K 样本就在 ScreenSpot-Pro 上把 GTA1 的 50.1% 提到 58.1%。
- LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations
-
作者把"训练阶段就缺模态"的多模态动作质量评估重新建模成"基于 LLM 的条件序列到分数推理"问题,用 prompt + 特殊 token 让 LLM 在没有完整数据监督的情况下补全缺失语义,再配合掩码感知的双路融合抑制幻觉,在三个 AQA 数据集上全面超越依赖完整训练数据的 SOTA。
- CSMR (Look on Demand): A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning
-
CSMR 受 Baddeley 工作记忆理论启发,把"视觉证据何时引入推理"做成动态决策——LLM 维护推理状态,按需调用独立感知模块(VLM)拉视觉证据,直到证据够再终止;解决两大现有范式的缺陷(pre-reasoning 文本化丢细节 / unified VL 空间被语言先验污染),在多个多模态推理基准上零样本超越基线。
- MentisOculi: Revealing the Limits of Reasoning with Mental Imagery
-
作者造了一个程序化、分层难度的多步视觉推理基准 MentisOculi(五个"只能靠脑内成像解"的任务),系统检验前沿模型能否像人一样用"心理意象"辅助推理,结论是目前所有显式视觉策略(潜在 token、生成图像、视频)都无法稳定超越纯文本基线——更尖锐的是,统一多模态模型(UMM)即使被喂入正确的真值可视化也用不起来,暴露出"生成错误"叠加"解释错误"的双重瓶颈。
- MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models
-
提出多模态实体追踪基准 MET-Bench(国际象棋 / 三杯赌 / Minecraft 三个域),让视觉语言模型从文本或图像形式的动作序列里追踪实体状态变化,发现「图像动作」远难于「文本动作」、且差距来自视觉推理而非感知;用 GRPO 强化学习能在单模态内大涨,却几乎无法跨模态迁移。
- Native Active Perception as Reasoning for Omni-Modal Understanding
-
OmniAgent 把长视频理解从「把每一帧都看一遍」的被动范式改成「按查询需要、迭代地去看」的主动感知,用 Observation-Thought-Action 循环在一个原生全模态模型里把音视频线索蒸馏进持久文本记忆、即时丢弃原始媒体,从而让推理代价与视频时长解耦;配合 Agentic SFT 冷启 + 带 TAURA 的 Agentic RL,7B 模型在 LVBench 上 50.5% 反超 10 倍大的 Qwen2.5-VL-72B(47.3%),且推理轮数越多性能越好(正向 test-time scaling)。
- Position: The Systemic Lack of Agency in Visual Reasoning
-
这是一篇立场文(position paper),主张当前 VLM 存在一种系统性的"视觉能动性(visual agency)缺失"——它们能在被明确指向时看清细节,却不会主动去搜寻问题没点名、但解题必需的隐式视觉线索;作者用形式化框架、四象限分类法和专门构造的 V-IRD 基准证明:即便最强的闭源模型,其失败也主要卡在"没去找证据"而非"算不出来"。
- R\(^3\)L: Reasoning 3D Layouts from Relative Spatial Relations
-
R³L 把 MLLM 多跳"相对空间关系"推理的两类系统性误差(语义漂移与度量漂移)归因于"反复发生的参考系变换",并通过不变性空间分解(缩短关系链)、一致性空间想象(imagine-and-revise 循环消除冲突)与支持性空间优化(全局-局部位姿重参数化)三个模块,让 GPT-5 生成的开放词汇 3D 场景在 9 类场景下的碰撞率与越界率都接近 0、语义指标显著反超 LayoutVLM/Holodeck/LayoutGPT。
- Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning
-
针对自我中心视频"单轮推理被相机轨迹困住、只能靠语义先验猜几何"的问题,本文提出免训练的 ReRe 框架:先在原视频上形成空间假设(Reason),再用从 3D 几何渲染出的"斜向俯瞰"新视角视频去验证或修正假设(Re-reason),让开源 MLLM 在 VSI-Bench / STI-Bench 上逼近闭源 SOTA。
- ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning
-
本文系统揭示了被广泛使用的 VSI-Bench 因 3D 标注漂移与帧采样不一致而存在结构性失效,进而重新标注 381 个场景、5365 个对象,并设计帧预算自适应 QA 与"删除查询对象帧"的 dummy 视频压力测试,构建出名为 ReVSI 的高保真空间智能基准;评估显示开源 VLM 在 ReVSI 上掉点最多 40%,且在 dummy 视频上幻觉率仍高,暴露出现有空间推理能力被 VSI-Bench 系统性高估。
- Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning
-
SpecFlow 把多模态空间推理从"像素思维"切到"谱思维"——用块离散余弦变换 + 流匹配 + 渐进式频率激活在固定大小的谱工作空间里维护可视化中间思想,加上分类器无关引导(CFG)让文本制导视觉演化,在保持空间推理精度的同时把 KV 缓存削减 1.6–2.1×。
- Temporal-Aware Reasoning Optimization for Video Temporal Grounding
-
本文提出 TaRO,针对"视频时序定位(VTG)里 RL 训出的推理华而不实"这个问题,用稠密字幕构造高质量推理轨迹做暖启动,再用"打乱关键帧后推理置信度掉多少"当奖励来衡量推理质量,逼模型真正"用时间思考"。
- The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design
-
本文把"VLM 看不清细节"形式化为一个序贯贝叶斯最优实验设计 (S-BOED) 问题,并基于"覆盖率 × 分辨率"的可计算代理目标提出训练免费的 FOVEA 模块,在高分辨率/遥感等基准上稳定超过 Direct 与 ReAct-style 基线。
- Thinking in Structures: Evaluating Spatial Intelligence in Constraint-Governed Spaces
-
作者构造了 SSI-Bench,一个由 1,000 道排序型 VQA 组成、聚焦"受约束的结构化空间"(屋顶、桥梁、塔架等真实 3D 结构)的基准,要求 VLM 对 3-4 个候选构件按几何或拓扑准则给出完整排列;评测 31 个 VLM 后发现最强闭源模型 Gemini-3-Flash 仅 33.6%、最佳开源 GLM-4.6V 22.2%,而人类 91.6%,揭示当前 VLM 在受几何/连接/物理可行性共同约束的真实 3D 场景下缺乏一致的空间推理能力。
- VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding
-
VideoKR 是首个面向「知识与推理密集型视频理解」的大规模后训练语料——它新采集 14.5 万条 CC 许可的专业领域长视频、合成 31.5 万条带 CoT 推理链的 QA,靠「人在回路 + 技能导向」的合成管线保证难度/多样性/可靠性,并配套构建去掉「单帧可答」捷径的 VideoKR-Eval 基准;在标准 SFT→GRPO 流程下,仅靠数据设计就让 7/8B 模型在知识密集视频推理上超过此前后训练方法。
- Vision-aligned Latent Reasoning for Multi-modal Large Language Model
-
本文提出 VaLR:在 MLLM 的 CoT 推理每一步之前插入若干"潜在 token",并用 DINOv3/SigLIP/π³ 等视觉编码器的 patch 特征对这些 token 做表征对齐(REPA),从而在长链推理中持续把视觉信息"喂回"模型,把 Qwen2.5-VL 在 VSI-Bench 上的准确率从 33.0% 拉到 52.9%,并首次让 MLLM 表现出"推理越长越准"的 test-time scaling 行为。
- What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity (GLANCE)
-
GLANCE 在 VLM agent 的强化学习里加了一个"想-看对齐"自监督头:让 LLM 在 CoT 里产出的"下一状态预测"通过一个轻量 projector 映射到由 EMA target 视觉编码器编码的真实下一帧表示,预测与实际之间的差距同时充当内在好奇心奖励、视觉编码器的训练信号、以及让 internalized world model "落地"的对齐损失;再配合周期性重置 projector 的课程探索机制对抗好奇心衰退,最终在 5 个 agentic 任务上稳定超过现有 exploitation-only 的 VLM-RL 方法。