🧠 VLM Reasoning¶

🧪 ICML2026 · 31 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (150) · 🔬 ICLR2026 (112) · 💬 ACL2026 (32) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)

🔥 高频主题： 推理 ×27 · 多模态 ×14 · LLM ×3 · 强化学习 ×2

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding: 把面向 LLM 的「可验证奖励强化学习（RLVR）」搬到视频驱动的 3D 场景理解上：用 GRPO 直接以 3D IoU、F1、准确率等评测指标当奖励来微调一个 4B 的 3D-aware VLM，让训练目标和评测口径对齐，最终在 3D 视频检测、3D 视觉定位、空间推理三类任务上以 4B 参数反超 8B 基线。
3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models: 3ViewSense 认为 VLM 空间推理的瓶颈不是视觉特征不够或语言推理太弱，而是缺少稳定的三维中间表示，因此让模型先从单张图像诱导前视图、左视图、俯视图，再基于这些正交视图推理，在遮挡计数和视角一致空间推理上显著优于同规模 VLM。
Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models: 本文把 VLM 空间推理从“被动看完所有视角再回答”改造成“按问题主动取景、更新认知地图、用可执行空间断言验证推理”的 agentic 流程，并用密集奖励微调 Qwen2.5-VL-3B，在 MindCube-Tiny 上取得 80.5% overall accuracy，尤其把 Rotation 子集提升到 85.0%。
Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning: 本文把 VLM 的输出强制拆成 <recognition> 感知块和 <think> 推理块，再用一个"蒙眼"文本推理代理（拿不到图，只看 VLM 写下的感知文字）能不能答对题作为感知奖励 \(R_P\)，配上结构化语言验证 SVV 作为结果奖励 \(R_O\)；MoCA 用 \(R_P\) 当门控做模态级信用分配，让 7B 模型在 9 个 perception/reasoning/rich-modality benchmark 上同时提升，在多个指标上超过 GPT-4o。
Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners: 针对统一多模态模型 (unified model) 在 anything-to-image (X2I) 任务上的"理解–生成 gap"（看得懂但生不出），本文提出 Self-Adaptive Interleaved Reasoner：用一个 hierarchical 数据合成 pipeline 在直接生成 / 自我反思 / 多步规划三种模式间分流 5 万条样本，再用 SFT + GRPO 训练并配上 step-wise 推理奖励和 intra-group 复杂度惩罚，让 Emu3.5 在 KRIS-Bench / OmniContext 上超越 GPT-4o、Gemini 2.5 Flash 等闭源模型。
Decomposed On-Policy Distillation for Vision-Language Reasoning: Steering Gradients for Visual Grounding: 作者把多模态在线蒸馏的 KL 损失沿贝叶斯链拆成"语言先验"和"视觉接地"两个子目标，发现两者梯度近乎正交、标准蒸馏只是被动取平分，提出 Visual Gradient Steering（VGS）主动把更新方向偏向视觉子空间，在 Qwen3-VL 8B→2B/4B 七个多模态推理基准上平均提升 +2.37%/+1.56%。
Efficient Reasoning with Hidden Thinking: Heima 把多模态 LLM 的冗长 CoT 每个阶段（summary / caption / reasoning）蒸馏成一个特殊 thinking token，让模型在隐空间里"想"，token 数从 100-200 量级降到 13-16 个的同时 zero-shot 准确率反而比 LLaVA-CoT 更稳；配套训练一个 LLM "interpreter"用 thinking token 的 hidden state 重建出文字推理链，从而验证压缩损失的信息论上界。
Find, Fix, Reason: Context Repair for Video Reasoning: 本文针对视频推理中"on-policy RL 在能力天花板停滞、off-policy 蒸馏又会熵塌缩"的两难，引入一个冻结的、工具集成的大教师模型在学生 rollout 失败时插入最小化的"证据补丁" (key-frame 区间、错误类型)，让学生在同一问题上重新作答，并把修复后的轨迹通过 chosen-rollout 机制纳入 GRPO 优化。
From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models: HATCH 受人类空间认知启发，给多模态大模型设计两个互补训练目标——用几何监督让跨视角对应的图像块特征对齐（PaStA），再用强化学习逼模型先生成显式的"换视角动作"再回答（ActoR）——只用 3B 底座就把多图空间推理刷到能和 GPT-5.2 掰手腕的水平。
From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models: 本文指出当前 VLM 后训练过度强调"长链推理"而忽视感知瓶颈，把后训练显式拆成"视觉感知 → 文本推理 → 视觉推理"三个独立阶段，并用 RLVR（而非 caption SFT）单独打磨感知，使 Qwen3-VL-8B 在视觉数学和感知 benchmark 上分别相对基线提升约 +5.9% 和 +1.2%，同时把推理 trace 缩短 20.8%。
From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning: 作者先揭示主流 ToM 数据集被"捷径"污染（不靠真正心智推理、靠虚假相关就能刷到 99%），提出一个轻量审计框架把这些数据集筛掉，再在四个无捷径数据集上系统证明：带显式推理链的强化微调（Thinking-RFT）比 SFT 平均高 6%、在高阶/多模态场景高 10% 左右，且泛化和反事实鲁棒性都更好——因为 RL 教会模型把推理锚定在真正的因果线索上。
Imagination Helps Visual Reasoning, But Not Yet in Latent Space: 本文用因果中介分析把「潜在视觉推理（用 MLLM 隐状态当 latent token 来做视觉想象）」拆成 \(X\to Z\to Y\) 的因果链，实证发现 latent token 既不随输入变化（输入-潜在断连）也几乎不影响答案（潜在-答案断连），从而质疑其必要性，并提出把视觉想象显式写成文本的简单替代法 CapImagine，在视觉感知基准上反超复杂的潜在空间方法。
iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning: 针对“显式视觉 grounding 反而拖累 CoT 推理”这一反直觉现象，作者提出 iVGR——一个双流 GRPO 训练框架，让文本 CoT 和带框 grounded CoT 同时 rollout，并用一致性奖励把高质量 grounded 轨迹的视觉定位能力“内化”进纯文本 CoT，从而在推理时不用输出坐标就能拿到 grounded 推理的收益。
Learn to Think: Improving Multimodal Reasoning through Vision-Aware Self-Improvement Training: VISTA 把多模态大模型的自我改进训练改造成"难题靠 prefix 重采样补样本、伪正例靠视觉注意力分数 (VAS) 过滤"的两段式 pipeline，在 Qwen2.5-VL-3B 上把数学/医学多模态推理平均提升 +13.66%。
Learning GUI Grounding with Spatial Reasoning from Visual Feedback: 把 GUI grounding 从「一次性预测坐标」改写成「在屏幕上挪鼠标找目标」的交互式搜索，用一个带轨迹惩罚的稠密奖励 + GRPO 训练 VLM，让模型从渲染出来的光标得到视觉反馈来对齐数字坐标与屏幕位置，仅用 8K 样本就在 ScreenSpot-Pro 上把 GTA1 的 50.1% 提到 58.1%。
LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations: 作者把"训练阶段就缺模态"的多模态动作质量评估重新建模成"基于 LLM 的条件序列到分数推理"问题，用 prompt + 特殊 token 让 LLM 在没有完整数据监督的情况下补全缺失语义，再配合掩码感知的双路融合抑制幻觉，在三个 AQA 数据集上全面超越依赖完整训练数据的 SOTA。
CSMR (Look on Demand): A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning: CSMR 受 Baddeley 工作记忆理论启发，把"视觉证据何时引入推理"做成动态决策——LLM 维护推理状态，按需调用独立感知模块（VLM）拉视觉证据，直到证据够再终止；解决两大现有范式的缺陷（pre-reasoning 文本化丢细节 / unified VL 空间被语言先验污染），在多个多模态推理基准上零样本超越基线。
MentisOculi: Revealing the Limits of Reasoning with Mental Imagery: 作者造了一个程序化、分层难度的多步视觉推理基准 MentisOculi（五个"只能靠脑内成像解"的任务），系统检验前沿模型能否像人一样用"心理意象"辅助推理，结论是目前所有显式视觉策略（潜在 token、生成图像、视频）都无法稳定超越纯文本基线——更尖锐的是，统一多模态模型（UMM）即使被喂入正确的真值可视化也用不起来，暴露出"生成错误"叠加"解释错误"的双重瓶颈。
MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models: 提出多模态实体追踪基准 MET-Bench（国际象棋 / 三杯赌 / Minecraft 三个域），让视觉语言模型从文本或图像形式的动作序列里追踪实体状态变化，发现「图像动作」远难于「文本动作」、且差距来自视觉推理而非感知；用 GRPO 强化学习能在单模态内大涨，却几乎无法跨模态迁移。
Native Active Perception as Reasoning for Omni-Modal Understanding: OmniAgent 把长视频理解从「把每一帧都看一遍」的被动范式改成「按查询需要、迭代地去看」的主动感知，用 Observation-Thought-Action 循环在一个原生全模态模型里把音视频线索蒸馏进持久文本记忆、即时丢弃原始媒体，从而让推理代价与视频时长解耦；配合 Agentic SFT 冷启 + 带 TAURA 的 Agentic RL，7B 模型在 LVBench 上 50.5% 反超 10 倍大的 Qwen2.5-VL-72B（47.3%），且推理轮数越多性能越好（正向 test-time scaling）。
Position: The Systemic Lack of Agency in Visual Reasoning: 这是一篇立场文（position paper），主张当前 VLM 存在一种系统性的"视觉能动性（visual agency）缺失"——它们能在被明确指向时看清细节，却不会主动去搜寻问题没点名、但解题必需的隐式视觉线索；作者用形式化框架、四象限分类法和专门构造的 V-IRD 基准证明：即便最强的闭源模型，其失败也主要卡在"没去找证据"而非"算不出来"。
R\(^3\)L: Reasoning 3D Layouts from Relative Spatial Relations: R³L 把 MLLM 多跳"相对空间关系"推理的两类系统性误差（语义漂移与度量漂移）归因于"反复发生的参考系变换"，并通过不变性空间分解（缩短关系链）、一致性空间想象（imagine-and-revise 循环消除冲突）与支持性空间优化（全局-局部位姿重参数化）三个模块，让 GPT-5 生成的开放词汇 3D 场景在 9 类场景下的碰撞率与越界率都接近 0、语义指标显著反超 LayoutVLM/Holodeck/LayoutGPT。
Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning: 针对自我中心视频"单轮推理被相机轨迹困住、只能靠语义先验猜几何"的问题，本文提出免训练的 ReRe 框架：先在原视频上形成空间假设（Reason），再用从 3D 几何渲染出的"斜向俯瞰"新视角视频去验证或修正假设（Re-reason），让开源 MLLM 在 VSI-Bench / STI-Bench 上逼近闭源 SOTA。
ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning: 本文系统揭示了被广泛使用的 VSI-Bench 因 3D 标注漂移与帧采样不一致而存在结构性失效，进而重新标注 381 个场景、5365 个对象，并设计帧预算自适应 QA 与"删除查询对象帧"的 dummy 视频压力测试，构建出名为 ReVSI 的高保真空间智能基准；评估显示开源 VLM 在 ReVSI 上掉点最多 40%，且在 dummy 视频上幻觉率仍高，暴露出现有空间推理能力被 VSI-Bench 系统性高估。
Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning: SpecFlow 把多模态空间推理从"像素思维"切到"谱思维"——用块离散余弦变换 + 流匹配 + 渐进式频率激活在固定大小的谱工作空间里维护可视化中间思想，加上分类器无关引导（CFG）让文本制导视觉演化，在保持空间推理精度的同时把 KV 缓存削减 1.6–2.1×。
Temporal-Aware Reasoning Optimization for Video Temporal Grounding: 本文提出 TaRO，针对"视频时序定位（VTG）里 RL 训出的推理华而不实"这个问题，用稠密字幕构造高质量推理轨迹做暖启动，再用"打乱关键帧后推理置信度掉多少"当奖励来衡量推理质量，逼模型真正"用时间思考"。
The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design: 本文把"VLM 看不清细节"形式化为一个序贯贝叶斯最优实验设计 (S-BOED) 问题,并基于"覆盖率 × 分辨率"的可计算代理目标提出训练免费的 FOVEA 模块,在高分辨率/遥感等基准上稳定超过 Direct 与 ReAct-style 基线。
Thinking in Structures: Evaluating Spatial Intelligence in Constraint-Governed Spaces: 作者构造了 SSI-Bench，一个由 1,000 道排序型 VQA 组成、聚焦"受约束的结构化空间"（屋顶、桥梁、塔架等真实 3D 结构）的基准，要求 VLM 对 3-4 个候选构件按几何或拓扑准则给出完整排列；评测 31 个 VLM 后发现最强闭源模型 Gemini-3-Flash 仅 33.6%、最佳开源 GLM-4.6V 22.2%，而人类 91.6%，揭示当前 VLM 在受几何/连接/物理可行性共同约束的真实 3D 场景下缺乏一致的空间推理能力。
VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding: VideoKR 是首个面向「知识与推理密集型视频理解」的大规模后训练语料——它新采集 14.5 万条 CC 许可的专业领域长视频、合成 31.5 万条带 CoT 推理链的 QA，靠「人在回路 + 技能导向」的合成管线保证难度/多样性/可靠性，并配套构建去掉「单帧可答」捷径的 VideoKR-Eval 基准；在标准 SFT→GRPO 流程下，仅靠数据设计就让 7/8B 模型在知识密集视频推理上超过此前后训练方法。
Vision-aligned Latent Reasoning for Multi-modal Large Language Model: 本文提出 VaLR：在 MLLM 的 CoT 推理每一步之前插入若干"潜在 token"，并用 DINOv3/SigLIP/π³ 等视觉编码器的 patch 特征对这些 token 做表征对齐（REPA），从而在长链推理中持续把视觉信息"喂回"模型，把 Qwen2.5-VL 在 VSI-Bench 上的准确率从 33.0% 拉到 52.9%，并首次让 MLLM 表现出"推理越长越准"的 test-time scaling 行为。
What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity (GLANCE): GLANCE 在 VLM agent 的强化学习里加了一个"想-看对齐"自监督头：让 LLM 在 CoT 里产出的"下一状态预测"通过一个轻量 projector 映射到由 EMA target 视觉编码器编码的真实下一帧表示，预测与实际之间的差距同时充当内在好奇心奖励、视觉编码器的训练信号、以及让 internalized world model "落地"的对齐损失；再配合周期性重置 projector 的课程探索机制对抗好奇心衰退，最终在 5 个 agentic 任务上稳定超过现有 exploitation-only 的 VLM-RL 方法。