跳转至

🧠 VLM Reasoning

🧪 ICML2025 · 5 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (150) · 🧪 ICML2026 (31) · 💬 ACL2026 (32) · 🔬 ICLR2026 (30) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30)

🔥 高频主题: 推理 ×5 · 多模态 ×3

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

提出 DiffusionVLA (DiVLA),将自回归 VLM 的推理能力与扩散模型的动作生成能力统一到一个端到端框架中,通过推理注入模块(Reasoning Injection Module)将自生成的语言推理直接嵌入策略学习过程,实现了对未见物体的泛化分类、可解释的动作决策以及高速推理(2B 模型 82Hz)。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出一种可扩展的贝叶斯心智理论(ToM)规划器,通过将多步推理分解为逐步贝叶斯更新,并利用弱到强控制机制将小模型的 ToM 专项能力迁移至大模型(最高 405B),在多模态 ToM 基准上超越 SOTA 4.6%。

Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

提出 RCTS 框架,通过自一致性评估机制构建推理上下文丰富的知识库,并用带启发式奖励的蒙特卡罗树搜索(MCTS-HR)重排检索示例,使 LVLM 在多个 VQA 数据集上显著超越 ICL 和 Vanilla-RAG 方法(平均 +3-4%)。

Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems

系统评估4个闭源+4个开源MLLM在经典合成Bongard Problems、Bongard HOI、Bongard-OpenWorld三个数据集上的抽象视觉推理能力,提出7种解题策略和新数据集Bongard-RWR(用真实图像表达合成BP概念),揭示MLLM在合成BP上的极差表现并非因域差异而是固有的抽象推理局限。

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

从机制可解释性视角研究 VLM 空间推理失败的原因,发现图像 token 虽占输入 90% 但仅获 10% 注意力,且注意力的几何分布才是关键;提出 AdaptVis——基于推理时置信度自适应调整图像注意力温度的无训练解码方法,在 WhatsUp 上实现高达 50% 绝对提升。