🧠 VLM Reasoning¶
📷 CVPR2026 · 150 篇论文解读
📌 同领域跨会议浏览: 🧪 ICML2026 (31) · 💬 ACL2026 (32) · 🔬 ICLR2026 (30) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)
🔥 高频主题: 推理 ×115 · 多模态 ×64 · LLM ×10 · 强化学习 ×6 · 对抗鲁棒 ×4
- A Causal Marriage between VLM and IRM from Understanding to Reasoning
-
本文从 token 级因果表示出发,证明"词表受限的 InfoNCE"与 IRM 的不变性准则在形式上等价,据此提出无需改架构的中训范式 CLIP-IRM 提升 OOD 理解,并把它的不变对齐分数当作过程级奖励喂给 GRPO,把 IRM 的 OOD 保证一路迁移到多模态推理。
- A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning
-
提出 A4VL,一个无训练的多智能体感知-行动联盟框架,通过事件驱动视频分块、线索引导的关键帧选择和多轮智能体协商剪枝机制,在五个视频问答基准上以显著更低的推理延迟全面超越 28 个基线方法。
- Act2See: Emergent Active Visual Perception for Video Reasoning
-
Act2See 通过监督微调,让视频 VLM 在文本 CoT 推理过程中自己决定何时插入一帧画面——要么从原视频里检索一帧真实证据,要么条件式地"想象生成"一帧反事实画面——从而在 VideoEspresso、ViTIB 等 5 个视频推理基准上刷新或超越同尺寸乃至更大的闭源模型。
- Adversarial Style Optimization: Enhancing VLM Jailbreaks by GRPO-based Stylistic Triggers Optimization
-
作者发现 VLM 存在「风格不一致」漏洞——它能看懂任何画风的内容,却会被特定视觉风格触发器轻易绕过安全对齐;据此提出 ASO,用 GRPO 微调一个图像编辑模型,把最优风格叠加到现有对抗图像上,在 4 个 SOTA VLM 上一致提升各类越狱攻击的成功率(ASR)。
- Agentic Video Summarization via Self-Reflecting Multimodal Understanding
-
把视频摘要从"一次性回归每帧重要性分数"改写成一个由 Summarizer / Verifier / Reflector 三个 MLLM 智能体组成的"预测—验证—反思"闭环工作流,让模型像人一样自我修正、找回被漏掉的关键帧,在 SumMe / TVSum 上的 Kendall's τ、Spearman's ρ 全面超过此前 SOTA。
- All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models
-
作者发现 GRPO 训练的 VLM 虽然单次推理更深,却会在训练早期发生"多样性坍缩"、退化成一条主导策略,于是提出 MUPO——把采样回答按推理模式聚类成多个组、组内局部估计优势、组间加多样性奖励,让模型在保持深度的同时维持多种解题策略,在九个推理基准上 acc@1/acc@4 平均提升 2~7%。
- ANTS: Adaptive Negative Textual Space Shaping for OOD Detection via Test-Time MLLM Understanding and Reasoning
-
ANTS 在测试时让多模态大模型(MLLM)"看懂"被缓存下来的疑似 OOD 图像,一路生成「描述性负句」刻画 far-OOD、生成「视觉相似负标签」刻画 near-OOD,再用一个自适应权重把两套负文本空间动态融合,在 ImageNet benchmark 上零样本、免训练地把 FPR95 降了 3.1%,刷新 SOTA。
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
-
ARM-Thinker 把多模态奖励模型从"一次性打分"改造成一个会主动调工具(裁剪放大、文档检索、指令校验)去找证据的 agent,用"先鼓励调工具、再精炼准确率"的两阶段 GRPO 训练,让 7B 模型在奖励建模、think-with-images、通用推理三类基准上分别平均涨 +16.2% / +9.6% / +4.2%,并在奖励/工具基准上追平甚至超过 GPT-4o。
- AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
-
针对多模态大模型"数不清楚"的老毛病,本文一手做了 CG-AV-Counting——首个面向长视频、跨音视频模态、带细粒度"计数线索"标注的可解释计数基准;一手提出 AV-Reasoner,用 GRPO + 课程学习从定位/问答等相关任务里迁移出计数能力,在多个音视频推理基准上刷到 SOTA,但也诚实地指出语言空间里的显式推理在域外几乎没帮助。
- AXG-Reasoner: Error Detection and Explanation in Long Task Videos with Vision-Language Models
-
针对"长任务视频里检测并解释用户操作错误"这一问题,本文用冻结 VLM + 自动构建的「动作执行图(AXG)」+ 时序动作分割,把每个动作段拆成细粒度子动作、只在子动作关键帧上查询 VLM,从而让模型聚焦于稀疏的时空错误线索,在 EgoPER 和 CaptainCook4D 上的错误解释和错误检测均显著超过 VLM 基线并达到 SOTA。
- Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
-
GASP 不再用 3D VQA 数据微调 VLM,而是往 LLM 的每一层 transformer 里塞一个轻量"对应头",用真实视频场景的点对应和深度做深监督,把模型内部"换视图后跨帧匹配"的能力从 <5% 拉到 70%+,在 All-Angles / VSI-Bench 等空间推理 benchmark 上零 3D VQA 训练就涨 18~29%。
- Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
-
这篇论文指出多选题(MCQA)格式会泄露可被模型利用的选项信号、让评测虚高也让 RFT 学到"猜选项"的捷径,提出 ReVeL 框架把 MCQA 按答案类型自动改写成"开放式但仍可规则验证"的 OpenQA,用它改写 20k 样本做 GRPO 微调后开放式准确率提升约 6 个百分点、选择题分数不掉,同时作为评测工具揭示出 MCQA 相对 OpenQA 高达 20 个百分点的分数虚高。
- Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs
-
本文发现 RL(GRPO)微调会逼着轻量级(3B)视频 MLLM 走"感知捷径"而非真推理,于是先训一个专门学捷径的"偏置模型",再用一个把 KL 散度符号反过来的排斥式目标(CDPO)把主模型从偏置模型推开,仅用 1% 数据就在 CLEVRER 上比 GRPO 提升 14.2%。
- Boosting Reasoning in Large Multimodal Models via Activation Replay
-
作者用 logit lens 发现 RLVR 后训练会"过度"扰动多模态大模型的低熵输入激活,进而提出 Activation Replay——一种免训练、测试时通过优化一组可学习视觉 token、把 RLVR 模型的低熵激活拉回 base 模型分布的方法,在数学、o3 式视觉智能体和视频推理上一致涨点。
- BOP-Ask: Object-Interaction Reasoning for Vision-Language Models
-
本文把 6D 物体位姿基准 BOP 自动改造成一个含 150K 图像、33.8M 问答对、覆盖六类技能(位姿/抓取/轨迹/重排/空间/深度)的大规模物体交互推理数据集 BOP-Ask,用它微调开源 VLM 后不仅在自建测试集上大幅超越 GPT-5、Gemini,还能迁移到域外空间推理基准并驱动真实 Franka 机器人完成 10/15 抓放任务。
- Breaking the Regional Perception Bottleneck of Multimodal Large Language Models via External Reasoning Framework
-
本文先剖出多模态大模型(MLLM)做像素级定位(grounding)的真瓶颈不在"看清区域"而在"把区域翻译成坐标"的语义精炼阶段,再用一套基于多模态蒙特卡洛树搜索(MCTS)的外置推理框架 R-Ground,把算力定向投到该阶段,让 7B 模型在 RefCOCO 系列上反超 72B。
- Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection
-
这篇论文提出"把第二张视图(侧视图)当成一种语言模态来用"的范式,配套构建了首个双视图+多模态的安检基准 DualXrayBench 和带
<top>/<side>/<conclusion>思维链监督的 GSXray 数据集,训练出的 GSR 模型在八个跨视图推理任务上整体准确率从 53.5 提到 65.4、mIoU 几乎翻倍。 - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal Reasoning
-
CARE 是一套"以失败为中心"的多模态推理 RLVR 后训练框架:把组内最佳 rollout 当锚点、围绕它挑一小撮"差一点就对"的难负样本做子组内 z-score 归一化并只压制负样本,再对代表性失败做一次结构化反思重采样,把"近似错误"变成监督信号,在 Qwen2.5-VL-7B 上六个可验证视觉推理基准 macro 平均比 GRPO 高 4.62 分。
- CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering
-
CaST-Bench 提出"因果链时空 grounding 视频问答"这一新任务——模型不仅要答对,还要把答案落到一条由时间段 + bounding box 标注的因果证据链上;通过人机协作流水线构建了 1,015 段视频、2,066 道题的高质量数据集,并设计了同时评估答案正确性与证据 grounding 的指标,实测 15 个主流 VLM 表现远低于人类(最佳 50.34% vs 人类 91.89%)。
- Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning
-
本文提出 Chain-of-Frames(CoF),让视频 LLM 在单阶段推理里直接用「Frame-k」这样的帧编号去引用关键帧、把时序定位写进 CoT 文本本身,再用一条低成本数据管线造出 16.4 万条带帧引用的训练样本微调 InternVL,在 5 个视频理解 benchmark 上平均涨 3.8%~5.1%,且发现纯合成数据就能带来显著提升。
- Chain-of-Thought Guided Multi-Modal Object Re-Identification
-
CoT-ReID 让多模态大模型对 RGB/近红外/热红外三模态目标"边看边推理",把推理链文本拆成早期、后期、决策三个层级去引导视觉特征学习,在四个多光谱 ReID 数据集上刷新 SOTA(如 MSVR310 mAP 71.7%)。
- Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts
-
针对子图密集、图例标注繁多的「高信息密度图表」,Chart-FR1 用
<focus>标签把推理步骤显式锚定到 OCR 文本和局部框区域(Focus-CoT),再用带「信息效率奖励 + 自适应 KL 惩罚」的 Focus-GRPO 做强化学习,把 Qwen2.5-VL-7B 在五个图表 benchmark 上平均拉高 6.1%,并反超 GPT-4o。 - ChartR: Evaluating Reasoning Accuracy and Robustness in Chart Question Answering
-
ChartR 把每道图表问答题拆成 4–10 个有依赖关系的子问题、再给每张图配 4 种视觉扰动变体,用 8 个指标同时考"每一步推理对不对"和"扰动下稳不稳",在 12 个 MLLM 上揭示出:整链全对率普遍低于 10%、数值读取是最大瓶颈、且模型严重依赖图中文字标注而非真正的视觉理解。
- CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning
-
CLiViS 把第一人称视频问答拆成"LLM 当规划者、VLM 当感知执行者"的免训练循环,二者共同维护一张会随推理逐步演化的动态认知地图(导航图 + 关系图),用结构化场景表征把细粒度感知和高层推理桥接起来,在 OpenEQA / EgoTempo / EgoSchema 三个 benchmark 上拿到 SOTA。
- CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning
-
提出CodeDance,将可执行代码作为视觉推理的通用求解器——MLLM生成代码来定义、组合和执行多种工具,渲染中间视觉结果(bbox/线/图表)支持可审查的推理链,通过平衡探索与效率的工具调用奖励做RL训练,在RL中涌现出未见过的工具调用组合和跨任务迁移行为,7B模型在计数/视觉搜索/图表QA上超越GPT-4o。
- CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
-
这篇论文发现"会用图思考"的视觉智能体常常答对但工具用得不忠实(裁错区域却蒙对答案),提出 CodeV——把视觉工具表示成可执行 Python 代码、并用 Tool-Aware Policy Optimization (TAPO) 在 GRPO 上加一个只看工具输出、不看思维链的过程级稠密奖励,结果在 10 个基准上保持甚至超越准确率的同时,把忠实工具调用率提升到基线的 1.3–2 倍。
- CogniVerse: Revolutionizing Multi-Modal Retrieval-Augmented Generation with Cognitive Reflection and Geometric Reasoning
-
CogniVerse 把"人脑式反思—检索—综合"三步搬进多模态 RAG:先用一个认知反思模块判断"这题要不要查外部知识、查回来的内容相不相关",再把图文与知识图谱对齐到双曲空间并用谱图理论裁出查询相关子图,最后用最优传输损失生成兼顾局部准确与全局连贯的答案,在三个 MMQA 数据集上准确率、连贯度、检索精度全面超过 MuRAG/MMCoQA/GraphRAG,同时还降低了检索延迟。
- Compositional Transformation Reasoning for Composed Video Retrieval
-
针对"给定参考视频 + 修改文本、检索目标视频"的组合视频检索任务,本文提出零样本框架 MoRe:先用多目标帕累托排序召回一小批高质量候选,再让 MLLM 把视频拆成"实体/动作/场景"三维语义、以两两比较的方式推理哪个候选最符合修改意图,在 EgoCVR / WebVid-CoVR 上 R@1 分别提升 +5.8 / +10.8。
- Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
-
Conan 让 7B 视频多模态大模型像侦探一样工作:先把帧分成证据/上下文/干扰三类,再边推理边决定"取证够了就答、不够就再调帧",靠自建的 Conan-91k 数据集 + 三阶段冷启动 + 联合奖励 RLVR 训出来,六个多步推理基准平均比基座 Qwen2.5-VL-7B 涨 10.5%,多数榜超过 GPT-4o。
- Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR
-
本文提出 Consensus Entropy(CE)——一个免训练、模型无关的指标,用"多个 VLM 对同一张图的 OCR 结果是否收敛"来无监督地判断输出可靠性,并基于它搭出 CE-OCR 框架(共识熵加权集成 + 熵阈值路由到更强模型重写),在 OCRBench 等数据集上把质量验证 F1 比 VLM-as-Judge 提升 42.1%、OCR 准确率提升 8.2% 且只路由 7.3% 样本。
- COT-FM: Cluster-wise Optimal Transport Flow Matching
-
提出 COT-FM,一个即插即用的 Flow Matching 增强框架:通过聚类目标样本、反转预训练模型获取簇级源分布、在簇内近似最优传输,显著拉直传输路径,在不改变模型架构的前提下同时加速采样和提升生成质量。
- CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning
-
提出基于图结构的自动数据生成 pipeline,构建了 CRIT 数据集与 benchmark,用于训练和评测 VLM 在交错图文内容上的跨模态多跳推理能力,训练后的模型在 SPIQA 等多个基准上取得显著提升。
- Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection
-
提出 Phase-wise Decomposition and Alignment (PDA) 框架,利用 LLM 的 CoT 推理能力将动作标签分解为"开始-中间-结束"三个阶段描述,通过文本引导的前景过滤和自适应阶段对齐实现细粒度动作模式迁移,在 THUMOS14 OV-TAD 上 Avg mAP 达 46.9(超越 SOTA Ti-FAD 的 41.2)。
- Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
-
针对化学、地球科学、多模态数学这些缺高质量标注的专业领域,DoGe 把 VLM 的强化学习自进化拆成"认知过程解耦"(先让 Thinker 抛开题目只读上下文做分析、再让它解题)和"数据解耦"(知识池 + 种子题库的迭代课程合成)两条线,用一个两阶段 RL 循环避免合成数据导致的 reward hacking 和熵塌缩,3B/7B 模型在 7 个 benchmark 上平均提升 5.7% / 2.3%。
- Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models
-
本文发现多模态大模型在「想得越多」的 CoT 推理模式下视觉注意力会空间发散、漂离问题相关区域(看得越久、瞄得越偏),并据此提出免训练的 VRGA 框架:用「熵-聚焦」准则自动挑出真正处理视觉的注意力头、定位问题相关区域、再在生成阶段对这些区域加权,从而在不重训模型的前提下恢复视觉接地、降低跑题、提升 VQA 综合得分(跨模型规模 1–6 分)。
- DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models
-
DeepScan 是一个免训练框架,模仿人类"先抓局部线索、再自底向上还原证据"的视觉搜证方式,用层级扫描(Hierarchical Scanning)+ 重聚焦(Refocusing)+ 证据增强推理(Evidence-Enhanced Reasoning)三段流水线把 LVLM 包起来,在 V* bench 上用 Qwen2.5-VL-7B 拿到 90.6% 准确率(比原模型 +16.3%),且无需任何微调即可迁移到不同架构和参数规模。
- DPAD: Discriminative Perception via Anchored Description for Reasoning Segmentation
-
针对推理分割(RS)中RL+GRPO训练的geometric reward无法约束reasoning chain是否聚焦目标unique attributes的问题,提出DPAD方法:MLLM生成reasoning chain+geometric localization+anchored description,引入基于CLIP的Discriminative Perception Reward比较description与ROI/AOI的相似度差异,迫使caption更具判别性从而间接约束推理链聚焦目标,ReasonSeg上cIoU提升3.09%且推理链长度减少42%。
- dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
-
针对统一生成-理解的扩散多模态大模型(dMLLM),用模型自身的图文理解能力当"裁判"(自验证反馈)来给候选图像打分,再配一个由粗到细的分层轨迹搜索,把传统线性搜索 \(O(NT)\) 的测试时缩放降到近线性 \(O(N+T)\),在 GenEval 上把三个 dMLLM 的生成质量显著拉高、并比线性搜索快 5–6 倍。
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
-
提出 DocSeeker,通过 ALR(分析-定位-推理)视觉推理范式和两阶段训练(SFT+EviGRPO)实现长文档理解中的结构化推理和证据定位,仅在短文档上训练即可鲁棒泛化到超长文档。
- Don't Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs
-
给 MLLM 接深度/光流/匹配等视觉工具时,瓶颈不在工具调用次数或模型大小,而在"工具输出怎么喂"——本文提出 Perception Program(P2),把原始稠密像素级工具输出改写成紧凑、结构化、语言原生的符号摘要,免训练、免改架构地插进任意 MLLM,在 BLINK 六个感知任务上平均涨 19.66%,GPT-5 Mini 的多视角推理从 41.35% 飙到 86.47%。
- Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small VLMs
-
系统研究LLM缩放对多模态能力的影响,发现视觉任务而非LLM依赖任务受影响最大,且感知退化与推理退化同等严重;提出Extract+Think方法(视觉提取调优+逐步推理),以0.6B感知+1.7B推理的极小模型超越了12倍大的PrismCaptioner和LLaVA-OneVision-0.5B。
- Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
-
论文指出"把语言推理的 GRPO 训练范式直接搬到视觉感知任务"这个普遍假设并不成立,针对感知任务"需要更宽的输出空间 + 更细更稳的奖励"两个被忽视的特性,提出即插即用的 Dr. Seg:用
<look>标签鼓励广度探索、用分布排名奖励把多个连续指标映射到经验分位数,无需改模型结构就在 6 个分割/检测/计数基准上 5/6 拿到 SOTA。 - EduDiag: A Benchmark for Educational Diagnostic Reasoning with Error Tracing and Correction on Large Multimodal Models
-
EduDiag 构建了首个评测多模态大模型(LMM)"教育诊断推理"能力的基准——给定题目、图像、参考解题过程和一个错误答案,要求模型反向重建导致该错误答案的错误推理链并生成纠正反馈,覆盖常识/科学/数学三域共 8345 条标注,对 24 个主流 LMM 的评测显示连 GPT-5 都做不好,错误追溯是核心瓶颈。
- EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs
-
提出 EgoMind,一种无需几何先验的 CoT 框架,通过角色扮演字幕 (RPC) 和渐进式空间分析 (PSA) 两个核心组件,仅用 5K SFT + 20K RL 样本即可实现多帧空间推理的竞争性能力。
- EgoProx: Evaluating MLLMs on Egocentric 3D Proximity Reasoning Across a Cognitive Hierarchy
-
EgoProx 是第一个评测多模态大模型(MLLM)能否从第一人称视角做"身体—物体"3D 邻近推理的基准:它把任务按人类认知层级组织成 Intention / Exploration / Exploitation / Chain-of-Actions 四类,用一个以 Gemini-2.5-Pro 为大脑、编排多种 3D 工具的 agent 数据引擎自动生成 2405 条高质量 QA,结果显示即便 GPT-5、Gemini-2.5-Pro 也远低于人类水平,但少量指令微调就能大幅解锁模型预训练里"沉睡"的空间知识。
- Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching
-
把"宽基线匹配"(wide-baseline matching, WBM) 当作探测和训练 MLLM 空间推理的试金石:先造出按视角差和匹配粒度分层的 ReasonMatch-Bench(发现最强基线只有 37.2 F1,人类 84.0),再用一条从视频-3D 语料自动抽取可验证对应关系的数据流水线 + DCRL(双层动态课程的可验证奖励 RL),把 Qwen3-VL-8B 在该 benchmark 上从 27.5 拉到 70.5 F1,并迁移到多个空间智能 benchmark 而不损害通用视觉能力。
- EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models
-
提出 EMO-R3,通过结构化情感思维(SET)引导 MLLM 逐步进行情感推理,并设计反思情感奖励(RER)让模型重新评估推理的视觉-文本一致性和情感连贯性,显著提升多模态情感理解的可解释性和准确性。
- EmoThinker: Advancing Visual-Acoustic Emotion Analysis via Structural Token Selection and Chain-of-Thought Reasoning
-
EmoThinker 把视听情感分析从"隐式融合"改造成"显式分步推理":视觉端用结构化 token 选择把人脸聚焦区和文本条件化的背景区分开,音频端用文本引导注意力提炼副语言特征,再配上首个带分步推理链的 CoET 数据集做 LoRA 后训练,在 DFEW 等五个基准上刷到新 SOTA(DFEW 零样本 WAR 提升 10.5%)。
- Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory
-
提出 MM-SafetyBench++ 基准和 EchoSafe 框架,通过推理时维护自反思记忆库来累积安全洞察,使 MLLM 能够根据上下文区分看起来相似但安全意图不同的场景,无需训练即可提升上下文安全性。
- Fast Reasoning Segmentation for Images and Videos
-
FastReasonSeg 把"看图"和"推理"彻底拆开——先用 SAM-2/深度/检测把场景压成结构化的数字孪生 JSON,再让小 LLM 只在这个 JSON 上做多步推理来检索目标 mask;配合"教师生成推理链 → 学生 SFT + RL 双阶段蒸馏",让 0.6B 的小模型在四个图像/视频推理分割基准上反超参数量 20× 的模型,同时跑到 7.79 FPS、只占 2.1GB 显存。
- From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training
-
针对多模态大模型在 RLVR(可验证奖励强化学习)中标注噪声严重的问题,本文提出一个两阶段 token 级熵调度方法:训练前期最大化熵以探索、抵抗对错标签的过拟合并为 GRPO 保住组内多样性,后期最小化熵以利用、固化知识形成自信预测;在 GUI grounding、细粒度分类、开放词表检测三任务和多种噪声比例下都比单一熵方向更鲁棒。
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
-
作者用立体相机+LiDAR+IMU/GPS 采集行人视角户外视频,构建了首个三层(关系/度量/运动)、户外、带精确度量真值的空间智能基准 OSI-Bench(8736 条 QA),并通过盲测、异常场景、几何信息消融三组诊断实验证明:当前 MLLM 在室内基准上的"空间智能"主要靠语言先验撑着,一到开放世界就原形毕露、动态推理几乎全军覆没。
- Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models
-
作者发现推理型多模态大模型内部存在一个随 CoT 推理逐步耗尽的"燃料"信号,用一个仅 8.2 万参数的小网络把它抽出来、再线性外推到"燃料归零"那一步,就能在推理还没结束(甚至刚开始)时提前预测整段 CoT 的长度,并用它做预测式 KV cache 分配(分配次数最多降 13×)和 CoT 长度调控(线性控制准确率)。
- G\(^2\)VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
-
G2VLM 用一个「混合 Transformer 专家(MoT)」架构,把前馈式 3D 重建专家和语义理解专家塞进同一个 VLM 里、靠共享自注意力互相增益,让一个 2B 的模型既能像 VGGT 那样直接预测深度/点云/相机位姿,又能在空间推理任务上反超 GPT-4o(SPAR-Bench 上高 18.5 分)。
- Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning
-
本文提出了一个无需训练的声源定位框架 GAR-SSL,通过将声源定位重新建模为"生成-分析-精炼"的三阶段元认知推理过程,直接利用多模态大语言模型 (MLLM) 的内在推理能力进行音视频定位,在单源和多源定位基准上取得了与训练方法可比甚至更优的性能。
- Geoint-R1: Formalizing Multimodal Geometric Reasoning with Dynamic Auxiliary Constructions
-
Geoint-R1 把"画辅助线 + 形式化证明"做成一个可验证的多模态几何推理任务:用 Lean4 把动态辅助构造编码成形式语言,配一个验证奖励模型(正确性受辅助线对错调制)驱动课程式强化学习,让一个 7B 模型在自建的 Geoint 基准上平均超过 GPT-4o / Gemini-1.5-pro。
- GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models
-
GGBench 提出一个面向统一多模态模型(UMM)的"几何生成推理"评测基准:1,411 道几何作图题,每题严格对齐"自然语言步骤 + 可执行 GeoGebra 代码 + 渲染图"三模态,配套四阶段评测协议,实验发现"端到端出图"的 UMM 远落后于"先写代码再渲染"的 LLM,揭示现有模型"会答题但不会作图"的鸿沟。
- Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning
-
提出 G2F-RAG 范式,将检索到的结构化知识渲染为单帧"推理帧"附加到视频末尾,使大模型在视觉空间内统一推理,避免了文本追加导致的注意力稀释和认知负荷,在 8 个视频基准上实现免训练的一致性提升。
- Grounded Chain-of-Thought for Multimodal Large Language Models
-
提出"接地链式思考(GCoT)"新任务和 MM-GCoT 基准:让多模态大模型在回答前逐步说出推理并给出每一步的坐标依据,再用"答案-接地一致性"指标量化视觉幻觉,结果发现 12 个先进 MLLM 普遍"答对但看错",且幻觉与模型规模无关。
- GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
-
GThinker 针对 MLLM "文本逻辑无懈可击却被错误的初始视觉判断带偏" 的视觉惯性问题,提出一种自由形式、以视觉线索为锚点并能自触发重审线索的 Cue-Rethinking 推理范式,再用"标注流水线 + 裁判引导选择性冷启动 + 激励式 RL"两阶段训练把这套能力灌进 Qwen2.5-VL-7B,在 M3CoT 上达到 81.5% 反超 o4-mini。
- HandVQA: Diagnosing and Improving Fine-Grained Spatial Reasoning about Hands in Vision-Language Models
-
构建了 HandVQA——一个包含 160 万+选择题的大规模诊断性基准,基于 3D 手部关节标注自动生成关于关节角度、距离和相对位置的 VQA 问题,系统暴露了当前 VLM 在细粒度手部空间推理上的严重缺陷,并证明在 HandVQA 上微调后的模型可零样本迁移到手势识别(+10.33%)和手-物交互识别(+2.63%)等下游任务。
- Hear you are: Teaching LLMs Spatial Reasoning with Vision and Spatial Sound
-
论文提出"音视频空间推理"任务,用 SoundSpaces 2.0 仿真合成了含双耳音频 + 360° 全景图的百万级问答数据集 Hear You Are QA,并训练一个把双耳空间音频编码器、全景视觉编码器接到 Qwen2-7B 上的多模态大模型 Hear You Are LLM;在"声音与视觉物体语义不匹配""多个同类物体需靠方位区分"等只能靠空间线索解决的场景上,显著超过只用单声道音频的基线。
- Hierarchical Process Reward Models are Symbolic Vision Learners
-
把"几何图理解"重新定义为一个符号自编码问题——编码器把图解析成点/线/形/关系的逻辑形式(latent 不再是像素向量而是符号图),可执行渲染引擎再把逻辑形式重画回原图,并用一套分层过程奖励(SymHPR)+ 稳定化 GRPO 来监督这条非可微管线,使 7B 模型在几何图重建上 MSE 降 98.2%、感知/推理 benchmark 上分别 +13% / +3%。
- HoneyBee: Data Recipes for Vision-Language Reasoners
-
系统研究视觉语言推理数据集的构建原则——上下文来源策略、数据干预(图像描述辅助信号+纯文本推理)、多维度数据扩展——并据此构建 250 万样本的 HoneyBee CoT 推理数据集,训练的 3B VLM 在 MathVerse 上超越 SOTA 7.8%,同时提出降低 73% 解码成本的测试时扩展策略。
- Improving Vision-language Models with Perception-centric Process Reward Models
-
针对 VLM 强化学习里"只有结果奖励、定位不到错在哪一步"的痛点,本文训练了一个感知中心的过程奖励模型 Perceval,逐条核查推理链里的图文一致性、标出幻觉 token,再把这个信号同时用于训练(token 级优势重分配改造 GRPO)和推理(截断-重生成),在多个视觉推理基准上稳定涨点,并意外地把"感知更准"泛化成了"整体推理更强"。
- Incentivizing Versatile Video Reasoning in MLLMs via Data-Efficient Reinforcement Learning
-
本文提出 VideoReasoner:直接在 Base MLLM(Qwen2-VL-7B-Base)上用 3K 冷启动 + 5K 强化学习共 8K 数据,训练出"事件推理 / 关键帧推理 / 直接回答"三种视频推理能力,再在推理阶段把它们组合成"先定位关键事件与关键帧、再密集采样回灌生成答案"的流水线,在 7 个视频基准上大幅超过 Base 模型,并在多个基准上追平甚至超越用大规模数据训练的 Qwen2.5-VL-7B-Instruct。
- InfiniBench: Infinite Benchmarking for Visual Spatial Reasoning with Customizable Scene Complexity
-
InfiniBench 是一个全自动、可参数化定制的 3D 场景基准"生成器":把自然语言场景描述翻译成物理合理、复杂度可控的逼真视频,从而能针对组合/关系/观测三类复杂度,理论上无限地批量造出 VLM 空间推理评测题,定向暴露模型在不同空间条件下的失败模式。
- IPR-1: Interactive Physical Reasoner
-
IPR 让一个 8B 的 VLM 在 1000+ 款异构游戏里通过"世界模型想象 rollout 打分 → 强化 VLM 策略"的闭环学习物理与因果,并用一套物理中心的潜在动作码 PhysCode 把"语义意图"和"视觉动力学"对齐成预测与推理共享的动作空间,整体竞争力(平均排名)超过 GPT-5。
- Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models
-
SymPL 发现 VLM 做"从场景里某个物体的视角"出发的他者中心(allocentric)空间推理很差,于是免训练地把这类问题先抽取 3D 信息、再用投影/抽象/二分/定位四个因子改写成一张"哪个彩色圆点落在黄色区域"的符号化布局问题,把 VLM 不擅长的视角变换转成它天生擅长的"颜色区域定位",在他者中心与自我中心任务上都大幅涨点。
- Latent Implicit Visual Reasoning
-
LIVR 给大型多模态模型(LMM)加上一组可学习的 latent token,并用一种「视觉瓶颈」注意力掩码强迫答案只能通过这些 token 看图,从而在无需任何中间步骤监督的情况下,让模型自己学出对任务有用的视觉抽象,在 9 个视觉密集任务上稳定超过直接微调(SFT),并在多任务与跨数据集泛化上达到 SOTA。
- Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
-
针对 VLM 普遍不会"动态空间推理"(理解物体在 3D 空间中随时间如何运动/相对关系如何变化)的问题,本文提出 DSR Suite:用视觉基础模型从野外视频自动生成带几何线索的多选问答,构建训练集 DSR-Train 和人工精修的评测基准 DSR-Bench,并设计一个轻量的几何选择模块 GSM(双 Q-Former)把"问题相关"的 3D 先验注入 Qwen2.5-VL-7B,使其在 DSR-Bench 上以 58.9% 大幅超越所有对手(次优 38.4%),同时不牺牲通用视频理解能力。
- Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos
-
本文提出 SynRL:用纯代码程序化生成的合成视频(几何形状的运动/状态变化)教 VLM 学会"时序基元"(方向、速度、状态追踪等),核心发现是这些从抽象合成视频学到的基本时序技能能直接迁移到真实世界视频,仅用约 7.7K 合成 CoT 样本就在 15 个基准上全面提升,甚至胜过 Video-R1 的 165K 真实样本(约 21× 数据效率)。
- Let VLMs Grade Their Own Thoughts: A Self-Quantification Approach to Reasoning-Aware Reward Modeling
-
Video-RAISE 主张让视频 VLM 用自己生成答案时的「内在置信度(答案 token 概率)」给自己的推理链打分,从而把 GRPO 那种稀疏的 0/1 文本匹配奖励变成连续、细粒度的学习信号;针对严格逻辑题和开放题分别设计 SCRE 与 IGSR 两套奖励,在六个视频理解 benchmark 上达到 SOTA 并把推理链一致性做到约 90%。
- LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
-
LongVT 让多模态大模型像人一样"先全局速览、再放大可疑片段"地看长视频——把模型自带的时序定位能力封装成一个原生的
crop_video工具,在推理链中交错调用、反复"再看一眼"以纠错,并配套自建的 VideoSIAH 数据套件与三阶段训练,在四个长视频基准上刷新开源 SOTA。 - Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
-
本文提出 Mirage 框架,让 VLM 在解码时把自己的隐藏状态当作「隐式视觉 token」直接续写进文本序列,从而在不生成任何真实像素图像的前提下进行图文交错的多模态推理;配合「先视觉锚定、再文本放松」的两阶段微调加 RL,在空间规划、拼图、空间关系等多个基准上稳定超越纯文本解码与显式生图的基线。
- Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding
-
针对多模态大模型(MLLM)在多图推理上明显掉点的问题,本文模仿人类认知,把多图推理拆成 Global / Focus / Hint / Think / Answer 五个结构化"元动作"(CINEMA 框架),用"检索式树采样"造两条高质量轨迹做冷启动、再用"多样性保持 + 退火 DAPO"两阶段强化学习防熵塌缩,让 7B 模型在 MUIR、MV-Math 等多图基准上反超 GPT-4o,并在视频与单图任务上同样涨点。
- MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents
-
MindPower提出以机器人为中心的心智理论(ToM)推理框架,将感知→信念→欲望→意图→决策→行动组织为六层推理层级,并用Mind-Reward(基于GRPO)优化推理一致性,在决策和动作生成上分别超过GPT-4o 12.77%和12.49%。
- MINERVA-Cultural: A Benchmark for Cultural and Multilingual Long Video Reasoning
-
提出 MINERVA-Cultural 基准,包含 18 个语种/地区的 2400 个人工标注视频推理问题,通过证据图(evidence graph)和迭代错误隔离策略揭示当前 SOTA Video-LLM 在文化视觉感知上的严重不足(最强模型 Gemini-2.5-Pro 仅 45.07% vs 人类 95.22%)。
- MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation
-
构建了覆盖 14 种非英非中语言的多语言多场景文字图像翻译基准 MMTIT-Bench,并提出 CPR-Trans 数据范式(认知→感知→翻译推理),在 3B 和 7B 模型上显著提升端到端翻译质量,7B 模型达到与 235B 模型竞争的性能。
- MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models
-
将 MoE 中的专家选择建模为序列决策问题,通过 GRPO 强化学习优化路由策略,引入模态感知路由引导,在 VLM 的图像和视频理解任务上一致超越确定性 top-K 路由及其变体。
- Monet: Reasoning in Latent Visual Space Beyond Image and Language
-
Monet 让多模态大模型不再靠裁剪/调外部工具来"看图思考",而是直接在连续的隐视觉空间里生成一串隐嵌入当作"中间视觉想法",用三阶段蒸馏式 SFT 把这种能力教会模型、再用专为隐推理设计的 VLPO 强化学习把隐嵌入也纳入策略梯度,最终 7B 模型在真实感知/推理和分布外抽象视觉推理上都稳定涨点。
- OASIS: On-Demand Hierarchical Event Memory for Streaming Video Reasoning
-
OASIS 把流式视频推理重新定义为"时序路由"问题,用一个在线维护的分层事件森林作为长期记忆,配合"先短上下文粗推理、不确定时再按语义意图精检索"的两阶段策略,在不改 MLLM、不训练的前提下,让多个流式 MLLM backbone 在长程准确率和组合推理上大幅提升,同时把 token 成本压到恒定。
- OneThinker: All-in-one Reasoning Model for Image and Video
-
用一个 8B 模型同时把图像和视频上的 10 类基础视觉任务(问答、描述、时空 grounding、跟踪、分割)统一成「先 think 再结构化输出」的推理范式,靠新提出的 EMA-GRPO 解决多任务 RL 里不同任务奖励量纲/密度差异巨大导致的优化失衡,在 31 个 benchmark 上全面超越同规模专用模型。
- OpenMMReasoner: Pushing the Frontiers in Multimodal Reasoning with an Open and General Recipe
-
OpenMMReasoner 给"如何把开源多模态大模型训成强推理模型"提供了一套全透明、可复现的两阶段配方:先用 874k 高质量蒸馏数据做 SFT 冷启动,再用 74k 数据做 RL(GSPO)打磨,在 Qwen2.5-VL-7B 基础上九个多模态推理基准平均提升 11.6%。
- OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection
-
把开放词表目标检测(OVOD)从"文本与区域的一次性静态匹配"改造成一个无大模型依赖的主动视觉推理过程:用八态弱马尔可夫决策过程(w-MDP)刻画视觉状态转移,用 UCB Bandit 在不确定区域采样推理轨迹,再用 Markov 转移统计联合训练一个轻量奖励-策略模型(RM)形成自演化闭环,在 COCO / LVIS 上稳定提升稀有类检测且推理开销极小。
- PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning
-
针对"把语言域里的置信度增长过程奖励直接搬到视觉语言推理"会因为视觉感知步骤稀疏、被密集文本推理步骤的统计量淹没(mixture-induced signal degradation)的问题,PDCR 用一个模型自带的 Visual Dependence Score + Otsu 阈值把每一步无监督地分成"看图(感知)"和"想(推理)"两簇,再在各自簇内独立做 min-max 归一化算 advantage,从而给稀疏的视觉步骤一个不被文本步骤压扁的、尺度正确的奖励信号,在 7 个 V-L 推理 benchmark 上稳定超过 GRPO/DAPO/PACR。
- Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning
-
针对 RLVR 训练视觉语言模型时「只验证文本答案、放任上游视觉感知出错」的缺陷,PEARL 用一份从原题派生的「感知清单」给每道推理题加一组可验证的感知子问题,把感知奖励既当作直接监督信号、又当作放行推理更新的「保真门控」,从而在 MathVerse 等 6 个多模态推理基准上相对 baseline 平均提升约 +9.7%。
- PhysInOne: Visual Physics Learning and Reasoning in One Suite
-
PhysInOne是一个包含153,810个动态3D场景和200万个标注视频的大规模合成数据集,覆盖力学、光学、流体动力学和磁学的71种基本物理现象,为物理感知的世界模型建立了新基准。
- POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs
-
POINTS-Long 给一个训练好的多模态大模型(MLLM)加装一个"待机模式":用一小撮可学习 token 把整段视觉序列蒸馏成 1/40–1/10 的长度,在长视频理解上保留 97.7%–99.7% 的原始精度,同时完全保留原模型的高保真"专注模式",并借可拆卸 KV Cache 支持超长流式视频,端到端解码吞吐提升最高 6.2×。
- PointThinker: Point-Incentivized Parallel Thinking for Multimodal Large Language Model
-
PointThinker 让多模态大模型(MLLM)在推理时先显式列出图像里的多个"关键点"、再围绕每个点独立展开一条推理路径,从而把并行思维的多样性放大;并配套一种点级密集奖励 RL 方法 GPPO,给同一条思维链里"有用的点"和"无效的点"分配不同奖励,在 HallusionBench 等难基准上把 Qwen2.5-VL-7B 提升 +4~6 个点。
- Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees
-
提出 Proof-of-Perception (PoP),将多模态推理建模为可执行的有向无环图(DAG),每个感知/逻辑节点输出带有保形预测证书的集合值(提供逐步可靠性保证),并用轻量控制器基于这些证书在计算预算内自适应分配算力,在文档、图表和多图QA基准上超越CoT、ReAct和PoT基线。
- Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation
-
针对视觉语言导航(VLN)中智能体"不知道自己走到指令哪一步"的问题,Progress-Think 不再预测数值完成度,而是让模型从历史观测推理出"已完成的那段指令文本",并用一套无需标注的三阶段框架(自监督进度预训练 → 进度引导策略预训练 → 进度-策略联合 RL 微调)把进度推理和动作策略耦合起来,在 R2R-CE / RxR-CE 上仅用单目 RGB 就取得 SOTA。
- Prototypical Action Reasoning Facilitated by Vision-Language Alignment for Egocentric Action Anticipation
-
PAR-VLA 借助视觉-语言模型把动词、名词分别学成"解耦视觉原型"作为稳定语义锚点,把开放、无约束的未来动作预测,转化为由这些语义概念引导的条件预测,并用双流共生解码器细化动名词依赖,在 EPIC-KITCHENS-100 等三个数据集上刷新 SOTA。
- QUANTIPHY: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
-
QUANTIPHY 是首个定量评测 VLM 物理推理能力的基准:给定一段视频和某个物体的单一物理先验(尺寸 / 速度 / 加速度,真实世界单位),要求模型推断目标物体的运动学量的数值,用 3.3K+ 视频-文本实例和数值真值,揭示出当前 VLM「语言上听起来合理、数值上系统性错误」的鸿沟——它们更多依赖预训练世界知识而非忠实使用给定的视觉与文本输入。
- R-4B: Incentivizing General-Purpose Auto-Thinking in MLLMs via Bi-Mode Annealing and Reinforce Learning
-
R-4B 让一个 4B 多模态大模型学会"该思考时才思考":先用 bi-mode 退火把单个 backbone 同时练成"会推理"和"会直答"两种模式,再用 双模式策略优化(BPO)——对每条 query 强制同时采样思考/非思考两组回答并联合优化——只靠简单的数学规则奖励,就在 25 个 benchmark 上取得同规模 SOTA,推理任务追平甚至超过更大的模型,同时大幅省下冗余推理的 token。
- R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning
-
R-C2 把多模态大模型「同一内容、图文两种输入答得不一样」这个模态鸿沟反过来当作免标注的奖励信号:让模型从一个候选答案反推出问题、再切换模态正向重建答案,重建得上就给奖励,用这个稠密的循环一致性信号做 GRPO 强化学习,在 6 个多模态推理基准上最多涨 7.6 个点。
- R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space
-
R4 给冻结的视觉-语言模型外挂一个随时间持续生长的"4D 时空知识库"(语义+三维空间+时间),推理时把自然语言查询拆成语义/空间/时间三把钥匙去检索这块记忆并迭代注入 VLM,从而在不训练任何参数的情况下,让 VLM 能回忆几分钟前看过的物体、推断被遮挡/已消失的实体、并跨智能体协同,在具身问答与导航基准上大幅超越 GPT-5、o3 等强基线。
- Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR
-
作者发现 OCR 模型在公式/表格这类「格式化文本」上的输出熵比纯文本高一个数量级,于是提出 Format Decoupled RL(FD-RL):用熵给样本排序筛出格式密集的难样本,再按文本/公式/表格三类内容各配一套奖励函数做 GRPO 训练,在 OmniDocBench 上拿到端到端模型里很有竞争力的 90.41 分。
- ReaGEN: Adaptive Generation of Structured Chains-of-Thought for Efficient Multimodal Reasoning
-
ReaGEN 不微调视觉语言模型本体,而是用一个仅 18M 参数的轻量生成器,根据每道题的注意力流自适应地"排出"一条结构化思维链(哪几个推理阶段、按什么顺序),从而以单遍推理拿到接近深度搜索的精度——在 Qwen3-VL-4B 上相对 VReST 最高提升 +26 个准确率点,同时把推理 token 用量平均压掉约 53%(部分基准达 79%)。
- ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation
-
ReAlign 先用 GRPO 训出一个会"讲理由"的多模态大模型 AIGI-R1,再把它生成的推理文本作为"桥梁",通过对比学习把推理文本空间蒸馏进一个轻量 CLIP 检测器,让小模型同时继承大模型的跨域泛化和语义错误敏感性,推理时只用图像编码器即可,在 AIGCDetectBenchmark / AIGI-Holmes / 自建 UltraSynth-10k 上都拿到 SOTA(mAcc 96.14% / 99.44% / 97.09%)。
- ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps
-
提出 ReasonMap 基准,利用 30 个城市的高分辨率公交地图构建 1,008 个 QA 对,通过两级评估框架(正确性+质量)系统评估 16 个 MLLM 的细粒度视觉推理能力,发现开源模型中 base 优于 reasoning 而闭源模型相反。
- Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning
-
提出 RLER 双范式框架,训练阶段用 GRPO 配合三种新颖奖励(Frame-sensitive、Think-transparency、Anti-repetition)教模型生成结构化证据,推理阶段用无训练编排器在多候选之间基于证据一致性进行加权选举和自检,在 8 个视频基准上全面超越开源和 RL-based LMM,平均提升 6.3%,仅需约 3.1 个候选。
- Reinforcing Structured Chain-of-Thought for Video Understanding
-
提出 SDRL(Summary-Driven Reinforcement Learning),一种无需 SFT 的单阶段 RL 框架,通过结构化 CoT(Summarize→Think→Answer)和两个自监督机制(CVK 和 DVR)增强视频时序推理,在 7 个 VideoQA 基准上达到 SOTA。
- Reinforcing Video Object Segmentation to Think before it Segments
-
Veason-R1 把"视频推理分割(VRS)"重新建模成「先选关键帧、再在该帧定位目标」的两步序列决策,用思维链 SFT 冷启动 + GRPO 强化学习(配套时序/空间/一致性三类可验证奖励)训练单一策略,仅用 ReVOS 一个数据集就在 ReVOS、ReasonVOS、MeViS 上刷到 SOTA,并显著提升抗幻觉鲁棒性。
- REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding
-
REVISOR 把"文字反思"升级成"视觉反思"——让多模态大模型在初次推理后自己提议一段值得复看的视频区间、调用工具去密集重采样这段画面,再带着新画面二次推理;配合 DADR 双归因解耦奖励逼模型选对片段,在 VideoMME / LongVideoBench / MLVU / LVBench 上把 Qwen2.5-VL-7B 平均提升约 2%。
- RMIR: A Benchmark Dataset for Reasoning-Intensive Multimodal Image Retrieval
-
RMIR 提出一个"看图+读文需要 1-2 步逻辑推理才能找到答案图"的多模态图像检索基准(1,634 条测试查询,覆盖功能/时间/因果三类推理),并配套一条全自动、可扩展的数据生成流水线;评测显示最强模型也只有 46.53% 的 R@20,且带显式推理的生成式 embedding 远胜判别式编码器。
- Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework
-
提出 Self-Critical Inference (SCI) 框架,通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题,并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性,开辟了测试时缩放的新方向。
- See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection
-
ForeSight 给 VLM 配上一套低层视觉工具(Canny / 缩放 / 调色)和一个基于掩码的视觉反思机制,用 GRPO 强化学习让 7B 模型在推理时自主决定"何时调工具、要不要推翻初稿答案",在自建的 Odd-One-Out 显著性定位基准 CG-SalBench 上把 IoU 从 32.56% 拉到 62.24%,逼近 72B 模型。
- See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
-
BiPS 把"该看哪里"的视觉线索从推理期的工具/隐 token 搬到训练期,用一对 KL 约束(向"只留证据"的图靠拢、和"抹掉证据"的图拉开)在 GRPO 框架里塑造 VLM 的感知策略,仅用 13K 图表样本就让 Qwen2.5-VL-7B 在八个 benchmark 上平均涨 7.3%(加 39K 数学数据涨到 8.2%),且推理期零额外开销。
- See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
-
提出 State-aware Reasoning (StaR),通过教会多模态 Agent "感知当前状态→分析目标状态→决定是否操作"的三步推理链,将 GUI 开关控制准确率提升超 30%,同时不损害通用 Agent 任务性能。
- Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
-
提出一种高效的即插即用模块,通过学习多模态类嵌入来增强 VLM 对稀有物体的识别和推理能力:在视觉端用 cross-attention 适配器精化视觉 token,在文本端注入物体检测提示,无需微调 VLM 即可在 CODA-LM 上获得 72.8→75.4 的显著提升。
- Seeing What Matters: A Training-Free Self-Guided Framework for Multimodal Detail Perception and Reasoning
-
SLoFo 模仿人类"扫视-定位-聚焦"的看图过程,不训练、不加模块,仅靠 MLLM 自身的梯度加权注意力(语义分支)和 PCA 重建误差(结构分支)融合出重要性图、裁出关键子图喂回模型,再用逐阶段 token 剪枝抑制无关视觉噪声,在 LLaVA-v1.5-7B 上把 TextVQA 提了 4.79%、DocVQA 提了 12.01%。
- SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation
-
SegCompass 用稀疏自编码器(SAE)把 MLLM 的链式推理(CoT)和视觉 token 投到一个共享的高维稀疏概念空间里,再经码本聚合、槽位映射生成可观察的多槽热力图来引导分割,从而把"推理→分割"这条原本是黑盒/事后拼接的通路改造成可逐步检视的"白盒"对齐,在 5 个基准上达到或超过 SOTA。
- Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
-
针对长视频里"均匀采样把关键证据稀释、现有帧选择又没有纯度奖励"的问题,本文提出 EARL(证据感知强化学习),让 Video LLM 边推理边主动选关键帧、再在关键帧附近做局部重采样补细粒度时序,并用基于 IoU 的多分量奖励逼着模型"少选精选",7B 模型在 LongVideoBench/MVBench/VideoMME 上分别拿到 59.8% / 69.0% / 64.9%,刷新开源 Video LLM 的 SOTA。
- Self-Consistency for LLM-Based Motion Trajectory Generation and Verification
-
将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族,通过在变换不变距离度量下聚类 LLM 采样的多条轨迹,实现无监督的轨迹生成改进(+4-6%)和验证(精度+11.8%),无需训练。
- Self-Critical Distillation Network for Video-based Commonsense Captioning
-
SCD-Net 针对"视频→内容描述→常识"推理链导致的两大问题——常识缺乏视觉接地、各类常识相互孤立——用自批判强化学习强化视觉推理、用联合推理蒸馏框架(教师级联解码器 + 学生 + 语言自适应包装蒸馏)建立类间常识关联,在 V2C 数据集上不依赖 LLM 就超过了 LLM-based 方法。
- SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
-
本文提出 DIRL(双交互式强化学习)——先用"单工具专家 IRL 教师 + 前沿模型全工具教师"混合数据做 SFT 打底,再用全工具集做第二轮交互式 RL 精修——把一个 3B 的 Qwen2.5-VL 训练成会自主调度十余种视觉/机器人工具的空间推理智能体 SpaceTools,在 RoboSpatial、BLINK、BOP-ASK 等基准上全面 SOTA,并能把真实 7-DOF 机械臂当作工具完成抓取放置(86% 成功率)。
- SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
-
提出SpatiaLQA基准(9605个QA对、241个真实室内场景),系统评估41个VLM在空间逻辑推理上的表现,并设计递归场景图辅助推理方法来提升VLM的空间逻辑推理能力。
- SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
-
提出SpatialStack框架,将多视图几何编码器(VGGT)的多层级几何特征逐层注入LLM解码器的不同层(而非仅融合最后一层),通过浅层→细粒度空间感知、深层→高层语义推理的层级对齐,在多个3D空间推理基准上达到开源SOTA。
- Stable and Efficient Single-Rollout RL for Multimodal Reasoning
-
针对多模态 RLVR 中 GRPO 多 rollout 太贵、而单 rollout 又会熵塌缩崩溃的两难,本文提出 MSSR——用 Beta 共轭基线替代分组归一化、再叠加一个"基于熵的优势塑形"机制稳住训练,做到每个样本只采一条轨迹,却能用一半训练步数追平 GRPO,并在 5 个基准上平均超过它 2 个多点。
- StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
-
StaR-KVQA 用同一个开源 MLLM 自己造出「双路符号关系路径 + 路径锚定的自然语言解释」作为结构化推理轨迹,把只监督答案的微调换成监督「推理轨迹 + 答案」的结构感知自蒸馏,在不接任何外部检索的前提下让 OK-VQA 准确率比最强基线高出 +11.3%,同时输出可审计的中间推理。
- STAR-R1: Multi-View Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
-
STAR-R1 用"过程监督 SFT 冷启动 + 指代感知 RL"两阶段训练 Qwen2.5-VL-7B,让模型像人一样先锚定关键参照物、再跨视角对齐重建场景,从而在 TVR、MMSI-Bench、MindCube-Tiny、SPAR-Bench 等多视角空间理解基准上全面超越开源乃至部分闭源模型。
- Streaming Video Crime Anticipation with Spatio-Temporal Causal Reasoning
-
针对"现有监控系统只能事后/事中报警、无法在犯罪发生前预判"的问题,本文做了两件事——构建带时空因果标注的 STCRC 数据集(73K 样本、5 个递进因果推理任务),并设计一个流式协处理器 STCH 把视频里隐式的实体动态转成显式因果超图喂给 VLM,使犯罪分类相对提升 70.7%、检测提升 10.1%、时间预测误差降低 3.7%。
- TableMix: Enhancing Multimodal Table Reasoning in MLLMs from a Data-Centric Perspective
-
针对多模态大模型(MLLM)做表格推理时反而打不过纯文本模型的反常现象,TableMix 从数据角度切入:在每个训练 batch 里同时混入「多模态表格推理 + 纯文本数学推理 + 简单表格感知」三类数据,来同时修复被对齐预训练削弱的推理力、保住视觉感知力,再配一个按难度调奖励的 DRS 机制,最终在 7 个表格基准上既碾压多模态基线、也追平甚至超过最强纯文本方法 Table-R1。
- TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
-
TerraScope 让遥感 VLM 在推理的每一步都生成分割掩码、并把被掩码区域的视觉特征回注到推理链里("用像素思考"),配套 100 万条带像素掩码的 CoT 数据集 Terra-CoT 和首个评估"答案+掩码质量"双指标的 TerraScope-Bench,在地表覆盖率估计、面积排序、变化检测等细粒度地理空间任务上大幅超过现有 VLM。
- Think360: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth
-
本文提出 Think360,一个聚焦于"推理宽度"(即模型在多路径搜索、多约束剪枝、回溯试错等方面的能力)的多模态基准,包含 1200+ 高质量样本,并设计细粒度 Tree-of-Thought 评估协议,揭示当前 MLLM 在宽度方向推理上的显著短板。
- Think Visually, Reason Textually: Vision-Language Synergy in Abstract Reasoning
-
针对 ARC-AGI 抽象推理,作者发现"视觉擅长归纳规则、文本擅长精确执行"这一互补性,提出训练无关的 VLSR(在规则归纳阶段用图、在规则应用阶段用文本)和 MSSC(用视觉验证文本答案做跨模态自纠错),在 GPT-4o / Gemini-2.5-Pro / o4-mini / Qwen3-VL 上平均比纯文本基线提升最高 4.33%。
- Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
-
3DThinker 让 VLM 在推理链里直接吐出一段「3D 隐 token」、并把它对齐到 3D 基础模型 VGGT 的几何特征,从而在不输入任何 3D 先验、不依赖稠密标注的前提下,仅凭有限的几张 2D 视图就能「在脑子里想象 3D 场景」做空间推理;在 8 个空间理解 benchmark 上稳定超越强基线,最大模型甚至压过 o3。
- Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
-
FiNDR 用一个带推理能力的大型多模态模型(LMM)直接为无标签图像"想出"细粒度类名,再用 CLIP 做视觉过滤和模态耦合构造分类器,在 5 个细粒度数据集上把无词表识别推到 SOTA(平均 cACC +9.5%),甚至反超了"用真实类名"的零样本上界。
- Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models
-
首次定量分析扩散多模态LLM (dMLLM)的CoT推理过程,发现"早期回答生成"和"弱视觉依赖"两个关键问题,提出PSP(位置-步骤惩罚)和VRG(视觉推理引导)两种免训练方法,在3倍加速下获得最高7.5%的精度提升。
- Thinking in 360°: Humanoid Visual Search in the Wild
-
论文把"视觉搜索"从静态 2D 图像里的裁剪缩放,升级成人形智能体在 360° 全景里主动转头找物体/找路的具身任务(HVS),用全景图当零硬件的轻量模拟器闭合"感知—动作"环路,配套提出 in-the-wild 基准 H*Bench,并用 SFT+GRPO 两阶段后训练把 3B 开源模型的物体搜索成功率从 14.83% 拉到 47.38%、路径搜索从 6.44% 拉到 24.94%。
- Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World
-
提出 Dyn-Bench——一个面向 4D 物理世界动态理解的大规模基准(1k 视频、7k VQA 对、3k 动态 grounding 对),系统评估了通用/空间/区域级 MLLM 的时空推理能力,发现现有模型无法同时维持推理和 grounding 的一致性,并提出 Mask-Guided Fusion 和 ST-TCM 两种结构化集成方法显著提升动态感知。
- Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding
-
SpecTemp 把"thinking-with-frames"里耗时的帧放大过程外包给一个轻量 3B draft MLLM 去密集采样、挑稀疏关键帧,让 7B target MLLM 只负责时序推理和验证,靠投机—验证迭代循环在 8 个视频 benchmark 上保持甚至提升精度的同时把推理延迟降了约 20%。
- Thinking with Programming Vision: Towards a Unified View for Thinking with Images
-
本文提出 CodeVision,让 MLLM 直接"写代码"作为统一工具接口去操纵图像(旋转、翻转、裁剪、增强……),并用「SFT 冷启动 + 稠密过程奖励 RL」两阶段训练,使模型在被旋转/翻转污染的图像上恢复出健壮的多轮多工具推理能力——在自建的方向变换基准上比基座模型平均提升十几个点,在多工具基准 MVToolBench 上几乎把次优模型的分数翻倍。
- Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning
-
VITAL 给多模态大模型(MLLM)配一个「视频裁剪」工具,让它在推理链中按需把可疑时间段稠密重采样成新帧、形成「多模态思维链」,再用难度感知的 DGRPO 强化学习把多任务训练稳住,从而在长视频问答和时序定位上做到 7B 级别的 SOTA。
- Towards Sparse Video Understanding and Reasoning
-
ReViSe 把视频问答重新建模成"问题驱动的多轮稀疏帧选择"——每轮只挑几帧、把已验证的证据压缩进一个结构化的"摘要即状态"里跨轮传递、足够确信就提前停,既能即插即用包住任何 VLM,也能用免标注奖励 EAGER 做强化微调,在多个 VQA benchmark 上用个位数帧就拿到更高准确率。
- Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
-
ADPO 用一套强化学习目标让同一个 VLM 既生成答案、又给自己打验证分,靠「偏好验证奖励」解决类别不平衡、靠「优势解耦优化」防止 reward hacking,使单模型的 best-of-N 选择在数学/视觉定位/手机 agent 三类任务上都超过传统「生成器+验证器」双模型,同时把推理延迟最多降 53.5%。
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
-
UniT 把语言模型里的"测试时扩展(test-time scaling)"搬到统一多模态模型上:用一个多模型智能体流水线合成"生成→反思→精修"的多轮思维链数据,微调单个统一模型(Bagel),让它在推理时自己迭代地生成、验证、修正图像,并通过"预算强制"控制图像生成轮数,在组合生成、多轮编辑、视觉推理上都拿到显著提升。
- VAST: Video Ability-Stratified Taxonomy for Data-Efficient Video Reasoning
-
VAST 主张按"底层推理能力"而非"任务格式"来组织视频推理训练数据,提出 Perception/Reasoning/Cognition 三层认知 taxonomy 与配套 VAST-15K/VAST-Bench,并用只加一致性奖励、不改架构的 Video-VAST 强化学习框架,在 MVBench 上以 66.3% 超过 Video-R1 的 62.7%,却省下约 72% GPU 时与 96% 训练样本。
- VGent: Visual Grounding via Modular Design for Disentangling Reasoning and Prediction
-
VGent 把视觉定位拆成"高层推理"和"低层框预测"两件事——用一个冻结的多模态大模型(MLLM)当编码器只负责推理、用现成检测器产生候选框、再用一个解码器去 cross-attend 编码器的隐状态来"挑出"目标框,从而避开自回归逐字解码的慢与幻觉,在多目标定位基准上 F1 大涨 +20.6%,同时推理延迟恒定。
- VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
-
VideoARM 提出了一种基于分层多模态记忆(HM3)的 Agent 推理范式,通过"观察-思考-行动-记忆"的自适应循环和粗到细的工具调用策略,在长视频理解基准上超越 SOTA 的同时将 token 消耗降低到 DVD 的 1/34。
- VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
-
提出 VideoAuto-R1,一个"按需推理"的视频理解框架:训练时采用"思考一次、回答两次"(answer→think→answer)范式,推理时通过首次回答的置信度决定是否启动 CoT 推理,在保持 SOTA 精度的同时将平均响应长度从 149 降至 44 token(约 3.3 倍压缩)。
- ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking
-
ViRC 提出 Reason Chunking 机制,将多模态数学 CoT 结构化为连续的"关键推理单元(CRU)",模拟人类专家反复审视图像并逐步证明中间命题的过程,通过 CRUX 数据集和渐进式训练策略(Instructional SFT → Practice SFT → Strategic RL),实现ViRC-7B 在数学基准上平均提升 18.8%。
- VisionLeaf: Entropy-Guided Leaf-First Reasoning for Efficient and Accurate Think-with-Image
-
VisionLeaf 把 think-with-image 的多轮工具调用看成一棵推理树,不再像普通 GRPO 那样从根节点一路单链 rollout 到叶子,而是"叶优先"地在熵最高的节点上分裂出多条分支,从而在不改模型、不改训练数据的前提下,让 Qwen2.5-VL-7B 在 VStar / HR-Bench 上提点约 4.2%,同时把推理工具调用次数砍掉近一半。
- VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
-
VisRes 是一个用纯图像、四选一格式构建的视觉推理基准,把任务按「感知补全 → 单属性规则 → 多属性组合」三个难度层级展开共约 1.9 万道题,发现一旦抽掉语言提示,连 GPT-5、Gemini-2.5 这样的前沿 VLM 在细微扰动下也接近随机水平,暴露出它们的"推理"很大程度是语言先验而非真正的视觉理解。
- Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
-
VACoT 让统一理解-生成模型在做多参考图生成时,先生成一份"该保哪些视觉元素"的视觉清单(Adaptive Visual Planning),再对照清单自我反思、迭代修图(Iterative Visual Correction),并用 SFT + flow-GRPO 双阶段训练把这套"看图自检"能力灌进 BAGEL,在 OmniContext 上平均分从 5.55 提到 8.26,部分子任务超过 GPT-4o。
- VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation
-
VOLD 用一个纯文本的教师 LLM(Qwen3-8B)来训练视觉语言学生模型(Qwen2.5-VL-3B)的推理能力:先用教师生成的推理轨迹做 SFT 冷启动对齐分布,再把 GRPO 强化学习和"在线蒸馏"(reverse KL)合并到同一套 rollout 上联合优化,全程不用任何图文推理数据,却在 MMMU-Pro、MathVision、LogicVista 等四类视觉推理基准上超过了那些直接拿图文数据训练的方法。
- VRR-QA: Visual Relational Reasoning in Videos Beyond Explicit Cues
-
本文提出 VRR-QA 基准,包含 1K 精心标注的视频问答对,专门测试模型对视频中隐式视觉关系的推理能力(如屏幕外事件、跨帧因果、空间关系推断),揭示当前最强 VideoQA 模型(包括 GPT-O3)在隐式推理上的显著不足——最优模型仅达 64% 准确率,远低于人类的 83%。
- When to Think and When to Look: Uncertainty-Guided Lookback
-
本文首次系统分析了 LVLM 中 test-time thinking 对视觉推理的影响,发现"多想不如多看"——长推理链常忽略图像导致"long-wrong"轨迹,并据此提出不确定性引导的 lookback 解码策略,通过在推理链漂移时注入视觉回看提示,在不修改模型的前提下将 MMMU 等 6 个基准提升 2-6 个点。
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
-
MIRA 是一个专为「必须先画出中间图才能推理」的题目设计的多模态基准:546 道横跨几何、物理、抽象谜题、因果变换四大领域的题目都配了人工标注的中间视觉线索,再用「直接输入 / 文字思维链 / 视觉思维链」三级诊断协议把视觉信息的贡献单独剥离出来——结果是连 GPT-5、Gemini 2.5 Pro、o3 在直接输入下都不到 20% 准确率,而喂入人工中间图后平均相对提升 33.7%,证明「画图来想」是当前 MLLM 缺的一项核心能力。