ICLR2026 VLM Reasoning 论文解读论文笔记推理多模态强化学习 LLM 布局/合成 Agent

🧠 VLM Reasoning¶

🔬 ICLR2026 · 112 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (150) · 💬 ACL2026 (32) · 🧪 ICML2026 (31) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (30) · 📹 ICCV2025 (15)

🔥 高频主题： 推理 ×91 · 多模态 ×52 · 强化学习 ×7 · LLM ×6 · 布局/合成 ×5

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning: AdaReasoner 教多模态大模型（MLLM）在多轮视觉推理中动态编排一组视觉工具——通过"工具冷启动 + 多轮 Tool GRPO"两阶段训练，让 7B 小模型学会自主选用、丢弃和调节工具使用频率，平均涨点 +38.7%，在 VSP 上做到 97.6% 的近满分，反超 GPT-5 与 Claude Sonnet 4。
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks: Agent-X 是一个面向「视觉中心 agent」的大规模评测基准，用 828 个真实多模态任务（图像/多图/视频/指令文本）覆盖 6 类场景，配上一套细粒度的「步级 + 推理链 + 结果」三模评测指标，结果显示连 GPT/Gemini/Qwen 系列最强模型的全链路成功率都不到 50%，暴露出当前大模型在多步视觉推理和工具调用上的硬伤。
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models: AGILE 把"解拼图"重新定义成一个让模型一步步写代码、观察环境反馈的交互过程，再配上可任意扩展的程序化合成数据 + 冷启动 SFT + GRPO 强化学习，把 Qwen2.5-VL-7B 在 2×2 拼图上的准确率从 9.5% 拉到 82.8%，并迁移到 9 个通用视觉基准上平均涨 3.1%。
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping: ARES 用"窗口熵"作为探索触发器、用难度感知的层级熵奖励控制探索深度，让多模态大推理模型在简单题上少想、难题上多想，从而在数学/逻辑/多模态基准上同时提升准确率和推理效率。
AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning: AutoGPS 用一个"多模态形式化器（MPF）+ 演绎符号推理器（DSR）"的神经符号协同框架，把平面几何题先翻译成形式语言、再以超图扩展的方式做严格演绎，最终给出既正确又可逐步追溯的解题过程，在 Geometry3K / PGPS9K 上达到 SOTA，并把人评的逐步逻辑正确率从 MLLM 的 ~71% 提到 99%。
Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks: 本文指出现有医学 VLM 基准只考分类精度、制造了"评测幻觉"，提出"广度—深度"双轴评测框架，并构建神经科深度推理基准 Neural-MedBench（120 个多模态病例、200 个推理任务），实测发现 GPT-5、Claude-4、MedGemma 等顶尖模型在深度推理上集体崩盘，且失败主要源于推理而非感知。
Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs: 受儿童韦氏智力量表启发，把"通用智能"拆成执行、感知推理、学习、记忆、规划五项可测能力，构建了一个含 12 个 2D 网格交互任务、三档难度、可自定义扩展的动态基准 KidGym，系统揭示了当前顶尖 MLLM 在非语义抽象视觉、数量感知、复合能力任务上的明显短板。
CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process: CircuitSense 构建了首个"按工程抽象层级组织、强调从电路图推导符号方程"的多模态大模型基准，用 8,006 道题（人工 curated + 合成生成）系统评测 8 个 MLLM，揭示出闭源模型在感知任务上能超过 85%、但在符号推导上骤降到 19% 以下的根本断层。
CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs: CompoDistill 发现现有多模态大模型（MLLM）知识蒸馏只学会了"视觉识别"却学不会"视觉感知"，根因是师生在视觉理解层上的注意力分布错位；它用一个把学生视觉注意力对齐到教师的 VAT 模块、加一个让学生复用教师 adapter 的 TAF 模块，配合三阶段训练，在组合推理任务上把 2B 学生从 61.5 拉到 66.7（CR 平均），逼近 4B 教师，同时不掉 VQA。
Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning: 这篇论文用一套基于命题逻辑、把事实跨模态拆分的"六种交互模式"评测框架，系统证明了多模态大模型（MLLM）推理的真正瓶颈不在感知而在"整合"——并通过注意力探针和因果干预定位出两个根因：任务组合瓶颈（识别与推理无法在一次前向里联合完成）和融合瓶颈（早期层的模态融合引入偏置），还给出了"两步提示"和"早层注意力升温"两个轻量补救。
Composition-Grounded Data Synthesis for Visual Reasoning: COGS 把少量种子问题拆解成"感知 + 推理"的原子因子，再把这些因子和新图像重新组合成大规模带子问题/中间答案的合成 QA，用因子级过程奖励做强化学习，让 MLLM 在图表、网页等"图像多但标注少"的人工图像域上获得可迁移的复杂推理能力。
CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation: CoPRS 让多模态大模型先用思维链推理、再吐出一个「聚焦 token」，把它转成一张稠密可微的热力图当作位置先验，再用一个轻量解码器把先验细化成分割掩码，从而在 RefCOCO 系列和 ReasonSeg 上做到推理与分割可解释地对齐，并刷出 SOTA。
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning: DeepEyes 让视觉语言模型把"放大看图"变成推理链里的一个内生动作，不靠冷启动 SFT、也不调外部工具，仅用端到端强化学习就让模型学会在思考时主动裁剪、放大关键区域，在 V* 高分辨率基准上把 7B 模型从 71.2% 提到 90.1%。
DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage: 提出 DIVA-GRPO，通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计，解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题，在 7B 规模模型上实现 SOTA 多模态推理性能。
Efficient Multimodal Spatial Reasoning via Dynamic and Asymmetric Routing: 这篇论文提出 DARE，用“跨层+跨hop 的可微分动态路由”对视觉和文本 token 做非对称保留，在多模态空间推理任务上平均减少 40.37% FLOPs 和 46.07% KV-cache，同时多数任务精度不降反升。
Empowering Small VLMs to Think with Dynamic Memorization and Exploration: 提出 DyME（Dynamic Memorize-Explore），通过逐步动态切换 SFT 记忆模式与 GRPO 探索模式，首次赋予小规模视觉语言模型（<1B 参数）在特定任务上的思维推理能力。
Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory: 把经典项目反应理论（IRT）扩展成"模态分解"版本（M2IRT / M3IRT），将 VLM 的能力和题目的难度都拆成「图像-only / 文本-only / 跨模态整合」三部分，从而识别真正需要跨模态推理的题目、剔除只用单模态就能蒙对的 shortcut 题，并用 1%~10% 的小子集就能还原原基准的模型排名。
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning: ExpVid 是首个系统评测多模态大模型（MLLM）理解真实湿实验室实验视频能力的基准，用「细粒度感知→程序理解→科学推理」三级任务层次，揭示当前模型擅长粗粒度识别、却在细节辨识、状态跟踪和「从操作推到科学结论」上严重失分。
FlowGen: Synthesizing Diverse Flowcharts to Enhance and Benchmark MLLM Reasoning: 提出一个可控的流程图合成器 FlowGen，通过七个结构参数 + 四种渲染后端按需"造图"，既能合成海量训练数据把开源 MLLM 的流程图解析能力大幅提升（甚至逼近闭源模型），又能生成一个让 GPT-4o 都做不到 25% F1 的硬核 benchmark。
Fostering Video Reasoning via Next-Event Prediction: 本文提出 Next-Event Prediction (NEP) 这一学习任务——把视频切成"过去/未来"两段，让 MLLM 只看过去帧、预测未来事件的文字描述，用视频自带的未来内容当自监督信号来逼出时序推理能力；并配套构建了 33K 训练集 V1-33K 与评测基准 FutureBench。
FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting: FrameThinker 让视觉语言模型像侦探一样"边想边看长视频"——先稀疏扫一遍，再根据推理需求多轮"放大"到关键片段选帧，用 SFT 学动作语法 + RL 学决策策略，在 LongVideo-Reason 上用平均 20.6 帧（对手 512 帧）达到 76.1% 的新 SOTA。
FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models: 提出 FRIEDA 基准，系统评估大型视觉语言模型在多步骤、跨地图的制图推理能力，发现最强模型 Gemini-2.5-Pro 准确率仅 38.20%，远低于人类 84.87%。
Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning: 把电子游戏的代码反向"蒸馏"成带步骤解析的可验证 VQA 数据（GameQA，30 个游戏 / 158 个任务 / 14 万题），只用游戏数据做 GRPO 强化学习，就能让多个 VLM 在 7 个完全 out-of-domain 的通用视觉推理基准上一致涨点。
Generative Universal Verifier as Multimodal Meta-Reasoner: 这篇论文把“检查视觉结果是否真的满足任务要求”提升为多模态推理系统的基础能力：作者构建 ViVerBench 评测现有 VLM 的视觉验证短板，训练 OmniVerifier-7B 作为生成式通用验证器，并用 OmniVerifier-TTS 在测试时把验证反馈转成多轮图像编辑，从而提升复杂文生图与推理式生成质量。
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning: GIR-Bench 用三个互补子集（理解-生成一致性、推理式文生图、推理式编辑）和一套任务专属、可程序化验证的评测管线，系统量化统一多模态模型「会推理却画不出来」的理解-生成鸿沟，绕开了 MLLM-as-a-Judge 的偏置。
GTR-Bench: Evaluating Geo-Temporal Reasoning in Vision-Language Models: 提出 GTR-Bench，一个面向大规模摄像头网络中移动目标地理时空推理的新基准，评估发现最强模型 Gemini-2.5-Pro（34.9%）远落后于人类水平（78.61%），揭示了当前 VLM 在时空上下文利用失衡、时序预测能力弱、地图-视频对齐能力不足三大缺陷。
InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models: InternSpatial 构建了一个面向 VLM 空间推理的大规模开放数据集与诊断评测集，用统一的数据引擎把单视角、多视角、多场景和多种视觉/文本指令格式组织成 1200 万级 QA，使模型在空间推理基准上显著提升，同时基本不损害通用多模态能力。
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs: IV-Bench 是首个"图像锚定视频感知与推理"基准——用一张外部来源的参考图作为视觉上下文去问视频里的问题，966 个视频配 2,560 条图文 query、13 类任务，结果发现最强 MLLM 也只拿到 28.9% 准确率（人类 88.8%），戳破了当前模型"看图理解视频"能力的虚胖。
JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation: JointAVBench 是首个面向 Omni-LLM 的"音视频强相关"联合推理基准，覆盖 5 个认知维度、4 类音频信号、3 种场景跨度共 15 个任务，用半自动管线从电影里合成 2853 道必须音视频协同才能答对的选择题，最强模型也只到 65.3% 准确率。
JUDO: A Juxtaposed Domain-Oriented Multimodal Reasoner for Industrial Anomaly QA: JUDO 用"并置正常图—缺陷图"做细粒度分割推理、把工业领域知识 SFT 进模型参数、再用多奖励 GRPO 把视觉定位和领域语义统一起来，在 MMAD 基准上以 7B 模型超过 GPT-4o 和 Qwen2.5-VL。
Latent Visual Reasoning: LVR 让多模态大模型不再只在文本空间里"想"，而是用 LLM 的最后隐状态直接在视觉嵌入空间里自回归地重建出与问题相关的视觉语义（"先看后说"），并配合改造版 GRPO 强化学习，在感知密集型 VQA 任务上显著超越"Think about/with Images"两类范式。
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models: Lens 用同一批 3.4K 张当代社交媒体图像配 60K+ 人工问题，构建「感知—理解—推理」三层八任务的统一分布基准，专门量化低层感知对高层推理的协同效应，并提出无需外部工具的自驱动多专家协作框架 SMEC 来提升复杂推理表现。
Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification: 本文发现多模态大语言模型（MLLM）作为 agent 行为验证器时存在严重的"同意偏差"（agreement bias）——系统性地过度认可 agent 行为，并提出 Self-Grounded Verification（SGV）方法，通过两步生成（先提取行为先验、再条件化验证）缓解该偏差，在 web 导航、桌面操作和机器人操控任务中将失败检测率提升最高 25pp、准确率提升 14pp。
LLMs as Rules Oracles: Exploring Real-World Multimodal Reasoning in Tabletop Strategy Game Environments: 本文提出 LudoBench——一个把"真实桌游照片 + 完整规则书 + 情境化问题"配对的多模态游戏理解基准，发现前沿视觉语言模型在新手玩家最基础的"看懂一局新桌游"任务上全面崩盘（感知 63%、规则整合 36%、短时程优化仅 8%），暴露其跨模态规则接地与轻量前向模拟能力的根本缺陷。
Math Blind: Failures in Diagram Understanding Undermine Reasoning in MLLMs: 本文提出诊断基准 MATHEMETRIC 把"感知"从"推理"中剥离出来，揭示当前 MLLM 在数学图示上的基础感知（形状/计数/关系/定位）极差、尤其细粒度定位接近 0，从而"盲信文本"（即 Math Blind）；进而用图结构化的几何感知数据集 GEOMETRIC 训练后，定位任务 +79%，且这种感知增益无需额外 CoT 数据就能迁移到推理，四个公开基准 +3~4%。
MathNet: A Global Multimodal Benchmark for Mathematical Reasoning and Retrieval: MathNet 构建了目前规模最大的奥赛级数学题库（30K+ 道、47 国、17 种语言、跨 40 年官方真题），并首次把"数学感知检索"作为独立任务，配套问题求解、数学检索、检索增强求解三大基准，揭示前沿模型在几何/离散数学与"识别数学等价题"上仍严重受限。
Medical Thinking with Multiple Images: 提出 MedThinkVQA——首个平均每例 6.62 张图、专家标注的多图医学诊断推理基准，并通过三步式"看图思考"监督与超越准确率的步级评测，揭示当下顶级多模态大模型的真正瓶颈不是推理链长度，而是跨视图地"提取-对齐-组合"视觉证据的能力。
MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning: MedVR 把医学 VLM 训练成会"放大看图"的智能体，用熵引导探索（EVR）找出该重新看图的时刻、用多条成功轨迹的共识（CCA）自动造出视觉 grounding 的伪标签，完全不需要任何中间步骤人工标注就在 6 个医学 VQA 基准上拿到 SOTA。
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse: MetaSpatial 把 3D 室内场景布局生成建模成 RL 策略学习问题，提出 3D-SPO 算法——在 GRPO 基础上对坐标 token 注入物理感知的优势调制，并叠加训练期多轮精炼轨迹的折扣回报，让 VLM 无需任何真值标注或后处理就能直接吐出物理合理、格式稳定的 (x,y,z) 布局。
MIMIC-Bench: Exploring the User-Like Thinking and Mimicking Capabilities of Multimodal Large Language Models: 本文从真实社交平台抓取 15 万+ 用户视频构建 MIMIC-Data，并精选 4000 条高互动视频做成 MIMIC-Bench，把对 MLLM 的评测从"视频里发生了什么"转向"人类会怎么想、怎么评论"，还训练了一个能生成以假乱真评论的 MIMIC-Chat。
MindCube: Spatial Mental Modeling from Limited Views: 提出 MindCube 基准（21,154 题 / 3,268 图）系统暴露 VLM 在「有限视角下重建未见空间」上几乎等同随机猜测的缺陷，并通过「先画认知地图、再在地图上推理」（map-then-reason）的 SFT + RL 方案，把 Qwen2.5-VL-3B 的准确率从 37.8% 拉到 61.3%。
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search: Mini-o3 用「难样本数据集 + 多样化冷启动轨迹 + over-turn masking」三件套，把一个只训练到 6 轮交互的 VLM，在推理时自然扩展到数十轮 trial-and-error 探索，复现出 OpenAI o3 式的深度视觉搜索能力并刷新 SOTA。
Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning: 提出 MoVT 范式与 AdaVaR 框架，把"文本推理"和"视觉接地推理"两种模式统一进一个 LVLM，并用改进的 AdaGRPO 算法让模型学会根据题目上下文自适应地选对推理模式，从而在数学、视觉搜索、幻觉、空间推理等多类任务上同时提升。
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization: 本文提出 MM-HELIX「评测—数据—训练」一条龙平台：用程序化生成搭出 42 个需要迭代试错与回溯的多模态难题 Benchmark，配套 SERG 流水线合成 10 万条高质量反思 CoT，并设计 AHPO 单阶段算法把离线专家监督与在线 RL 探索动态融合，让 Qwen2.5-VL-7B 在 MM-HELIX 上提升 +18.6%、在通用数学/逻辑任务上还泛化出 +5.7%。
MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning: 提出 MMR-Life 基准（2646 道 5 选 1 多图选择题，基于 19108 张真实图像，覆盖 7 种推理类型和 21 个任务），首次系统评估 MLLM 在真实生活场景中的多图推理能力，发现最强模型 GPT-5 仅 58.69% 准确率，距人类水平差 14%，并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos: MMR-V 是一个面向"视频深度推理"的评测基准，强调跨长程多帧的证据挖掘与"言外之意"的隐式推理，揭示出当前最强的 Gemini-2.5-pro 也只有 64.3% 准确率，且 CoT 与 test-time scaling 几乎无效。
MMReD: A Cross-Modal Benchmark for Dense Context Reasoning: MMReD 构造了一个「房间-角色」随机演化的视觉序列环境，把长上下文推理从"大海捞针式检索"升级为"必须均匀关注整段上下文"的稠密推理，揭示了从 GPT-4o 到推理专精模型在内的近 30 个 LLM/LVLM 都会随序列变长而系统性崩溃、SFT/GRPO 微调也救不回来。
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models: 论文揭示了多模态推理的"双刃剑"本质——更长的推理虽提升逻辑能力却会因"视觉遗忘"削弱感知 grounding，并提出 VAPO（视觉锚定策略优化），用插入视觉锚点 + 感知奖励的方式把推理拉回视觉证据上，得到新 SOTA 的 VAPO-Thinker-7B。
NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language: NePTune 让 LLM 把自然语言问题翻译成"混合 Python 程序"——命令式控制流 + 软逻辑算子，并用 VLM 在不确定性下对原子概念打分来执行，实现训练-free 却可微调的组合视觉推理。
No Labels, No Problem: Training Visual Reasoners with Multimodal Verifiers: 提出 VALOR：一个完全无需真值标注的视觉推理训练框架，用 LLM 验证器经 RL 提升程序化推理、用 VLM 验证器经硬负样本挖掘提升视觉接地，让一个小的 Qwen3-8B + 视觉专家工具在空间推理上超越开源与闭源大模型。
Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning: ScholScan 提出一种「扫描式（scan-oriented）」学术论文推理新范式——不再给模型预设检索目标，而是让它像审稿人一样通读整篇论文、主动发现内部不一致的科学错误；基于 715 篇真实论文、9 类错误、1800 道题构建多模态基准，评测 15 个模型 / 24 种输入配置后发现：当前最强 MLLM 在所有错误类别上得分都低于 60，RAG 几乎没有帮助，暴露了现有「检索式」范式的系统性短板。
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning: 作者构建了 OCR-Reasoning——首个系统评测多模态大模型「富文本图像推理」能力的基准，包含 1069 条人工标注样本、覆盖 6 大推理能力 / 18 个实际任务，且同时标注最终答案与逐步推理过程；结果显示即便最强的 MLLM 准确率也不超过 50%，暴露出该方向远未被解决。
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models: 基于认知心理学构建OmniSpatial——首个全面空间推理基准，系统覆盖动态推理、复杂空间逻辑、空间交互和透视转换4大维度50个子类别共8.4K人工标注QA对，让o3最强推理模型仅达56.33%而人类达92.63%→揭示复杂空间推理仍是VLM的核心瓶颈。
Perception-Aware Policy Optimization for Multimodal Reasoning: 针对多模态 RLVR 中 67% 的错误其实源于"看不准图"这一被忽视的瓶颈，本文提出 PAPO，在 GRPO/DAPO 的优化目标里加一项"原图 vs 遮挡图"之间的隐式感知 KL 损失（外加双熵正则防崩溃），不需要任何额外标注/奖励模型/教师模型，就在 8 个多模态推理基准上带来 4.4%–17.5% 的整体提升、感知错误下降 30.5%。
Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward: 针对"现有可验证奖励强化学习(RLVR)只奖励答案对错、几乎不改善多模态大模型的视觉感知"这一痛点，本文提出 Perception-R1：从优质 CoT 轨迹里抽取出原子级"视觉标注"作为参考，训练时用一个裁判 LLM 判断模型回答是否如实复述了这些视觉信息，据此给出视觉感知奖励，仅用 1,442 条训练数据就在 8 个多模态数学/通用基准上大幅超越用 20 万条数据训练的 Vision-R1。
Play to Generalize: Learning to Reason Through Game Play: 让一个 7B 多模态大模型用强化学习去玩贪吃蛇和 3D 旋转识别这类街机小游戏，全程不碰任何数学题、公式或图解，模型却能在 MathVista、MMMU 等多模态推理基准上反超那些专门用数学数据训练的同尺寸模型，同时不损失通用视觉能力。
ProxyThinker: Test-Time Guidance Through Small Visual Reasoners: ProxyThinker 提出一种完全免训练的推理时方法：把一个小的「RFT 推理专家」与同尺寸「base 业余模型」的 token 级 logits 差分，按系数 \(\alpha\) 加到大 base 模型的输出 logits 上，就能让 32B/72B 大模型在不更新任何参数的前提下"继承"小模型经强化微调学到的自我验证、自我纠错等慢思考行为，在数学与多学科视觉推理基准上逼近甚至超过同尺寸全量 RFT 模型，并通过 vLLM 异步并行实现做到 38× 加速。
Pursuing Minimal Sufficiency in Spatial Reasoning: 针对 VLM 在 3D 空间推理上既"看不准"又"被冗余信息带偏"的双重瓶颈，本文提出零样本双智能体框架 MSSR：感知智能体用视觉编程主动查询 3D 场景、推理智能体迭代地剪枝并按需补全，最终凑出一个"最小充分集（MSS）"再作答，在 MMSI-Bench 与 ViewSpatial-Bench 上分别比 GPT-4o backbone 提升 +19.2 和 +16.8 个百分点。
PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts: PuzzleWorld 收集了 667 道「解谜马拉松」(puzzlehunt) 风格、没有明确题目定义的多模态谜题，给每道题标注了最终答案、逐步推理轨迹和认知技能标签，结果发现当前最强模型最终答案准确率只有 1–18%，远落后于解谜爱好者，并通过逐步评分和微调实验揭示出模型「短视推理、过度依赖语言、缺乏视觉草稿能力」三大短板。
Read the Room: Video Social Reasoning with Mental-Physical Causal Chains: 本文提出 R3-Bench 评测基准与 R3-FDT 大规模训练集，通过「心理-物理因果链」结构系统评估 LVLM 的视频社会推理能力，揭示了当前顶尖模型与人类水平之间的巨大差距，并证明在 R3-FDT 上微调可显著提升多个基准的社会推理性能。
Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning: RAPID 把多模态大模型（MLLM）的角色重新定位成"感知器"——只负责把图像翻译成文字（查询相关字幕 + 试探性解答），再交给任意一个外部纯文本 LLM 去推理；并用一个名为 VPO 的强化学习算法，用"外部 LLM 最终答对没"来反向优化这些文字，从而让一次训练好的 MLLM 可以即插即用地搭配越来越强的 LLM 持续涨点，无需重做昂贵的视觉-语言对齐。
Reasoning-Driven Multimodal LLM for Domain Generalization: 提出 RD-MLDG——首个将 MLLM 推理链引入域泛化的框架。构建 DomainBed-Reasoning 数据集，系统分析推理监督的两大挑战（优化困难 + 推理模式不匹配），通过 MTCT（多任务交叉训练）与 SARR（自对齐推理正则化）协同解决，在 4 个标准 DG 基准上以 86.89% 的平均准确率大幅超越 GPT-4o（83.46%）和所有 CLIP/ViT 方法。
Reasoning in Space via Grounding in the World: 本文提出 GS-Reasoner，用一个"双路池化"机制把几何特征对齐到图像 patch 级的语义与位置特征上，构造统一的语义-几何混合 3D 表征，让 3D 大模型第一次能在不依赖任何外部检测器/解码器的情况下自回归地做 3D 视觉定位，并以定位结果作为思维链中间步骤来增强空间推理，在 VSI-Bench 等基准上取得 SOTA。
Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks: 提出 Ref-Adv 基准数据集，通过 硬干扰物配对 + LLM 辅助最小充分表达式生成 + 三人一致性人工验证 的流水线，构建了一个消除"定位捷径"的现代 REC 基准，在该基准上 13 个当代 MLLM（包括 GPT-4o、Gemini 2.5、Qwen2.5-VL-72B 等）的准确率从 RefCOCO(+/g) 上的 90%+ 大幅下降至 50-68%，系统暴露了模型在复杂视觉推理和真实定位能力上的严重不足。
ReVisual-R1: Advancing Multimodal Reasoning from Optimized Cold Start to Staged Reinforcement Learning: 这篇论文系统拆解了多模态大模型（MLLM）的推理训练流水线，发现「纯文本高难度冷启动 + 多模态 RL + 文本 RL」三阶段课程才是激活复杂推理的关键，并针对多模态 GRPO 的「梯度停滞」提出 PAD 采样机制，最终让 7B 的 ReVisual-R1 在九个推理基准上拿下开源 SOTA，甚至超过 GPT-4o。
ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis: 针对复杂视频推理缺乏高质量训练数据这一瓶颈，本文用一条多阶段「智能体数据合成」流水线造出 ReWatch 数据集（分级字幕 + 高难度 QA + 重看式 CoT），再用 SFT + 带「观察与推理（O&R）」奖励的 RLVR 把 Qwen2.5-VL-7B 训成 ReWatch-R1，在五个高难视频推理基准上拿下同尺寸 SOTA。
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning: Rex-Thinker把 grounded object referring 从“直接吐框”改写成“先由开放词表检测器给候选框，再由多模态大模型按 Planning-Action-Summarization 逐框推理并可拒识”的任务，在 HumanRef 上同时提升定位准确率、可解释性和无目标表达的拒绝能力。
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy: RIG 把文本推理、低层动作预测和未来画面生成放进同一个自回归 Transformer，并通过逐步构造的 Minecraft 轨迹数据让策略先“想一想、试着想象结果、再修正动作”，在少得多的环境交互数据下同时提升控制、生成和推理表现。
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation: ROVER 提出一个面向统一多模态模型的 reciprocal cross-modal reasoning benchmark，用 1,312 个任务和 1,876 张图像同时考察“语言推理能否约束图像生成”与“视觉中间结果能否帮助文字推理”，并发现当前模型在具象物理视觉推理上有收益、在抽象符号视觉化上仍明显失灵。
SCoT: Teaching 3D-LLMs to Think Spatially with Million-scale CoT Annotations: SCoT 构建了一个 110 万规模的 3D 场景 Chain-of-Thought 数据集，把任务分成感知、分析、规划三个层级，并用场景证据标记 <SI> 约束推理链，让 3D-LLM 在复杂空间分析和规划上更可解释、更忠实，但也提醒简单感知任务不应滥用 CoT。
Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes: 提出 MV-RoboBench，首个整合多视角空间推理与机器人操作执行评测的 benchmark，包含 1.7K 人工标注 QA，揭示当前最强 VLM（GPT-5 仅 56.4%）与人类（91.0%）之间存在巨大差距。
SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models: SketchThinker-R1 用“先把长推理压成草图式推理、再训练 SketchJudge 奖励模型、最后用 GRPO 强化学习”的三阶段流程，让多模态大模型在视觉问答和视觉逻辑/数学/物理推理中少写大量中间推理 token，同时保持甚至提升最终答案准确率。
Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation: 借鉴 Speculative Decoding 的 draft-then-verify 范式提出 Speculative Verdict (SV)，用多个轻量 VLM 生成多样推理路径作为 draft，大模型作为 verdict 综合验证并纠错，在信息密集型 VQA 上无需训练即超过 GPT-4o 达 11.9%，且能修复 47-53% 的少数正确案例。
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward: 提出SophiaVL-R1——在规则基RL训练MLLM推理时引入整体级思维过程奖励：训练Thinking Reward Model从逻辑一致性/冗余度等五维度评估推理质量→提出Trust-GRPO基于正确/错误答案组的思维奖励对比计算可信度权重\(\gamma\)缓解reward hacking→退火策略\(e^{-\text{steps}/T}\)渐减思维奖励使后期更依赖准确的规则奖励→7B模型在MathVista(71.3%)和MMMU(61.3%)等多个基准全面超越LLaVA-OneVision-72B。
SpaCE-Eval: A Benchmark for Real-World Multi-Modal Reasoning: SpaCE-Eval 构建了一个由人类全新绘制图示组成的真实物理空间多模态推理 VQA 基准，用空间推理、常识知识和环境交互三类任务系统检验 MLLM，结果显示当前最强模型在总体准确率和空间推理上都仍远低于人类。
Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models: 提出基于认知科学 2×2 分类法（内在/外在 × 静态/动态）的统一空间推理基准 Spatial-DISE，包含 559 个评估 VQA 对和 12K+ 训练数据，在 32 个 SOTA VLM 上的评测揭示了模型在动态空间推理（尤其是心理旋转和折叠）上与人类的巨大差距。
Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation: 提出 Spatial CAPTCHA，一种基于 3D 空间推理的新型人类验证框架，利用人类与多模态大语言模型在几何推理、视角变换、遮挡处理和心理旋转等任务上的根本性能力差异来区分人与机器，最优 MLLM 仅达 31.0% Pass@1 准确率，远低于人类表现。
Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes: 针对自动驾驶/机器人这类「多摄像头同时看前后左右」的自我中心多视角场景，本文建了第一个户外 3D 空间推理基准 Ego3D-Bench（8.6K QA），并提出一个训练无关、即插即用的框架 Ego3D-VLM：把被问到的物体在 3D 全局坐标里定位、生成一张紧凑的「文字版认知地图」喂给任意 VLM，让多选 QA 平均涨 12%、绝对距离 RMSE 平均降 56%。
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?: 提出SpatiaLab，一个包含1400个视觉QA对的真实场景空间推理基准，涵盖6大类30子类空间任务，支持多选和开放式双格式评估，揭示当前最强VLM（InternVL3.5-72B MCQ 54.93%）与人类（87.57%）之间存在巨大空间推理鸿沟，且开放式设置下差距更大。
SpatialLadder：用渐进式训练为视觉-语言模型构建空间推理能力: 本文提出 SpatialLadder，先用 ScanNet 重建构造覆盖定位/单图/多视角/视频的 26k 空间数据集，再用"感知定位 → 空间理解 → 强化推理"三阶段渐进式训练，把一个 3B 的 Qwen2.5-VL 训成空间推理 SOTA，整体比 base 提升 23.4%，超过 GPT-4o 20.8%。
SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs: 提出 SpinBench，一个以认知科学为基础的诊断性基准测试，通过 7 类渐进式空间推理任务（从物体识别到视角转换）系统评估 37 个 VLMs 的空间理解能力，揭示了模型存在的自我中心偏差、旋转理解薄弱等系统性缺陷。
SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports: SportR 是首个面向"体育规则推理"的多运动大规模多模态基准：用 4,789 张图 + 2,052 段视频、覆盖 5 项球类运动的 50 类犯规与 12 类战术，配上 6,841 条纯人工撰写的思维链（CoT）和精确边界框标注，按"从识别犯规到预测判罚到定位证据"的递进 QA 层级评测 MLLM，结果显示即便 GPT-5 也只能拿到很低的分数，视觉定位 IoU 普遍 <7%。
STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning: STVG-R1 把视频时空 grounding 中难学的逐帧坐标回归改写成“看带编号的视频并回答目标 ID + 时间段”的实例识别问题，再用 GRPO 和任务奖励训练 VLM，在 HCSTVG、ST-Align、MeViS 等多个视频 grounding/segmentation 基准上显著提升空间一致性与跨任务泛化。
Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking: 针对统一视觉语言模型（UVLM）把"理解"和"生成"当成两个并行技能、解题时彼此不互动的问题，本文提出 AD-Loop——让模型在思考过程中交错产出"文本思维（分析）"和"潜在视觉思维（起草）"，并用 SFT + 自适应 RL 两阶段训练，使模型学会按需在两种能力间来回切换，理解平均 +2.3%、GenEval 总分达 86%。
Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models: 本文指出多模态模型在组合推理基准上"接近随机猜测"很大程度是评估指标人为压低造成的假象，提出更忠实的 GroupMatch 指标 + 把它翻译回标准指标的 SimpleMatch，再叠加一个无需外部监督、迭代自训练的 Test-Time Matching（TTM）算法，让 SigLIP-B16 在 MMVP-VLM 上反超 GPT-4.1、GPT-4.1 在 Winoground 上首次超过人类估计水平。
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning: ThinkMorph 提出"文本与图像应当是互补而非同构的思维模态"这一原则，在一个统一多模态模型（Bagel-7B）上用约 24K 条精心构造的交错推理轨迹微调，让模型学会"先文字假设→再具体操作图像→再文字验证"的交错推理，视觉密集任务上平均比基座提升 34.7%，并涌现出训练中未见的视觉操作、自主切换推理模式、测试时扩展更优等高阶多模态智能。
ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding: 提出 ThinkOmni 无训练框架，利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM)，通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号，MathVista 达 70.2%、MMAU 达 75.5%，匹配或超越 RFT 方法。
Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs: 提出 VC-STaR（Visual Contrastive Self-Taught Reasoner），基于"VLM 在对比两张相似图像时看得更准"的观察，设计了一套对比式自改进框架：通过构造对比 VQA 对让模型在对比中生成更忠实的视觉分析，再由 LLM 将对比分析融入推理路径，产出高质量视觉推理数据集 VisCoR-55K，微调后在 MMVP 上提升 5.7%、Hallusion 上提升 3.2%。
Thyme: Think Beyond Images: Thyme 让多模态大模型在推理过程中自主生成并执行代码来完成裁剪、旋转、对比度增强等图像操作和数学计算，通过「50 万 SFT 冷启动 + GRPO-ATS 强化学习」两阶段训练激活这一能力，在近 20 个 benchmark（尤其高分辨率感知与复杂推理）上稳定超过 Qwen2.5-VL 基线。
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning: TimeSearch-R 把长视频里的「时序搜索」重写成一个文本与视频检索交错进行的多轮推理过程，并用一种带「完整性自验证」的 GRPO（GRPO-CSV）做强化学习，让模型自己学会该看哪几帧、看够没看够，在时序搜索、长视频理解、复杂视频推理三类基准上全面超过手工搜索流程和纯文本推理模型。
Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning: TVP 让视觉编程智能体先用基础工具实打实地解题、把高质量程序攒进"经验库"，再从这些真正跑通过的程序里聚类抽象出可复用的高层工具放进"工具库"，形成"程序→工具→更好程序"的闭环；在 Omni3D-Bench 上比 GPT-4o 高 22%、比上一代视觉编程系统高 11%，且抽象出的工具能零样本迁移到未见过的空间推理基准。
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations: 作者提出 STARE 基准，用约 4000 道需要"多步视觉模拟"才能解的空间题（2D/3D 变换、立方体折叠、七巧板、视角与时序推理）系统检验多模态大模型，发现模型在简单 2D 变换上接近人类、但在折叠/七巧板等需要逐步在脑中"想象空间"的任务上掉到接近随机，且无法稳定利用中间视觉步骤——揭示了当前 MLLM 在非语言、序列化视觉模拟能力上的根本缺口。
Unleashing Perception-Time Scaling to Multimodal Reasoning Models: 针对"推理时间扩展（inference-time scaling）只让 LVLM 想得更长、却没让它看得更准"这一现象，本文提出 Perception-Time Scaling（PTS）：把感知本身改写成一段 token 密集、可分解的显式过程（符号化距离 + 逐段累加），再用 SFT 冷启动 + GRPO 强化，把模型在自建感知基准 DisTANCE 上的高精度准确率从 8.0% 拉到 64.7%，并能泛化到域外几何与真实多模态任务。
Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization: 本文提出 Aes-R1 框架，先用自动化数据流水线 AesCoT 蒸馏出五维度美学推理语料做冷启动 SFT，再用同时优化"绝对分数回归 + 相对排序"的强化学习算法 RAPO，让多模态大模型在只用 15K 训练样本的情况下把图像美学评估的平均 PLCC/SRCC 相对 backbone 提升 47.9%/34.8%，超过同规模 SOTA。
VGR: Visual Grounded Reasoning: VGR 让多模态大模型在思考过程中像人一样"回放视觉记忆"——推理时自主框出关键区域并把该区域的高分辨率视觉 token 取回来续接思考，配合一套带 grounding 信号的 VGR-SFT 数据，在仅用 LLaVA-NeXT 30% 视觉 token 的前提下，于 ChartQA、AI2D、MMStar 等细粒度图像理解任务上大幅超过基线。
Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction–Reasoning Synergy: Vid-LLM 只用单目视频作为输入，通过一个让"重建"和"推理"互相增强的 Cross-Task Adapter，把视频里直接重建出的几何先验注入到大语言模型中，在 3D 问答、稠密描述、视觉定位三类任务上达到了接近"吃 3D 点云"模型的水平，却不再需要任何外部点云、深度或位姿输入。
VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning: VideoAnchor 是一个无需训练的测试时插件，它用稀疏子空间聚类从视频或多视角图像 token 中找出跨帧稳定的“视觉锚点”，再把这些锚点转成 Q/K/V 注意力缩放因子，从而缓解 VLM 过度依赖文本先验的问题，并在 VSI-Bench、All-Angles-Bench、SPAR-Bench 和 Video-MME 的空间相关任务上稳定提升多种 MLLM。
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video: VideoMathQA 构建了一个面向真实教学视频的数学推理 benchmark，用 420 个视频问答、2,945 条专家步骤标注和多层评测协议检验模型能否在视频、字幕、语音与数学知识之间做长程、多步、可诊断的推理。
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?: VideoReasonBench 构造了一个以“可见操作 + 部分可见隐状态”为核心的视频复杂推理基准，证明当前多数 MLLM 在细粒度视频感知和多步状态推理上仍然很弱，而更长的 test-time thinking 对这类任务确实有明显帮助。
VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning: VideoZoomer 把长视频推理重构成一个"先扫一眼、再放大"的多轮工具调用任务，让 7B 的 MLLM 在推理过程中自主决定何时、在哪个时间段调用 <video_zoom> 工具抓取高帧率片段，再配合"冷启动 SFT + GRPO 强化学习"两阶段训练，用更小的帧预算在多个长视频理解/推理基准上超过开源模型、部分任务甚至追平闭源系统。
VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL: VidGuard-R1 是首个采用 GRPO（Group Relative Policy Optimization）强化学习微调 MLLM 的视频真伪检测器，通过构建 14 万无快捷方式的真/假视频对数据集，并设计时序伪影奖励和扩散步数质量奖励两种专用奖励机制，在自建数据集上达到 86.17% 准确率，在 GenVidBench 和 GenVideo 基准上实现 95%+ 的 SOTA 零样本检测性能，同时生成可解释的思维链推理。
Vision-SR1: Self-Rewarding Vision-Language Model via Reasoning Decomposition and Multi-Reward Policy Optimization: Vision-SR1 把 VLM 的推理拆成「视觉感知」和「语言推理」两段，让模型先写出一段自洽到脱离原图也能答题的视觉描述，再用同一个 VLM 仅凭这段描述重答来给视觉奖励，并用解耦的多奖励策略优化把两路信号分开回传——无需任何外部视觉监督或额外 GPU，就能缓解视觉幻觉、压住「不看图凭语言先验猜」的捷径行为。
VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning: VisionReasoner 把检测、分割、计数这十类视觉感知任务统一抽象成"多目标认知"问题，用一套统一奖励机制 + GRPO 强化学习训练单一 Qwen2.5-VL 模型，让它在输出结果前先生成结构化推理过程，在 COCO 检测、ReasonSeg 分割、CountBench 计数上相对基线分别提升 29.1% / 22.1% / 13.2%。
VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models: 作者用蒙特卡洛自动标注流水线构建了首个约 40 万条的多模态过程监督数据集 VisualPRM400K，训练出 8B 的多模态过程奖励模型 VisualPRM 作为 Best-of-N 评测中的「裁判」，让 MiniCPM-V、Qwen2.5-VL、InternVL2.5 等不同家族、不同规模的 MLLM 推理能力普遍提升（78B 模型在七个推理基准上 +5.9 分），并配套发布了人工标注的过程评测基准 VisualProcessBench。
VisuLogic：评测多模态大模型视觉推理能力的基准: VisuLogic 构造了一个 1000 题、人工核验、覆盖六大类的纯视觉逻辑推理基准，刻意堵死「把图转成文字再用语言推理」的捷径，结果显示绝大多数顶尖 MLLM 准确率不到 30%（仅略高于 25% 的随机基线、远低于人类 51.4%），并配套提供训练集与强化学习基线。
VisuRiddles: Fine-Grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning: 本文用一个真实谜题基准（VisuRiddles）和一个带结构化感知描述的合成器，系统证明了多模态大模型（MLLM）在抽象视觉推理（AVR）上栽跟头的根因不是推理能力弱，而是细粒度感知缺失；据此提出"先 SFT 补感知、再 GRPO 强推理"的两阶段训练范式 PAVR，让一个 7B 模型在 AVR 上反超 GPT-5、Gemini-2.5-Pro 等商用大模型。
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?: 提出 VLM-SubtleBench，一个评估视觉语言模型在细微差异比较推理能力的基准，覆盖 10 种差异类型和 6 个图像领域（自然、游戏、工业、航空、医学、合成），揭示了 VLM 与人类在空间/时间/视角推理上超过 30% 的性能差距。
VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use: 提出 VTool-R1，首个通过强化学习微调训练 VLM 生成交错文本和视觉中间推理步骤的框架，使模型学会"用图像思考"。
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning: We-Math 2.0 把一套五层、491 个知识点、1819 条原理的「数学知识体系」，和一套以模型为中心的三维难度数据空间（MathBook-Standard/Pro），以及两阶段强化学习（冷启动 SFT + 渐进对齐 RL）串成一个完整系统，只用约 9.8K 训练样本就让 Qwen2.5-VL-7B 在四个主流视觉数学基准上平均提升 6.1 分。
What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging: 针对视觉-语言模型在描述式目标检测里"看不懂否定"（把"戴帽子的人"和"没戴帽子的人"当成同一目标）的肯定偏置问题，本文用一条 CoT+VQA 流水线造出否定密集的 COVAND 数据集，再配上一个在 tokenization 层面把"not + 属性"合并成单一语义单元并放大否定信号的 NegToMe 模块 + 深层交叉注意力 LoRA，仅改 <0.1% 参数就在 OVDEval 的 NMS-AP 上提升最高 +10.8 mAP。
Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum: Wiki-R1 针对知识型 VQA 中“检索噪声大、奖励稀疏、RL 学不到推理”的问题，用可控检索难度生成从易到难的数据课程，再用观测传播挑出最有训练信号的样本，让 Qwen2.5-VL 在 Encyclopedic VQA 和 InfoSeek 上刷新检索增强 KB-VQA 结果。
Zebra-CoT: A Dataset for Interleaved Vision-Language Reasoning: 构建了首个大规模多样化交错文本-图像推理数据集 ZEBRA-COT（182K 条推理轨迹，覆盖 18 个领域），通过脚手架实验证明视觉 CoT 对前沿模型有高达 +43% 的提升潜力，并通过微调让 Anole-7B 和 Bagel-7B 获得内生视觉推理能力。