跳转至

💡 LLM 推理

📷 CVPR2026 · 16 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (37) · 🔬 ICLR2026 (71) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (67) · 📹 ICCV2025 (3) · 🧪 ICML2025 (17)

🔥 高频主题: 推理 ×13 · 多模态 ×3 · 人脸/视线 ×2 · 少样本学习 ×2

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

提出"艺术视差合成"新范式(Art3D),将2D-to-3D转换目标从几何精度转向艺术表达,通过双路径架构解耦全局深度风格与局部艺术效果,从专业3D电影数据中学习导演意图。

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

构建首个面向中文电商海报的多维度质量评估框架 E-comIQ-ZH,包含18K专家标注数据集(含CoT推理链)、专用评估模型 E-comIQ-M(SFT+GRPO训练)和标准化基准 E-comIQ-Bench。

EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence

提出EagleVision双阶段框架,宏观感知阶段用语义-视角融合DPP(SPF-DPP)在SE(3)空间联合优化语义相关性和视角多样性选择关键帧,微观验证阶段让模型在BEV平面上主动查询新视角帧进行迭代空间CoT推理(假设→查看→验证闭环),查询策略纯RL训练无需人工标注,在VSI-Bench和SQA3D上达开源SOTA。

FaceCoT: Harnessing Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing

构建了首个面向人脸反欺骗(FAS)的大规模 VQA 数据集 FaceCoT(108 万样本,覆盖 14 种攻击类型),包含六层级 CoT 推理标注;提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略(先视觉增强再联合训练),在 11 个跨域基准上平均 AUC 提升 4.06%、HTER 降低 5.00%。

GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization

提出GRAZE,一种完全无训练的时空事件定位管线——用Grounding DINO发现候选player-dummy交互对,通过运动感知的几何评分(位移幅度+方向余弦相似度)排序候选,再用SAM2掩码传播作为独立的像素级接触验证器(而非依赖检测置信度),配合两阶段后向精化恢复事件起始帧,在738个橄榄球练习视频上97.4%有效输出率、77.5%在±10帧内定位。

GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization

提出 GRAZE,一个无需训练的管线,利用 Grounding DINO 发现候选交互、SAM2 掩码重叠作为像素级接触验证器,在 738 段美式橄榄球训练视频中实现 97.4% 覆盖率和 ±10 帧内 77.5% 的接触起始帧定位精度。

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

构建首个面向人脸反欺骗(FAS)的CoT-VQA数据集 FaceCoT(108万样本,14种攻击类型),并提出分两阶段渐进学习策略 CEPL,在11个FAS基准上平均AUC提升4.06%、HTER降低5.00%。

Latent Chain-of-Thought World Modeling for End-to-End Autonomous Driving

LCDrive 提出潜在链式思考(Latent CoT)框架,用动作提议token和世界模型预测token替代自然语言CoT进行推理,通过冷启动+RL后训练实现更低延迟、更好轨迹质量的端到端自动驾驶。

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

发现现有LVLM在CoT推理时实际上忽略了中间rationale的内容,提出 RED (Rationale-Enhanced Decoding)——将图像条件和rationale条件的next-token分布在logit层面相乘,理论上等价于KL约束奖励最大化的最优解,无需训练即可显著提升多模态推理准确率。

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

发现现有 LVLM 在多模态 CoT 推理中会忽略生成的 rationale 内容(图像 token 主导注意力),提出 Rationale-Enhanced Decoding (RED)——将 CoT 重新表述为 KL 约束的 rationale 条件对数似然奖励最大化问题,最优解为将图像条件分布 \(p(y|x,q)\) 和 rationale 条件分布 \(p(y|r,q)^\lambda\) 相乘,无需训练即可显著提升多个基准上的推理性能。

Reinforcing Structured Chain-of-Thought for Video Understanding

提出 SDRL(Summary-Driven Reinforcement Learning),一种无需 SFT 的单阶段 RL 框架,通过结构化 CoT(Summarize→Think→Answer)和两个自监督机制(CVK 和 DVR)增强视频时序推理,在 7 个 VideoQA 基准上达到 SOTA。

Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering

构建首个对齐临床诊断工作流的结构化多步CoT医学推理数据集Step-CoT(10K+病例/70K QA对),并提出基于图注意力网络的教师-学生框架实现逐步推理监督,提升Med-VQA的准确性和可解释性。

Understanding and Mitigating Hallucinations in Multimodal Chain-of-Thought Models

本文系统分析了多模态 CoT 模型中幻觉的成因,发现"发散思维"(associative reasoning)是幻觉的核心触发因素,并提出基于视觉熵的免训练检测+解码干预策略,在 Object HalBench 上将 CHAIRS 降低超过 30%,同时保持甚至提升通用推理能力。

Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models

本文提出 Hallucination-as-Cue 分析框架,通过三种模态特定腐蚀策略(空白图像、随机图像、文本移除)系统研究 RL 后训练对多模态推理模型的真实作用机制,发现即使在 100% 腐蚀视觉输入下 GRPO 训练仍能显著提升推理性能,挑战了"RL 训练能有效利用视觉信息"的主流假设。

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

提出 VisRef,一个免训练的视觉重聚焦框架——在多模态大推理模型(MLRM)的推理过程中,通过行列式点过程(DPP)在每步自适应选择与当前推理状态语义相关且视觉覆盖多样的 token 子集并重新注入,同时用基于熵的停止准则防止过度推理,在固定计算预算下将视觉推理准确率提升最高 6.4%。

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

本文提出 VisRef,一种免训练的视觉重聚焦框架,通过在多模态大推理模型(MLRM)的推理过程中使用行列式点过程(DPP)动态选择并重新注入与当前推理上下文语义相关且多样化的视觉 token,解决了长链推理中视觉注意力逐渐衰减的问题,在 MathVista 等基准上提升高达 6.4%。