跳转至

💡 LLM 推理

📷 CVPR2025 · 8 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (37) · 📷 CVPR2026 (16) · 🔬 ICLR2026 (71) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (67) · 📹 ICCV2025 (3)

🔥 高频主题: 推理 ×8 · 少样本学习 ×2

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

Argus 提出了一种grounded visual CoT机制,通过让MLLM先预测与问题相关的bounding box(RoI),然后重新采样/编码该区域的视觉token作为推理上下文,实现了显式的目标导向视觉注意力,在7B/8B级MLLM中取得视觉推理和目标grounding双料SOTA。

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

提出 CoT-VLA,将视觉思维链推理引入视觉-语言-动作模型,通过两阶段推理——先预测子目标图像再生成动作序列——结合混合注意力和动作分块策略,在 LIBERO 基准上实现 81.13% 平均成功率,显著超越现有方法。

Interleaved-Modal Chain-of-Thought

提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

本文提出OSrCIR,一种免训练的单阶段零样本组合图像检索方法,利用多模态大语言模型直接处理参考图像和修改文本,并通过反思式链式思维推理准确理解用户隐含意图,在多个基准上比现有免训练方法提升1.80%~6.44%。

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

OSrCIR提出单阶段反思性链式思维推理,让MLLM同时处理参考图像和修改文本(避免两阶段caption→推理的信息丢失),通过"描述→思考→反思→目标描述"四步CoT生成准确的目标图像描述,在CIRCO上mAP@5达23.87%超越CIReVL 26.2%,且完全免训练。

Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection

提出 Chain-of-Thought 引导的风格演化方法(CGSE),通过词→短语→句子三级渐进式风格描述生成,结合特征解耦和类别原型聚类,在五种恶劣天气场景和 Real-to-Art 基准上实现了显著的域泛化检测性能提升。

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

VideoEspresso 构建了一个20万+的大规模视频CoT推理数据集(包含空间bounding box和时间grounding标注),并提出VideoQA-SC混合框架——用1.5B轻量级模型选择平均2.36个核心帧,再用8B推理模型进行两阶段证据提取+答案生成,以仅1.8%的帧数和14.7%的计算量超越了GPT-4o和所有开源LVLM。

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

本文提出VideoEspresso数据集及混合LVLM协作框架,通过语义感知的冗余去除构建高质量视频QA对,并引入多模态链式思维(CoT)标注,结合轻量帧选择器和两阶段推理模型实现高效精准的视频推理。