跳转至

💡 LLM 推理

📹 ICCV2025 · 3 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (37) · 📷 CVPR2026 (16) · 🔬 ICLR2026 (71) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (67) · 🧪 ICML2025 (17)

🔥 高频主题: 推理 ×2

CoRVid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

提出 Corvid,通过混合视觉编码器 + GateMixer 连接器 + 高质量 CoT 数据集 + 推理时自验证策略,全面提升 MLLM 的链式推理能力,在数学推理和科学问题求解上超越同参数量级的开源模型。

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

提出UV-CoT框架,通过自动生成偏好数据和改进的Score-DPO损失函数,在不需要人工标注bounding box的情况下实现图像级链式思维(Visual CoT)推理,在6个基准上超越有监督的Visual-CoT方法。

Video-T1: Test-Time Scaling for Video Generation

将LLM中的测试时缩放(TTS)思想迁移到视频生成领域,将TTS重新定义为从高斯噪声空间到目标视频分布的搜索问题,提出Tree-of-Frames (ToF)搜索算法实现高效的推理时计算扩展,在VBench上持续稳定提升各类视频生成模型的质量。