📹 视频理解¶
🧠 NeurIPS2025 · 39 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (187) · 🔬 ICLR2026 (48) · 🧪 ICML2026 (17) · 🤖 AAAI2026 (27) · 📹 ICCV2025 (56) · 🧪 ICML2025 (4)
🔥 高频主题: 推理 ×6 · LLM ×3 · 异常检测 ×3 · 目标跟踪 ×3 · 问答 ×2
- A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis
-
提出一个完全零样本、无需训练的视频异常分析框架,通过Intra-Task Reasoning(置信度门控的自我精化)和Inter-Task Chaining(从时序检测到空间定位到语义理解的级联prompt传递),在4个benchmark上全面超越先前零样本方法4-6% AUC。
- AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding
-
提出 AdaVideoRAG,通过轻量级意图分类器将查询按难度路由到三级检索路径(无检索/朴素检索/图检索),结合全知识索引模块(caption+ASR+OCR+视觉+知识图谱)实现长视频理解的效率-精度最优平衡,在 MLVU 上为 Qwen2.5-VL-7B 带来 39.8% 提升。
- ConViS-Bench: Estimating Video Similarity Through Semantic Concepts
-
提出基于语义概念的视频相似度估计任务 ConViS 及配套 benchmark ConViS-Bench(610对视频、16领域、5概念),系统评测了10+主流模型在概念条件下的视频比较能力,揭示当前模型在时序结构和空间语境理解上的显著短板。
- Disentangled Concepts Speak Louder Than Words: Explainable Video Action Recognition
-
提出DANCE框架,通过将动作解释解耦为运动动态、物体和场景三类概念,实现结构化和运动感知的可解释视频动作识别。
- DualGround: Structured Phrase and Sentence-Level Temporal Grounding
-
本文发现现有视频时间定位模型过度依赖 [EOS] token 的全局句子语义而忽略词级信号,提出 DualGround 双分支架构,通过句子级路径(自适应交叉注意力)和短语级路径(循环短语生成+Slot Attention)显式分离全局和局部语义,在 QVHighlights 和 Charades-STA 上实现 SOTA。
- EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes
-
EAG3R 将事件相机的异步事件流融入 MonST3R 点图重建框架,通过 Retinex 增强模块 + SNR 感知融合机制 + 事件光度一致性损失,在极端低光动态场景下实现鲁棒的深度估计、位姿跟踪和 4D 重建,零样本迁移夜间场景即可大幅超越 RGB-only 方法。
- EgoGazeVQA: Egocentric Gaze-Guided Video Question Answering Benchmark
-
提出 EgoGazeVQA,首个融合用户眼动注视数据的第一人称视频问答基准,通过注视引导的提示策略(文本/视觉/显著性图)显著提升 MLLM 对用户意图的理解能力,Gaze Salience Map 策略最高可将 MiniCPM-o 的准确率从35.9%提升至53.7%。
- Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders
-
提出 STAVEQ2,在 Vision Encoder 中堆叠参数高效的时序注意力模块(STA),解决现有 Video-LLM 在细粒度时序理解(如区分"从左到右拉"和"从右到左拉")上的根本性架构缺陷,在 VITATECS/MVBench/Video-MME 上提升最高 5.5%。
- FastVID: Dynamic Density Pruning for Fast Video Large Language Models
-
提出 FastVID,通过动态时序分割 (DySeg) + 密度空时剪枝 (STPrune) 从时间和视觉两个维度系统性消除视频 token 冗余,在 LLaVA-OneVision-7B 上剪掉 90.3% 视频 token 后仍保留 98% 精度,LLM prefill 阶段加速 7.1×。
- Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition
-
提出一种融合 V-JEPA 2 视觉上下文特征与 CoMotion 3D 骨骼姿态数据的 cross-attention 多模态架构,在标准及高遮挡动作识别基准上优于单模态基线。
- InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
-
提出首个无需训练、查询无关的流式视频理解框架InfiniPot-V,通过时序冗余度(TaR)和值范数(VaN)两个度量实现KV缓存的在线压缩,在固定内存约束下支持任意长度的流式视频理解。
- INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning
-
提出Inst-IT完整方案:通过GPT-4o辅助的自动标注管线生成实例级细粒度数据,构建Inst-IT Bench评测基准和335K QA对的指令微调数据集,以持续微调范式有效提升LMM的实例级理解能力,同时增强通用图像/视频理解。
- Lattice Boltzmann Model for Learning Real-World Pixel Dynamicity
-
受流体力学中格子玻尔兹曼方法启发,提出 LBM(Lattice Boltzmann Model)用于在线实时像素跟踪,将视频像素建模为流体格子并通过碰撞-流式过程求解运动状态,以 18M 参数实现 SOTA 在线跟踪性能且可在边缘设备上实时运行。
- LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
-
提出 LiveStar,一个始终在线的直播流视频理解助手,通过 Streaming Causal Attention Masks (SCAM) 训练策略和 Streaming Verification Decoding (SVeD) 推理框架,实现自适应响应时机判断,在 OmniStar 基准上语义正确性提升 19.5%,时间偏差降低 18.1%。
- LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
-
LongVPO提出两阶段DPO框架,Stage 1通过锚定短片段构造伪长视频偏好数据并引入anchor-only参考模型近似解决上下文长度不匹配问题,Stage 2通过递归字幕生成和多片段推理任务在真实长视频上自训练,仅用16K合成样本即超越大规模监督训练的长视频模型。
- MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models
-
构建首个基于哑剧视频的非语言社交推理基准 MimeQA,包含101个视频和806个QA对,覆盖三层问题层次(具象识别→场景理解→全局推理),揭示当前VideoLLMs在非语言社交理解上的严重不足(20-30% vs 人类86%)。
- MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection
-
提出 MoniTor,一个基于记忆的在线评分队列方案,利用 LLM 进行免训练的在线视频异常检测(VAD),通过双层记忆机制、行为预测和标准评分队列引导 LLM 实现实时异常识别。
- MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence
-
提出 MUVR 基准,面向长视频平台的多模态未剪辑视频检索任务,设计了以视频为中心的多模态查询格式(视频+文本+标签+掩码)和六级视觉对应匹配准则,包含 53K 视频和 1050 个查询,系统评估了检索模型和 MLLM 的局限性。
- PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer
-
提出 PANDA,一个基于 MLLM 的 Agentic AI 工程师框架,通过自适应场景感知策略规划、目标驱动启发式推理、工具增强自反思和链式记忆四大能力,实现无需训练和人工干预的通用视频异常检测。
- PASS: Path-Selective State Space Model for Event-Based Recognition
-
PASS提出路径选择性事件聚合与扫描(PEAS)模块和多面选择引导(MSG)损失,利用SSM的线性复杂度和频率泛化能力,实现了从10^6到10^9事件长度的广泛分布上的事件识别,并在推理频率变化时保持性能仅下降8.62%(基线下降20.69%)。
- PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?
-
通过提出四项运动中心的探测技术和 MoCentric-Bench 基准,证明当前视频多模态 LLM 在像素级视觉接地任务中未能真正利用运动信息,可被静态关键帧欺骗。
- PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling
-
本文首次提出在线音视频事件解析(On-AVEP)范式,通过预测性未来建模框架 PreFM,利用伪未来序列增强当前上下文理解,同时借助模态无关的知识蒸馏和焦点时间优先策略,以仅 2.7% 的参数量超越离线 SOTA 方法 +9.3 的事件级平均 F1 分数。
- SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
-
提出 SAMA 框架,通过构建统一的数据集(SAMA-239K)、模型(时空上下文聚合器 + SAM)和基准(SAMA-Bench),首次实现了多轮引用式视频对话中细粒度时空理解与grounding的联合建模。
- Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition
-
系统分析了动作识别中背景偏差在分类模型、对比预训练模型(CLIP/SigLIP2)和视频大语言模型(VLLM)三类范式中的普遍存在,并提出两条缓解路径:分类模型通过双分支架构融合分割人体输入降低SBErr 3.78%,VLLM通过自动化prompt tuning降低SBErr 9.85%。
- Seeing the Arrow of Time in Large Multimodal Models
-
本文揭示当前大多模态模型(LMMs)对视频时间方向性(时间箭头)出人意料地不敏感——正放/倒放时答案几乎相同,提出基于 GRPO 的 ArrowRL 训练策略引入反向视频奖励来激发时间方向感知,并构建 AoTBench 基准,在多个 VQA 基准上取得显著提升(Vinoground 上相对提升 65.9%)。
- Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
-
提出 RRPO(Refined Regularized Preference Optimization),通过子序列级细粒度奖励和 token 级 KL 正则化替代 DPO 的响应级奖励,结合自对齐数据生成框架,在视频理解任务上减少幻觉、提升时间推理能力。
- TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
-
本文提出TAPVid-360任务和数据集,要求模型在窄视野视频中跟踪查询点的3D方向(包括视野外的点),通过利用360度视频生成训练数据并微调CoTracker3实现方向预测,在视野外跟踪上远超现有方法。
- TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs
-
提出TempSamp-R1强化微调框架,针对GRPO在视频时序定位中因搜索空间巨大而on-policy采样低效的问题,通过引入GT作为off-policy监督信号+非线性软优势估计+混合CoT训练范式,在Charades-STA/ActivityNet/QVHighlights三个基准上达到新SOTA。
- Token Bottleneck: One Token to Remember Dynamics
-
提出Token Bottleneck(ToBo),一种自监督视觉表征学习流水线,通过将参考场景压缩为单个瓶颈token、并利用该token与极少量目标场景patch来预测后续场景,使视觉骨干网络同时学会保守编码场景信息和捕获时间动态变化。
- Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task
-
提出了包含 22 个工具的视频工具包和 STAR(Spatiotemporal Reasoning)框架,通过时间-空间工具交替调度策略渐进式定位 3D RoI,在 VideoMME 上将 GPT-4o 提升 8.2%,同时大幅减少处理帧数和计算开销。
- Tracking and Understanding Object Transformations
-
提出 Track Any State 任务和 TubeletGraph 零样本框架,在视频中跟踪经历外观剧变的物体状态变化(如切苹果、蝴蝶从蛹中羽化),同时检测并描述这些变化。
- Two Causally Related Needles in a Video Haystack
-
提出Causal2Needles基准(4,100个问答对),通过设计"桥接实体"将两个因果相关事件的理解绑定在一起,强制VLM必须联合检索和推理两个分散在长视频中的"针",揭示现有最强模型在因果双针问题上的严重不足(ChatGPT-4o双针Both准确率仅13.4%)。
- Unleashing Hour-Scale Video Training for Long Video-Language Understanding
-
构建首个大规模小时级视频指令跟随数据集 VideoMarathon(9700小时、330万QA对、22种任务),并提出 Hour-LLaVA 模型,通过记忆仓库+遗忘机制+MemAug模块实现1-FPS下小时级视频的高效训练与推理,在四个长视频基准上全面领先同规模开源模型。
- VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity
-
提出 VADTree,一种训练无关的视频异常检测框架,利用预训练的通用事件边界检测(GEBD)模型构建层次粒度感知树(HGTree),实现对不同时间跨度异常事件的自适应采样和多粒度推理,在 UCF-Crime、XD-Violence 和 MSAD 三个基准上取得训练无关方法SOTA,甚至超越部分弱监督方法。
- VGEnt: Graph-Based Retrieval-Reasoning-Augmented Generation for Long Video Understanding
-
提出 VGEnt,一个基于图的检索-推理增强生成框架,通过构建视频知识图谱保留跨片段语义关系,并引入结构化推理步骤过滤噪声、聚合信息,在多个长视频理解基准上一致提升开源 LVLM 3.0%~5.4%,超越现有视频 RAG 方法 8.6%。
- Video Finetuning Improves Reasoning Between Frames
-
本文通过提出视觉思维链(vCoT)方法,系统地比较了图像LLM与视频微调LLM在帧间推理能力上的差异,发现视频微调使模型隐式学会了帧间过渡推理,且这种能力可迁移到静态图像的关系推理任务中。
- VideoLucy: Deep Memory Backtracking for Long Video Understanding
-
提出VideoLucy框架,通过层次化记忆结构和基于Agent的迭代回溯机制,模拟人类从粗到细的回忆过程,在多个长视频理解基准上大幅超越现有方法,甚至超过GPT-4o等商业模型。
- When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions
-
提出QV-M2数据集(首个全人工标注的多时刻检索基准)和FlashMMR框架(含后验证模块),将视频时刻检索从单时刻扩展到多时刻场景,建立了多时刻检索的标准化评价体系。
- When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
-
系统揭示了CoT推理在视频理解中经常导致性能下降的"视觉思维漂移"现象,并提出Visual Evidence Reward(VER)强化学习框架,通过显式奖励与视觉证据对齐的推理链来纠正这一问题。