跳转至

📹 视频理解

🤖 AAAI2026 · 27 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (187) · 🔬 ICLR2026 (48) · 🧪 ICML2026 (17) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (56) · 🧪 ICML2025 (4)

🔥 高频主题: 人体姿态 ×3 · 异常检测 ×3 · 多模态 ×2 · 少样本学习 ×2

APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval

提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。

BAT: Learning Event-based Optical Flow with Bidirectional Adaptive Temporal Correlation

提出双向自适应时序相关性(BAT)框架,将事件相机的时序密集运动线索转化为空间密集线索,实现高精度事件光流估计,在 DSEC-Flow 基准上排名第一。

Causality Matters: How Temporal Information Emerges in Video Language Models

通过系统性消融实验揭示VideoLM的时序理解能力并非来源于位置编码(PE),而是由因果注意力掩码的序列敏感性产生——时序信息沿"帧间交互→末帧聚合→query融合"的因果路径逐层构建,并据此提出两种无损推理加速策略。

EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

提出 EmoVid,首个面向艺术化/非写实内容的大规模多模态情绪视频数据集(22,758 个视频片段),覆盖动画、电影和表情贴纸三种类型,并通过微调 Wan2.1 模型展示了情绪条件化视频生成的有效性,在情绪准确率指标上显著优于基线。

Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction

本文提出 CACMI 框架,通过显式时序-语义建模解决密集视频描述任务中的两个基本限制(时序建模不足和模态鸿沟),使用跨模态帧聚合(CFA)提取时序一致的事件语义,再用上下文感知特征增强(CFE)桥接视觉-文本模态差距,在 ActivityNet Captions 和 YouCook2 上达到 SOTA。

FineTec: Fine-Grained Action Recognition Under Temporal Corruption via Skeleton Decomposition and Sequence Completion

提出 FineTec 框架,通过上下文感知序列补全、基于生物先验的骨架空间分解、物理驱动的加速度建模三个模块,在时序损坏条件下实现鲁棒的细粒度骨架动作识别。

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

本文提出FineVAU基准,将视频异常理解 (VAU) 分解为事件(What)、实体(Who)、地点(Where)三个维度,设计了与人类感知高度对齐的FV-Score评估指标,并通过全自动LVLM辅助管线构建了FineW³数据集,实验揭示当前LVLM在细粒度异常事件感知上的关键短板。

HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection

本文提出 HeadHunt-VAD,通过在冻结的多模态大模型(MLLM)内部系统性地搜索出对异常敏感且稳定的稀疏注意力头集合,绕过文本输出的信息损失,用轻量级分类器实现无需微调的高效视频异常检测,在 UCF-Crime 和 XD-Violence 上取得 tuning-free 方法 SOTA。

Learning Time in Static Classifiers

提出 Support-Exemplar-Query (SEQ) 学习框架,通过损失函数设计(而非架构修改)为标准前馈分类器注入时序推理能力,利用软DTW将预测序列与类别时序原型对齐,在细粒度图像分类和视频异常检测上均取得提升。

Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment

本文提出DSANet,通过自引导正常模式建模(SG-NM,粗粒度)和解耦对比语义对齐(DCSA,细粒度)从两个层面增强弱监督视频异常检测中正常与异常特征的可区分性,在XD-Violence上AP达86.95%(+1.14%),在UCF-Crime细粒度mAP达13.01%(+3.39%),均为SOTA。

Learning Topology-Driven Multi-Subspace Fusion for Grassmannian Deep Networks

提出拓扑驱动的 Grassmann 流形多子空间融合网络 GMSF-Net,通过自适应多子空间构建和基于 Fréchet 均值的子空间交互机制,将欧氏空间中多通道交互的思想成功迁移到非欧几何域,在 3D 动作识别、EEG 分类和图任务上取得 SOTA 性能。

Lifelong Domain Adaptive 3D Human Pose Estimation

提出 lifelong domain adaptive 3D HPE 新任务,设计包含 pose-aware、temporal-aware 和 domain-aware 编码的 GAN 框架,利用 diffusion sampler 生成 domain-aware prior 缓解灾难性遗忘,在多个跨场景/跨数据集适应任务上显著超越现有方法。

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

提出首个面向交互式直播视频的全模态基准 LiViBench(3168 个视频、3175 道 MCQ、24 个任务),设计了多智能体种子问题驱动的半自动标注流程,并构建了 LiVi-LLM-7B 模型(含 Video-to-Comment Retrieval 模块和两阶段指令微调),在 7B 规模下超越了 72B 开源模型。

PlugTrack: Multi-Perceptive Motion Analysis for Adaptive Fusion in Multi-Object Tracking

提出 PlugTrack 框架,通过多感知运动分析(CME)和自适应混合因子生成(ABG),首次实现卡尔曼滤波器与数据驱动运动预测器的自适应融合,在线性和非线性运动场景中均取得显著提升。

Predicting Video Slot Attention Queries from Random Slot-Feature Pairs

提出 RandSF.Q,通过利用下一帧特征进行信息性查询预测,以及从随机采样的 slot-feature 对学习过渡动力学,显著提升视频物体中心学习(OCL)的查询预测质量,在目标发现任务上超越 SOTA 最多 10 个点。

R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios

提出首个面向复杂音视频场景的细粒度时空推理数据集 R-AVST(5K+未裁剪视频、27K物体、100类音视频事件),定义三个核心推理任务,并基于 GRPO 训练 AVST-Zero 模型,通过多维奖励函数直接优化音视频时空推理能力。

ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding

提出因果信息瓶颈(CIB)理论框架,将关键帧选择形式化为同时优化"预测充分性"和"因果必要性"的信息论问题,并基于此设计 ReaSon 强化学习框架,通过三种 CIB 对齐的奖励(答案奖励、循环一致性奖励、反事实奖励)训练选择策略,在限定帧数设置下显著超越已有方法。

RefineVAD: Semantic-Guided Feature Recalibration for Weakly Supervised Video Anomaly Detection

提出 RefineVAD 框架,通过运动感知时序注意力重校准(MoTAR)和类别导向特征精炼(CORE)两个模块,联合建模时序运动动态与异常类别语义,在弱监督视频异常检测任务上实现了对异常事件的精准定位与可解释检测。

Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective

提出 LIBERO-Mem 基准(10 个非马尔可夫机器人操控任务)和 Embodied-SlotSSM 框架(结合 Slot Attention 和状态空间模型的物体中心记忆 VLA),解决视觉运动策略在部分可观测、需要物体级历史推理的长期任务中的失败问题。

MambaMia: State-Space Hierarchical Compression for Hour-Long Video Understanding in Large Multimodal Models

MambaMia 提出了基于双向 Mamba 的两阶段层次化视频 Token 压缩框架:门控 Patch 聚合(GPA)做空间-时间局部压缩 + 时间轴聚合器(TAA)利用 Mamba 的自适应步长 \(\Delta_t\) 做数据驱动的关键帧采样,将小时级视频压缩到仅 4.7K Token,在 LVBench 上达到 44.6 分超越 Qwen2-VL 和 mPLUG-Owl3。

StegaVAR: Privacy-Preserving Video Action Recognition via Steganographic Domain Analysis

提出 StegaVAR 框架,首次将视频隐写术与动作识别结合,将隐私视频嵌入自然 cover 视频后直接在隐写域做分类,通过 STeP(secret 视频引导的时空特征学习)和 CroDA(跨频带差分注意力)实现接近原始视频的识别精度,同时提供优于匿名化方法的隐私保护。

SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition

提出 SUGAR 范式,利用 GPT 生成的运动描述视觉描述作为先验知识,通过对比学习监督骨骼编码器学习更离散的表示,再用 LLM(LLaMA2-7B)的未触及预训练权重作为识别器,配合新设计的 Temporal Query Projection(TQP)模块实现高效的骨骼动作分类和零样本推理。

Task-Specific Distance Correlation Matching for Few-Shot Action Recognition

提出 TS-FSAR 框架,通过 α-距离相关性捕获帧间非线性依赖关系并结合任务特定匹配矩阵进行 query-support 匹配,同时用适配后的冻结 CLIP 引导侧网络训练,在 SSv2-Full 等时序敏感数据集上大幅超越先前方法。

TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding

将视频关键帧选择和语言生成建模为联合决策过程,通过基于GRPO的强化学习端到端优化轻量级时序智能体的采样策略,在四个长视频理解基准上取得SOTA(LLaVA-Video-7B上LongVideoBench +5.0%、MLVU +6.0%),且可零样本迁移到其他Video-MLLM。

Uncovering Zero-Shot Generalization Gaps in Time-Series Foundation Models Using Real-World Videos

提出从真实视频中通过光流提取时间序列数据的管线,构建了 REAL-V-TSFM 数据集(6130 条序列),揭示了当前时间序列基础模型(Chronos、TimesFM 等)在面对真实物理动态时的零样本泛化能力不足。

UVLM: Benchmarking Video Language Model for Underwater World Understanding

构建首个水下视频语言理解基准 UVLM(2109 段视频、419 类海洋生物、20 种子任务、~4 万 video-text pairs),通过 human-AI 协同标注注入海洋领域知识,在 UVLM 上微调后 7B VidLM 可达到接近 GPT-4o 的性能(73.04 vs 77.95 Overall)。

VTinker: Guided Flow Upsampling and Texture Mapping for High-Resolution Video Frame Interpolation

提出 VTinker 流水线,通过引导式光流上采样(GFU)解决光流边界模糊问题,并采用纹理映射替代传统逐像素融合策略来消除鬼影和不连续,在高分辨率视频帧插值上取得 SOTA。