跳转至

📹 视频理解

🔬 ICLR2026 · 48 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (187) · 🧪 ICML2026 (17) · 🤖 AAAI2026 (27) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (56) · 🧪 ICML2025 (4)

🔥 高频主题: 目标跟踪 ×4 · LLM ×3 · 压缩/编码 ×3 · 推理 ×2 · 问答 ×2

A Training-Free Framework for Long Video Understanding via Video-Query-Options Similarity

针对小时级长视频塞不进多模态大模型上下文的问题,本文提出一套无需训练的输入侧框架:用视频-文本检索模型给每个视频片段打相关性分,再据此自适应加密采样(AFS)、动态分配分辨率(DRA),并让 MLLM 自己生成候选答案融进检索 query(VQOS)来精修相关性估计,在 5 个长视频基准上把 LLaVA-Video 和 Qwen2.5-VL 平均提了 3~5 个点。

A.I.R.: Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

提出 A.I.R.,一种无需训练的自适应-迭代-推理驱动帧选择框架,通过两阶段策略(GMM 自适应初始采样 + 迭代式 VLM 精细分析)解决 VideoQA 中轻量模型(CLIP)相似度不准确和 VLM 分析成本爆炸的双重困境,在最坏情况下也仅需分析 72 帧(vs 基线 128 帧),同时显著提升多个长视频 benchmark 性能。

ARFlow: Auto-regressive Optical Flow Estimation for Arbitrary-Length Videos via Progressive Next-Frame Forecasting

ARFlow 把多帧光流从“固定长度 clip 内一次性估计”改成“逐帧自回归预测下一帧光流”,用历史光流初始化当前估计、再用多步长时序预测融合短期与长期运动线索,在几乎恒定显存下提升了 Sintel、KITTI 和 Spring 等基准的光流精度。

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

AVoCaDO 基于 Qwen2.5-Omni,通过 107K 高质量时序对齐音视频字幕数据做 SFT,再用面向关键事件、对话和长度的 GRPO 奖励微调,让 7B 音视频字幕模型在多个 audiovisual captioning benchmark 上超过现有开源模型,部分指标还追上或超过 Gemini-2.5 系列。

Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models

这篇论文先用 Next Frame Selection(下一帧选择)和 Temporal Coherence Verification(时序一致性判别)两个"低层"诊断任务,揭示当前 MLLM 连流体这类连续介质的直觉物理动态都看不懂;再提出 Scene Dynamic Field(SDF)——把物理模拟器算出的粒子速度映射成蓝色梯度图当视觉提示,配合多任务微调,让 Qwen2-VL / GLM-4.1V 在流体任务上最高涨 20.7%,并能迁移到布料、沙、烟雾等未见物理域。

Cambrian-S: Towards Spatial Supersensing in Video

本文提出"空间超感知(spatial supersensing)"这一从被动任务驱动转向主动世界建模的范式:先用 VSI-SUPER 基准证明暴力扩长上下文(包括 Gemini-2.5 和自训的 Cambrian-S)在任意长视频上的空间回忆与计数任务上彻底失效,再用一个自监督的"潜帧预测"头把预测误差("惊讶")当作控制信号去驱动记忆管理与事件分割,从而在长视频空间任务上大幅超过强商业基线。

CaReBench: A Fine-grained Benchmark for Video Captioning and Retrieval

CaReBench 用 1000 个人工标注、字幕长达 200+ 词且显式拆成空间/时间两份的视频,搭起一个能同时考视频细粒度字幕(captioning)和检索(retrieval)的 benchmark,配套两个新指标 ReBias 与 CapST 专门量化 VLM 的时空偏置,并顺手给出一个把字幕和检索统一进单个 MLLM 的两阶段 SFT 基线 CARE。

Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding

Divid 在 Video LLM 的 decoder 内部显式拆开时间分支与空间分支,用时间注意力为查询选择高分辨率关键帧,再通过 token 级 soft-router 融合两路信息,并配合 559K 时间戳监督数据 TempGCap,在时间定位和带证据 VideoQA 上同时提升精度与计算效率。

EAST: Early Action Prediction Sampling Strategy with Token Masking

EAST 用一个随机采样观测比例 \(\rho\) 的训练策略,让单个模型就能在所有观测比例下做早期动作预测,再配上「present + future 双重分类的复合损失」和「按时序冗余度删一半 token 的差异掩码」,在 NTU60 / SSv2 / UCF101 上分别比此前最好方法高 10.1、7.7、3.9 个百分点,同时训练显存和时间砍半。

EgoBrain: Synergizing Minds and Eyes For Human Action Understanding

EgoBrain 构建了首个大规模同步第一视角视频与 32 通道 EEG 的日常动作数据集,并提出 Brain-TIM 用时间感知 Transformer 融合视觉和脑信号,在跨主体跨场景 29 类动作识别上把视觉基线从 63.40% 提升到 66.70%。

Exposing and Defending the Achilles' Heel of Video Mixture-of-Experts

本文首次系统拆解视频 MoE 的组件级对抗弱点,提出"先把路由器引向最弱专家、再联合扰动路由器与专家"的 J-TLGA 攻击暴露其"阿喀琉斯之踵",并配套分层对抗训练 J-TLAT 把弱点逐层修补,在保持 60%+ 推理省算量的同时大幅提升鲁棒性。

FARTrack: Fast Autoregressive Visual Tracking with High Performance

FARTrack 把 ARTrack 系列的自回归生成式跟踪框架做"瘦身",用任务特定自蒸馏逐层压缩模型深度、用帧间自回归稀疏化裁掉模板里的背景冗余 token,在 GOT-10k 上 70.6% AO 的同时把速度拉到 GPU 343 FPS / CPU 121 FPS,兼顾了高性能与实时性。

FlashVID: Efficient Video Large Language Models via Training-free Tree-Based Spatiotemporal Token Merging

提出 FlashVID,一个免训练的视频大语言模型推理加速框架,通过树状时空 token 合并(TSTM)联合建模空间和时间冗余,仅保留 10% 的视觉 token 就能保持 LLaVA-OneVision 99.1% 的性能,并能将 Qwen2.5-VL 的输入帧数提升 10 倍。

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

提出 FLoC,基于设施选址函数(facility location function)的视觉 token 压缩框架,通过子模优化在给定预算下快速选择兼具代表性和多样性的 token 子集,实现无训练、模型无关、查询无关的长视频理解 token 压缩。

FOCUS: Efficient Keyframe Selection for Long Video Understanding

FOCUS 把"在严格 token 预算下挑出与问题最相关的视频帧"重新表述为多臂老虎机里的组合纯探索(CPE)问题——把短时片段当成臂、用经验均值加 Bernstein 置信半径自适应分配打分预算,从而在只看不到 2% 帧的情况下显著提升长视频问答精度。

From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning

发现 slot-based 目标中心学习中编码器(产生尖锐但有噪声的注意力图)与解码器(产生空间一致但模糊的重建掩码)之间的恶性循环,提出同步对比学习目标和 slot 正则化预热策略将其转化为良性循环,在 MOVi 和 YouTube-VIS 上大幅提升物体发现性能。

Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments

本文提出 MicroG-4M——首个面向微重力(太空失重)环境下人类活动时空与语义理解的视频基准,包含 4,759 个真实/电影片段、13,261 条动作标注、1,238 条描述与 7,000+ 问答对,覆盖细粒度动作识别、视频描述、视觉问答三大任务,并用一套基准 MicroG-Bench 系统量化了地面训练模型在太空场景下的显著性能崩塌。

HiTeA: Hierarchical Temporal Alignment for Training-Free Long-Video Temporal Grounding

HiTeA 用事件-场景-动作的层级时间分解为长视频生成多粒度候选片段,再用冻结的 VideoCLIP 与 Qwen2.5-VL 做查询条件匹配和候选精炼,在不做任何任务训练的前提下显著提升长视频 temporal grounding。

IF-VidCap: Can Video Caption Models Follow Instructions?

本文提出 IF-VidCap——首个面向"可控视频描述"的指令遵循评测基准,含 1,400 条平均带 6 个约束的复合指令,用"格式正确性 + 内容正确性"双维度自动评测协议系统性测了 26 个 MLLM,发现专门做密集描述的模型在指令约束下反而打不过通用 MLLM。

Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks Preserving Action Understanding Ability

针对时序视频定位(TVG)模型只优化 IoU 导致"动作理解能力退化"的问题,本文把 TVG 任务的输入输出反转,构造三个共享同一份标注的 Invert-TVG 辅助任务(补全动词 / 识别动作 / 描述视频),在 GRPO 强化学习里以低概率交替训练,从而在保住动作语义理解的同时把定位精度推到 SOTA。

Language-guided Open-world Video Anomaly Detection under Weak Supervision

提出语言引导的开放世界视频异常检测范式LaGoVAD,通过将异常定义建模为随机变量并以自然语言形式输入,结合动态视频合成和对比学习正则化策略,在七个数据集上实现零样本SOTA性能。

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

提出了"类别拆分"(Category Splitting)新任务,通过挖掘视频分类器权重中的潜在组合结构,在零样本条件下将粗粒度动作类别拆分为细粒度子类别,无需重训或额外数据。

LLaVAction: Evaluating and Training Multi-modal Large Language Models for Action Understanding

本文用"专家动作识别模型挑困难干扰项"把 EPIC-KITCHENS-100 重构成一个真正考验细粒度动作辨别的 MLLM 基准(EPIC-KITCHENS-100-MQA),并提出 LLaVAction——通过动作 token 强化视觉信息利用 + 两阶段结构化输出,让通用视频 MLLM 在第一人称动作识别上反超 GPT-4o 21 个点并刷新多个动作识别 SOTA。

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

首次用机制可解释性工具(Attention Knockout + Logit Lens)系统逆向工程VideoLLM的时序推理过程,揭示出"早中层跨帧交互→中层视频-语言整合→中后层答案生成"的三阶段信息流蓝图,并证明仅保留42%注意力边即可几乎无损保持VideoQA性能。

Measure Twice, Cut Once: A Semantic-Oriented Approach to Video Temporal Localization with Video LLMs

MeCo 抛弃"让 Video LLM 直接吐出边界时间戳"的主流范式,改用结构化 token + query-focused 字幕 + 对比式 grounding 三个任务,把视频时序定位重新表述成"先理解语义结构、再切割片段"的语义驱动问题,在 9 个任务上稳定超过时间戳生成方法。

Memento: Toward an All-Day Proactive Assistant for Ultra-Long Streaming Video

Memento 用"动态记忆 + 查询相关记忆选择 + 步感知记忆注意力"把在线视频 LLM 从"token 越积越多、几十分钟就 OOM"的困境里解放出来,做到了在长达 7 小时的超长视频流上有界显存、主动提醒用户的全天候助手能力。

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

针对现有"组合视频检索"基准只管视觉、丢掉音频的问题,本文构建了 OmniCVR——首个把视觉、音频、文本都当作一等模态的大规模组合视频检索基准(50K 三元组 / 5K 金标准测试集),并提出 AudioVLM2Vec,把音频转成文字描述喂进 VLM 嵌入模型,在音频中心查询上把 R@1 从 12.4 拉到 77.2。

OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding

本文把经典「时空视频定位(STVG)只定位单个目标」的任务扩展成 OmniSTVG——定位文本查询里提到的所有目标(含交互对象),配套提出首个万级基准 BOSTVG(10,018 视频、287 类、目标数 1~10)和一个基于 DETR 思路的方法 OmniTube,在所有指标上超过被改造适配的现有 STVG 方法。

Point Prompting: Counterfactual Tracking with Video Diffusion Models

本文发现预训练的图像条件视频扩散模型自带"零样本点追踪"能力——只要在首帧目标点上画一个醒目的红点,再用 SDEdit 重新生成后续帧,红点会被传播到每一帧描出轨迹,配合"用原始帧作负提示"的反事实增强,在 TAP-Vid 上超过所有零样本基线、逼近自监督方法,并能穿越遮挡。

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

针对 Video LLM 因视觉 token 太多而低效的问题,PPLLaVA 用「CLIP 算出的提示-视频相关性图」作为动态 3D 卷积核去压缩 token,把视觉序列最多压到原来的 1/18,还能把和用户指令相关的关键画面保留下来,在 7 个视频理解 benchmark 上既提速又涨点。

Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions

针对"在线流式视频里到底该在哪一帧作答"这个被离线评测忽视的问题,本文提出 Thinking-QwenVL 框架,用一个把进度 \(\rho\) 和置信度 \(c\) 外显出来的透明决策控制器(ATDM)让回答时机对齐到"证据首次充分"的时刻 \(t^\star\),并用一套跨片段传播的可学习聚合 token(HPSI)在 token 预算内维护全局因果状态,把 StreamingBench 的 SOTA 从 67.63% 提到 71.60%。

QueryStream: Advancing Streaming Video Understanding with Query-Aware Pruning and Proactive Response

QueryStream 把用户 query 直接接入流式视频的 token 剪枝和响应调度,用查询感知差分剪枝 QDP 过滤无关且重复的视觉 token,再用 RTAR 在“相关且有新信息”的时刻主动触发 Video-LLM,从而在保留约 30%-57% token 的情况下达到或超过强 online baseline。

RIVER: A Real-Time Interaction Benchmark for Video LLMs

RIVER Bench 将视频大模型的在线交互能力拆成回忆过去、理解当前、等待未来事件后主动响应三类任务,并用带时间戳的问答与响应时机指标证明:传统离线 Video LLM 即使离线问答不错,在真实流式交互中仍明显缺记忆、缺时机判断,而长短期记忆与专门的 proactive 训练可以带来可观提升。

ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding

ScaleLong 提出首个把 Clip / Shot / Event / Story 四个时间尺度的问题全部嵌入同一段长视频的评测基准,从而在内容固定的前提下直接对比 MLLM 在不同时间粒度上的能力,并在 23 个模型上揭示出一条稳定的 U 型性能曲线(两端高、中间塌)。

SPIKE-RL: Video-LLMs Meet Bayesian Surprise

本文用「贝叶斯惊奇」把视频里的意外时刻量化成一个可解释的分数——通过追踪 Video-LLM 对「接下来会发生什么」的信念分布在看到新帧前后的 KL 散度,定位惊奇片段,再用惊奇分加权采帧把固定帧预算更多分给这些关键时刻;进一步用 GRPO(SPIKE-RL)以视频字幕质量为奖励反向优化信念假设,在 5 个下游视频理解任务上一致提升。

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-Modal LLMs for Video Anomaly Detection

提出 SteerVAD 框架,在完全冻结的多模态大语言模型 (MLLM) 内部,通过识别"潜在异常专家"注意力头并用层次化元控制器动态操控其表示流形,仅用 1% 训练数据即实现免调优视频异常检测的 SOTA。

StPR:面向无样本回放视频类增量学习的时空保持与路由

StPR 把视频特征显式拆成「帧间共享语义」和「时序动态」两路,用 FSSD 通道级蒸馏锁住重要的语义通道来抗遗忘、用基于时序分解的混合专家(TD-MoE)在推理时按时序动态给每个任务专家打权重,在完全不存旧样本的前提下做视频类增量学习,并在 UCF101 / HMDB51 / SSv2 / Kinetics400 上超过此前所有方法(含需要存样本的)。

TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

TAPTRv3 面向长视频中的任意点跟踪,在 TAPTRv2 的 DETR-like 点查询框架上引入空间上下文交叉注意力、可见性感知长时注意力和 scene cut 触发式全局匹配,使模型在长序列、遮挡和镜头切换下显著减少特征漂移并刷新多项 TAP benchmark 结果。

UniTrack: Differentiable Graph Representation Learning for Multi-Object Tracking

UniTrack 把多目标跟踪建模成一个可微的"图流网络",提出一个即插即用的图论损失函数,把检测精度、身份保持、时空一致性统一进一个端到端可训练目标,不改任何模型结构就能挂到 7 种现有跟踪器上训练,在多个 benchmark 上 ID switch 最多降 53%、IDF1 最多升 12%。

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction

V2P-Bench 构建了一个面向视频视觉提示理解的人机交互评测基准,用 980 个视频和 1172 个带人工视觉提示帧的 QA 样本系统检验 LVLM 是否能围绕用户“指到的目标/时刻”做细粒度视频理解,并发现当前模型虽然能零样本理解部分视觉提示,但在时空关系、长视频和拒答诚实性上仍明显落后于人类。

VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks

VidBridge-R1 发现视频 QA 与视频 captioning 在 RL 训练中存在收敛式回答和发散式描述的目标冲突,并用 DarkEventInfer 与 MixVidQA 两个中间代理任务把二者桥接起来,从而在一个 Reason-Then-Respond 视频模型里同时提升问答、推理和描述能力。

Video-KTR: Reinforcing Video Reasoning via Key Token Attribution

提出 Video-KTR,一种模态感知的策略塑造框架,通过反事实分析识别视觉感知型、时序敏感型和高熵 Token 三类关键 Token,仅对这些 Token 执行选择性强化学习更新,在多个视频推理基准上达到 SOTA(Video-Holmes 42.7%,超越 GPT-4o)。

Video-LevelGauge: Investigating Contextual Positional Bias in Video Language Models

本文提出 Video-LevelGauge,一个专门评测视频大模型(LVLM)"上下文位置偏差"的基准——把标准化探针片段插入到上下文的不同位置,用相对分数 + 偏差模式识别来量化模型对同一内容在不同位置是否理解一致,并在 27 个 SOTA 模型上揭示了开源模型普遍存在的头部/邻近偏好。

Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools

Video-STAR 把开放词表动作识别(OVAR)重新表述成一个「先选工具、再分解子动作」的序贯决策过程:在推理时让多模态大模型按需调用姿态估计、人体检测、在线检索等领域工具补充视觉证据,并把整体动作拆成可区分的子动作原语逐一打分匹配;再配合一个同时奖励准确率、工具效率与子动作相关性的分层奖励,用 GRPO 把模型从「依赖文本先验」训练成「视觉落地推理」,在 HMDB-51、UCF-101、K-400/600、SSv2 五个基准上大幅刷新 SOTA。

Video Scene Segmentation with Genre and Duration Signals

这篇论文把电影制作端的"题材类型约定"和"镜头时长规律"两类元数据引入视频场景分割:用 IMDb 的文字类型定义作为语义先验来增强镜头表示、用偏好短镜头的时长加权采样生成更多样的伪边界、再在推理时把长镜头切片,最终在 MovieNet-SSeg / BBC 上刷到 SOTA,并发布了带场景边界标注的 MovieChat-SSeg 基准。

VideoNSA: Native Sparse Attention Scales Video Understanding

本文提出 VideoNSA,将 Native Sparse Attention(NSA)引入视频语言模型,通过压缩、选择和滑动窗口三分支动态门控的混合稀疏注意力机制,在仅使用 3.6% 注意力预算的条件下实现 128K token 的视频理解,在长视频理解、时序推理和空间理解任务上全面超越 token 压缩和无训练稀疏注意力基线。

VUDG: A Dataset for Video Understanding Domain Generalization

VUDG 构建了首个专门评测视频理解域泛化能力的数据集,用 11 个共享同一语义空间、只在视觉风格/视角/环境条件上变化的域,配合多专家级联自动标注流水线生成 36K 问答对,结果显示包括最强 LVLM 在内的几乎所有模型遇到域偏移都会明显掉点。

What Happens Next? Anticipating Future Motion by Generating Point Trajectories

本文把"从单张图像预测未来运动"这件天然有歧义的事,重铸成对一张稠密网格点轨迹的条件生成任务:用一个轨迹 VAE 把整张图的点轨迹压进潜空间,再用整流流匹配(rectified flow)在潜空间里采样多种可能未来,效果在多个仿真/真实场景上既比回归式轨迹预测器更准、又比"先生成 RGB 视频再追踪"的视频大模型更物理可信。