跳转至

📹 视频理解

📷 CVPR2026 · 187 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (48) · 🧪 ICML2026 (17) · 🤖 AAAI2026 (27) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (56) · 🧪 ICML2025 (4)

🔥 高频主题: 目标跟踪 ×35 · 语义分割 ×14 · 压缩/编码 ×11 · 多模态 ×10 · 异常检测 ×8

A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking

提出 PL-Stitch 自监督框架,利用 Plackett-Luce 概率排序模型将视频帧的时序排序作为预训练信号,学习具有"程序感知"能力的视频表示,在手术阶段识别和烹饪动作分割上全面超越现有自监督方法。

Active Intelligence in Video Avatars via Closed-loop World Modeling

针对当前视频数字人"只会被动跟随语音/姿态、缺乏自主目标驱动"的问题,本文提出 L-IVA 任务(把数字人控制建模成以 I2V 生成模型为环境模拟器的 POMDP)和 ORCA 框架——用「观察-思考-行动-反思」(OTAR) 闭环对抗生成随机性、用 System 2/System 1 双系统分层完成开放域规划与精确落地,在 100 个任务的基准上把平均任务成功率做到 71.0%,显著超过开环、反应式与无反思基线。

Adaptive Capacity Autoregressive Visual Tracking

ARTrack-AC 把自回归跟踪从"固定算力逐帧预测"扩展成"系统级自回归"——用一个轻量扩散轨迹估计器预判未来一小段视频的稳定性,再让控制器在简单段切到低算力并行模式、在困难帧切到高算力顺序模式,从而在 LaSOT 上达到 66.7% AUC 的同时比前作快 2.9 倍。

AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding

提出 AdaSpark,通过 3D 时空 cube 分区和两个协同的自适应稀疏机制(cube 级注意力选择 + token 级 FFN 选择),将长视频处理 FLOPs 降低最多 57% 同时保持性能。

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

AdaSpot 用低分辨率整帧抓全局语义、再借显著图无训练地圈出每帧最关键的一小块区域送进高分辨率分支补细节,从而在精确事件检测(PES)中只把算力花在"刀刃"上,在 Tennis、FineDiving 等最严格的 mAP@0 帧指标上拿到 SOTA(+3.98 / +2.26 mAP),而几乎不增加计算量。

Affordance-First Decomposition for Continual Learning in Video–Language Understanding

针对视频-语言持续学习中"什么该稳定、什么该可塑"边界模糊的问题,本文提出 Affordance-First Decomposition(AFD):把视频映射成缓变的 affordance token 作为跨任务共享、稳定的"证据底座",把可塑性集中到一个按 query 路由、按冲突长秩的 LoRA 调度器里,并用仅存储问题(不存视频)的回放蒸馏来防遗忘,在 ViLCo-Bench、domain/time-incremental VideoQA 上同时拿到更高准确率与更低遗忘。

Alert-CLIP: Abnormality-aware Latent-Enhanced Representation Tuning of CLIP for Video Anomaly Detection

针对 CLIP 在文本空间里把"正常"和"异常"描述高度纠缠、导致视频对两类 prompt 给出几乎一样相似度的问题,本文用全局/区域/难负样本三级跨模态对比训练(配套自建的带框标注数据集 VAGTA)重塑 CLIP 的嵌入几何,让它成为异常感知更强的 backbone,在弱监督、零样本、开放词表三种 VAD 设定下都稳定超过原始 CLIP。

\(\alpha\)Matte4K & \(\mu\)Matting: Dataset and Model for Ultra-Micro Precision Alpha Video Matting

针对 4K 人像视频抠图,本文一边用物理渲染(PBR)造了一个像素级精确、前景背景物理自洽的大规模数据集 \(\alpha\)Matte4K,一边提出 \(\mu\)Matting——先用人像先验 MAE 出一张粗 alpha 并圈出"难点区域",再只对这些稀疏区域做 3D 卷积细化,从而首次实现不降采样的全分辨率 4K 视频抠图,精度和时序一致性都超过现有 SOTA。

An Efficient Token Compression Framework for Visual Object Tracking

针对多帧模板跟踪中视觉 token 爆炸又冗余的问题,ETCTrack 用一个可学习的自适应 token 压缩器(ATC)先把历史模板帧压成精炼子集、再用层级交互块(HIBlock)与搜索区域深度交互,在 7 个跟踪基准上同时刷新精度并降低计算量(模板 token 减 60%、MACs 减 21.4%,精度仅掉 0.4%)。

An Empirical Study on How Video-LLMs Answer Video Questions

这篇论文用"注意力 knockout"系统性地解剖了 Video-LLM 回答视频问题的内部机制,发现它们存在清晰的"前层感知、后层推理"两阶段模式、时空建模主要靠语言→视频的检索而非帧内/帧间视频自注意力、且只有少数中间层是关键层,并据此设计了一个简单的视觉 token 早退 + 时序注意力裁剪策略大幅省算力而几乎不掉点。

Asynchronous Temporal Modeling with Two-Agent Framework for Streaming Dense Video Captioning

针对流式稠密视频描述里"何时该说话"难以靠阈值控制的痛点,本文用一个小模型当"先知"(Oracle)抢跑检测事件边界、一个大模型当"听众"(Listener)收到信号才生成描述的双智能体异步框架 Takusen,从机制上消除阈值,在 ActivityNet Captions 和 YouCook2 上取得流式 SOTA。

AutoCut: End-to-end Advertisement Video Editing Based on Multimodal Discretization and Controllable Generation

AutoCut 提出了一个端到端的广告视频编辑框架,通过残差向量量化(RQVAE)将视频、音频和文本统一到共享的离散 token 空间中,在 Qwen3-8B 上进行多模态对齐和监督微调,实现了视频选择、排序、脚本生成和背景音乐选择四项任务的统一处理,在多项指标上超越 GPT-4o 基线。

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

提出 AutoGaze,一个仅 3M 参数的轻量模块,在 ViT 之前自回归选择最少的多尺度 patch 集合以重建视频,去除 4×-100× 时空冗余,实现 ViT 最高 19× / MLLM 最高 10× 加速,首次使 MLLM 可扩展到 1K 帧 4K 分辨率视频,在 VideoMME 上达到 67.0%。

Beyond Explicit Language: Plug-and-Play Visual-to-Linguistic Modeling Toward General Object Tracking

针对视觉-语言跟踪依赖静态文本、缺文本即失效的痛点,本文提出一个即插即用模块 TIMI:用"文本反演模块"把模板和搜索区域的视觉 patch 反向映射成 CLIP 文本嵌入空间里的伪描述(pseudo-description),再通过"多层语义注入机制"把这些隐式语言线索逐层注回视觉骨干,从而无需任何显式文本输入就能为跟踪提供动态自适应的语义引导,在 MCITrack/DUTrack/SeqTrack 等多个跟踪器上以极小开销稳定涨点。

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

在不改动 ViTPose 朴素 ViT 主干和轻量解码器的前提下,TAR-ViTPose 用「关节为中心的时序聚合(JTA)+ 全局恢复注意力(GRA)」即插即用地把相邻帧的关节特征对齐聚合并注回当前帧,使视频 2D 姿态估计在 PoseTrack2017 上比单帧 ViTPose 提升 +2.3 mAP,同时跑得更快(ViT-S 达 413 fps)。

Boosting Self-Supervised Tracking with Contextual Prompts and Noise Learning

PNTrack 给自监督跟踪器装上一套「双模态上下文关联(DCA)」机制——训练早期把语义 patch token 当提示喂给前/后向跟踪分支加速收敛,后期再注入随机背景 token 当噪声扰动特征空间逼模型学鲁棒表征,且整套机制只在训练时启用、推理时完全去掉,在 8 个跟踪基准上刷新了自监督 SOTA。

Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation

DiTTA 用一个轻量时序 add-on,把只会逐帧分割的图像分割(ISS)模型在测试视频的前若干帧上、靠蒸馏 SAM2 的时序传播能力做测试时自适应(TTA),把它"自举"成视频专用的 VSS 模型,之后冻结模型对剩余帧高速推理,无需任何视频标注,且在 VSPW 上反超全监督 VSS 方法。

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

作者提出 DynUAV——一个故意用激进无人机机动制造强烈自运动(ego-motion)的多目标跟踪基准(42 段视频、170 万+ 标注框、8 类目标),打破现有 UAV-MOT 数据集"平滑近线性运动"的隐含假设,并用 11 个 SOTA 跟踪器证明:在剧烈视角/尺度突变下,现有方法的检测和关联会同时崩盘。

Building a Precise Video Language with Human-AI Oversight

针对视频字幕"无规范、无监督、模型爱幻觉"的老问题,本文用一套结构化规范(5 个维度 + 200+ 视觉基元) 定义"该描述什么",再用 CHAI(批评式人机监督) 让模型先写 pre-caption、人类只写"批评"指出错误、模型据此改成 post-caption,自然产出 (pre-caption, critique, post-caption) 三元组;用这些偏好和批评信号做 SFT/DPO 后训练,让开源 Qwen3-VL-8B 在字幕生成、奖励建模、批评生成三项任务上全面超过 Gemini-3.1-Pro,并能反哺 Wan2.2 文生视频跟随 400 词的长 prompt。

CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects

针对密集视频物体描述(DVOC)缺少 object 级标注数据的痛点,本文用 VLM(Gemini 2.0 Flash)在画了 bounding box 的视频上自动生成 object 级字幕,把 LVIS/LV-VIS 扩成首个带 (mask, box, category, caption) 四元组的 DVOC 训练集(LVISCap / LV-VISCap),并训练 CaptionFormer——首个端到端联合「分割+检测+跟踪+描述」每条物体轨迹的模型,在 VidSTG/VLN/BenSMOT 三个 benchmark 上刷新 SOTA。

CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization

提出 CineSRD,一个免训练的多模态说话人分离框架,通过视觉锚点聚类进行说话人注册,结合音频语言模型进行说话人转换检测,解决影视作品中长视频、大量角色、音视频不同步等开放世界挑战。

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

提出 CLCR 框架,将每个模态特征组织为三层语义层级(浅/中/深),通过层内受控交换域(IntraCED)限制跨模态交互仅在共享子空间进行,通过层间协同聚合域(InterCAD)实现跨层自适应融合,解决多模态学习中的跨层语义不同步问题。

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

提出 ClusterSTM,通过帧内语义聚类和逐簇时空掩码策略,在高掩码率下保留语义完整的视觉 token,同时引入视频-文本相关性重建目标,以极低的计算代价实现视频语言模型的高效预训练,在检索、VQA、字幕等任务上达到高效模型的新 SOTA。

CoCoVideo: The High-Quality Commercial-Model-Based Contrastive Benchmark for AI-Generated Video Detection

针对现有 AIGC 视频检测数据集普遍依赖低质量开源生成模型、难以泛化到高保真商业模型的问题,本文构建了覆盖 13 个商业生成模型、26K 段"语义对齐真假配对"的 CoCoVideo-26K 基准,并提出 CoCoDetect 框架——用 R3D-18 双头对比训练捕捉纹理级差异、再用置信度门控把不确定样本路由给 MLLM 做物理/语义推理,在自建集上平均 Acc 90.69%、AUC 95.93%,均超过现有方法。

Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing

提出"灰度常开、彩色按需"新范式,通过 ColorTrigger 在灰度流上用轻量二次规划在线检测色彩冗余,仅使用 8.1% 的 RGB 帧即保持全彩基线 91.6% 的性能,实现资源受限设备的 always-on 视频感知。

CoWTracker: Tracking by Warping instead of Correlation

CoWTracker 把稠密点追踪里"算 cost volume 找匹配"换成"按当前轨迹估计把目标帧特征 warp 回参考帧 + 时空 Transformer 全局推理",去掉了随分辨率平方增长的代价体,在 TAP-Vid / RoboTAP 上拿到 SOTA,且同一个模型零样本迁移到光流也能打过专门的光流方法。

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

提出 CVA(Context-aware Video-text Alignment)框架,通过 Query-aware Context Diversification(QCD)、Context-invariant Boundary Discrimination(CBD)损失和 Context-enhanced Transformer Encoder(CTE)三个协同组件,解决视频时序定位中的假阴性和背景关联问题,在 QVHighlights 上 [email protected] 提升约 5 个点。

D2FANet: Enhancing Video Object Detection with Dual-Domain Feature Aggregation Network

D2FANet 第一次把频域特征聚合引入视频目标检测,用一条频域分支(八度卷积分解高低频 + 跨尺度邻域融合 + 频域时序注意力)和一条时空分支(重要性图引导的自适应 token 聚合)分别强化 object query,再拼接送进检测头,在 ImageNet VID 上以 Swin-Base 达到 91.8% mAP 且推理最快。

DarkAct: A RGB-Thermal Dataset and Fusion Framework for Multimodal Low-Light Action Recognition

针对夜间/低光照下人体动作识别缺数据、缺方法的空白,作者构建了首个大规模 RGB–热成像配对视频数据集 DarkAct(12,778 对视频、27 类动作),并提出融合框架 DarkAct-Net——用运动感知注意力提取人体运动显著区、用光照自适应融合按可靠性动态整合两模态,在多模态识别上达到 74.4% Top-1,大幅超越所有单模态与现有融合基线。

DarkShake-DVS: Event-based Human Action Recognition under Low-light and Shaking Camera Conditions

针对"低光 + 手持 6-DoF 抖动"这一真实但被长期忽视的动作识别场景,本文先用 IMU 角速度驱动一套自适应运动补偿(AIMC)把抖动造成的事件流畸变矫正掉,再用迭代贪心采样(IGS)挑出最有信息量的关键帧,最后用四阶段混合 Swin Transformer(HSTS)做识别,并配套发布了首个低光 + 强抖动 + 同步 IMU 的事件动作数据集 DarkShake-DVS(18,041 段、62 类),在三个基准上均超过 SOTA。

DeRVOS: Decoupling Consistent Trajectory Generation and Multimodal Understanding for Referring Video Object Segmentation

DeRVOS 把指代视频目标分割(RVOS)拆成"一致轨迹生成"和"多模态理解"两条上游分支,分别用冻结的 DVIS++ 和预训练的 BEiT-3 直接产出稳定的实例轨迹和对齐的视觉-文本特征,再用一个 TAIS 模块把任务收敛成"指代表达式 ↔ 实例轨迹"的匹配,在 MeViS 上比 LVLM 方法高 4.7%。

DETACH: Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning

针对"固定摄像头视频 + 环境传感器"这一全新的非侵入式动作识别场景,DETACH 把视频和传感器都拆成"空间分量 + 时间分量",先用在线聚类建立跨模态的空间对应,再用空间引导的加权对比损失做细粒度时间对齐,在 Opportunity++ / HWU-USP 上比改编自第一人称基线的方法 F1 提升最高 30%、mAP 提升最高 50%。

DIvide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

提出 DIG,一个免训练的帧选择框架,通过将查询分为全局查询和定位查询两类,对全局查询使用均匀采样、对定位查询使用一套专门的内容自适应帧选择+LMM奖励评分+视频精炼流水线,在三个长视频理解基准上持续超越现有方法。

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

提出 EgoPointVQA 数据集和 HINT(Hand Intent Tokens)方法,通过将 3D 手部关键点编码为手意图 token 并与视觉 token 交错输入 MLLM,解决第一人称视频中基于手势指向的指示性问答任务,HINT-14B 达 68.1% 准确率超越 InternVL3-14B 5.4pp。

Drift-Resilient Temporal Priors for Visual Tracking

提出 DTPTrack——一个轻量即插即用的时序建模模块,通过时序可靠性校准器(TRC)为历史帧分配可靠性分数过滤噪声,并通过时序引导合成器(TGS)将校准后的历史信息合成为动态先验 token 抑制跟踪漂移,在多个基准上达到 SOTA。

Dual-Agent Reinforcement Learning for Adaptive and Cost-Aware Visual-Inertial Odometry

提出双智能体强化学习框架,通过 Select Agent(基于IMU信号决定是否启动视觉前端)和 Fusion Agent(自适应融合视觉-惯性状态)两个轻量RL策略,在不完全移除VIBA的前提下大幅降低其调用频率和计算开销,实现精度-效率-显存的更优折中。

Dynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos

本文把"从单目视频反推刚体物理状态与参数"重新定义成一个文本生成问题:训练一个 VLM(ΔYNAMICS,基于 Qwen2.5-VL-3B)直接吐出一段描述整个场景的 YAML 配置(几何 / 初速 / 材料 / 相机 / 重力),交给 MuJoCo 重新仿真,并辅以"先用自然语言推理运动事件、再生成配置"和"光流输入"两招提升泛化,在 CLEVRER 上分割 IoU 比主流 VLM 高 7 倍,并能迁移到 235 段真实视频。

EarlyTom: Early Token Compression Completes Fast Video Understanding

EarlyTom 是一个免训练的视频 token 压缩框架,它把压缩点从"视觉编码器之后"提前到"视觉编码器内部"做帧合并,再配一套解耦的空间 token 选择策略,在 LLaVA-OneVision-7B 上把首 token 时延(TTFT)最多降 \(2.65\times\)、FLOPs 降 61%,同时精度保持在全 token 基线的 96% 以上。

Efficient All-Pairs Correlation Volume Sampling for Optical Flow Estimation

针对 RAFT 系光流方法里「全配对相关体采样」在高分辨率下要么显存爆炸、要么算得慢的两难,本文从「实际只采样了 1.6% 的相关体」这一观察出发,设计了一个块稀疏 + patch-major 布局 + 融合 CUDA kernel 的采样算子:在数学上逐位精确复刻 RAFT 的采样定义,却把时空复杂度从平方降到线性 \(\mathcal{O}(n)\),端到端推理最多省 63–67% 时间,并在自建 8K 数据集上拿到精度-速度 Pareto 前沿的 SOTA。

Efficient Frame Selection for Long Video Understanding via Reinforcement Learning

针对长视频理解中"均匀采样漏掉关键帧"的问题,本文训练一个轻量、即插即用的查询自适应帧选择器——先用冻结 CLIP 蒸馏出语义相关性先验,再用改进的 GRPO(带帧级+组合级分层奖励)直接以下游 MLLM 答对率为信号微调,在四个中长视频 benchmark 上平均涨 +3.28%、长视频上更明显。

Ego-Grounding for Personalized Question-Answering in Egocentric Videos

本文提出 MyEgo——首个针对「个性化自我中心视频问答」的诊断性基准(541 段长视频、5K 道问"我的东西/我的活动/我的过去"的问题),系统检验主流 MLLM 是否能做 ego-grounding(理解、记住、追踪"戴相机的人/我");结果发现 GPT-5 仅 46% 准确率、落后人类近 40 个点,且放大模型规模和加思维链都救不了,瓶颈在长程记忆与身份追踪。

EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions

提出 EgoXtreme,首个面向极端条件下第一人称视角的大规模 6D 物体位姿估计基准数据集,涵盖严重运动模糊、动态光照和烟雾遮挡三种真实挑战,揭示了当前 SOTA 位姿估计器在这些条件下的严重失效。

ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Video Understanding

本文提出"语义聚合幻觉(SAH)"这一被忽视的视频幻觉类型——模型每一帧都看对了,却在跨事件聚合时把语义张冠李戴——并构建首个针对它的基准 ELV-Halluc(348 个多事件视频、对抗三元组问答),系统评测 19 个 MLLM,证明 SAH 随语义复杂度上升,并用改进位置编码 + 8K 对抗对 DPO 把 SAH Ratio 最多降 27.7%。

Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking with Probabilistic Evaluation and Calibration

提出一种数据高效的后验校准方法,通过等保序回归将不确定性感知视线追踪模型的预测分布与真实观测分布对齐,并引入 Coverage Probability Error (CPE) 指标替代不可靠的误差-不确定性相关性(EUC)来评估不确定性质量。

Enhancing Video Vision Language Model with Hippocampal Sensing

本文模仿海马体的跨模态联想机制,让视频 VLM 先用「跨模态时序预测」(看视频补音频、听音频补视频)做 SFT,再用一种带「负样本感知奖励」的对比 RL(VANAO)逼模型真正联合音视频推理,使 7B/8B 小模型在多个视频 VQA 上逼平 GPT-4o、Gemini-1.5-Pro。

Envisioning the Future, One Step at a Time

本文将开放集未来场景动态预测建模为稀疏点轨迹的逐步推理,通过自回归扩散模型实现从单张图像快速生成数千种多样化未来假设,速度比稠密模型快数个数量级。

EthoCLIP: Ontology-Enhanced Video-Language Pretraining for Animal Behavior Understanding

针对动物行为视频"数据极度稀缺"的痛点,本文把专家构建的神经行为本体(NBO)当作归纳偏置注入 CLIP 式视频-语言对比学习:先用本体统一标注口径构建 7.4 万条视频的 AnimalBand 数据集,再用本体语义嵌入 + 层级感知图注意力把行为标签之间的"父子/同义"关系显式编码进文本端,从而在迁移与分类上显著超过传统骨干和通用 VLM,且只用 40%–60% 数据就能逼近全量效果。

EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成

提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程,让视频tokenizer按片段复杂度自适应分配token长度,在UCF-101上节省24.4%+ token同时达到SOTA生成质量。

Event6D: Event-based Novel Object 6D Pose Tracking

EventTrack6D 提出事件-深度融合的 6D 位姿追踪框架,通过在任意时间戳重建强度和深度图像来弥补事件相机与深度帧率的差异,在仅合成数据训练的条件下以 120+ FPS 实现了对未见目标的鲁棒追踪。

Exploring Adaptive Masked Reconstruction for Self-Supervised Skeleton-Based Action Recognition

针对骨架掩码自编码器(MAE)训练慢、且对所有时空区域一视同仁的问题,AMR 用「解耦的交叉注意力解码器」实现「预测更少更大 patch」来大幅加速,再用「运动能量引导的焦点重建」把大 patch 重建的注意力压到高运动区域,在 NTU-60/120、PKU-II 上既快 8 倍又涨点,超过现有 SOTA。

Fine-VAD: Towards Fine-Grained Video Anomaly Detection via Progressive Cross-Granularity Learning

针对"每类异常样本太少"的细粒度视频异常检测难题,本文提出渐进式跨粒度学习范式——先用海量二元标签学通用异常表示、再用 K-means 伪宏类搭中间语义骨架、最后用稀疏类别标签精修,并以 CLIP 对齐实现为 Fine-VAD,在 UCF-Crime / XD-Violence 上把细粒度异常分类的平均 mAP 相对提升达 47.7%。

First Frame Is the Place to Go for Video Content Customization

发现视频生成模型将第一帧隐式地当作「概念记忆缓冲区」来存储和复用多个视觉实体的内在能力,提出 FFGo——仅用 20-50 个训练样本的轻量级 LoRA 适配方法,无需修改架构即可激活这一能力,实现多参考物体的视频内容定制,在用户研究中 81.2% 的情况下被评为最佳。

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

提出 FlashMotion,首个实现少步(4步)轨迹可控视频生成的三阶段训练框架,通过训练轨迹适配器→蒸馏快速生成器→混合对抗+扩散微调适配器的策略,在 4 步推理下同时超越现有多步方法的视觉质量和轨迹精度,实现 47 倍加速。

FlexiVideo: Variation-Aware Temporal Dynamics Modeling for Efficient Video Understanding

FlexiVideo 不再对所有视频帧用固定的多帧编码窗口,而是先按帧间差分把视频切成"内部视觉变化平缓"的场景片段,再用一个可动态调整时序窗口的共享 3D 卷积核做场景级编码,从而在把视觉 token 砍掉 43.5% 的同时还能在 6 个视频基准上稳定超过 Qwen2.5-VL-3B。

FlowFM: Advancing Dark Optical Flow Estimation with Flow Matching

FlowFM 把"流匹配(flow matching)"第一次引入暗光光流估计(DOFE),用显式流场回归把"噪声→光流"建模成一条可一步走完的传输路径,再配上一个在频域增强幅度、锚定相位的傅里叶去噪解码器 IFDD,在 FCDN / VBOF 两个暗光基准上把 EPE 大幅刷低(VBOF 比次优方法降 35%),且推理只需一步、速度反而最快。

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding

提出 FluxMem,一个无需训练的流式视频理解框架,通过层级化记忆设计(短期/中期/长期)和两个自适应 token 压缩模块(TAS 去时间冗余 + SDC 去空间冗余),在丢弃 60-70% 视觉 token 的同时在 StreamingBench 和 OVO-Bench 上取得新 SOTA。

FPS-Bench: A Benchmark for High Frame-Rate Video Understanding

针对当下视频大模型几乎都把视频降采样到 <1 FPS 这一盲点,作者构建了 FPS-Bench——一个全部由"必须看高帧率才能答对"的问题组成的视频问答基准(1000 题 / 554 段视频),并提出 minFPS 指标量化每道题的最低帧率需求;结果显示 SOTA VLM 准确率仅约 30%(随机 25%),而人类超过 70%,暴露出模型在快速时序事件感知上的根本缺陷。

Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

提出 Frame2Freq——首个在频域进行时序建模的 PEFT 适配器族,通过 FFT 将冻结 VFM 的帧嵌入变换到频谱空间并学习频带级滤波,在五个细粒度动作识别基准上以 <10% 的可训练参数超越全量微调模型。

From Contrast to Consistency: Rethinking Event-based Continuous-Time Optical Flow Estimation

针对事件相机连续时间光流缺乏密集真值、而对比度最大化(CM)又只追求"对齐到一点"忽略轨迹连续性的问题,本文提出时空结构一致性(STSC) 自监督范式,把事件看成时空流形上的采样而非待对齐的散点,配合双向多尺度网络和课程引导的混合监督训练,在 DSEC-Flow / MVSEC 上同时刷新标准光流和高时间分辨率(HTR)光流的 SOTA(DSEC EPE 0.663,相对 BFlow 降 11.6%)。

Gamba: Mamba-based Graph Convolutional Network with Dynamic Graph Topology Learning for Action Recognition

针对"直接把 GCN 和 Mamba 堆在一起会让 Mamba 沿着物理上不相邻的关节顺序乱扫"这一问题,Gamba 先用一个节点分类模块把骨架关节按运动类别重排成对 Mamba 友好的序列,再用单向扫描的状态空间模型同时建模类内局部与类间全局关系,配合 Mamba-TCN 做时序建模,在 NTU RGB+D 60/120 与 NW-UCLA 上以更低的自注意力开销刷到 SOTA。

Generative Point Tracking and Forecasting

把"点跟踪"(预测点现在在哪)和"轨迹预测"(预测点将来去哪)统一成同一个视频条件下的点生成问题——训练一个因果的、用视频特征做条件的流匹配扩散 Transformer,有视觉条件时做跟踪、撤掉视觉条件时自然切换成预测,在点预测基准上超过所有先前方法,跟踪精度也逼近高度调优的回归式 SOTA。

GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding

GIFT 是一个免训练的关键帧选择框架,把"选哪些帧喂给视频大模型"从贪心式逐帧加点,重构成全局评估每一帧的"不可替代性"(相关性高 × 在更相关帧中视觉上孤立),再用"预算自适应精化"随帧预算增大逐步补回时序上下文,在 LLaVA-Video-7B 上相比均匀采样最高平均提升 12.5%。

Gloria: Consistent Character Video Generation via Content Anchors

Gloria 提出用一组紧凑的"内容锚帧"(Content Anchors)表征角色的多视角外观和表情身份,通过超集内容锚定(防止复制粘贴)和 RoPE 弱条件(区分多锚帧)两个机制,实现超过 10 分钟的长时一致角色视频生成。

GoalForce: Teaching Video Models to Accomplish Physics-Conditioned Goals

提出 Goal Force 框架,通过多通道物理控制信号(目标力、直接力、质量)在简单合成数据上训练视频生成模型,使其学会从目标效果逆向规划因果链,实现零样本泛化到工具使用、人-物交互等复杂现实场景。

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

SelVA 提出了文本条件的选择性视频到音频(V2A)生成任务,通过可学习的补充 token [SUP] 和自监督视频混合策略,使模型能够根据文本提示从多声源视频中仅生成用户指定的目标声音,在音频质量、语义对齐和时间同步上均超越现有方法。

HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

HERBench 是一个专为多证据整合设计的视频问答基准,包含 26,806 个五选一问题,每题结构性地要求融合 ≥3 个时间分散的非重叠视觉线索;通过提出最小必需帧集(MRFS)指标揭示了当前 Video-LLM 的两个关键瓶颈:帧检索不足和证据融合失败。

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

本文提出"开放词表时序句子定位"(OV-TSGV)新任务并构建 Charades-OV / ActivityNet-OV 两个基准,配套设计即插即用框架 HERO——用层次化文本嵌入捕捉多粒度语义,再用语义引导的视觉过滤 + 对比式掩码文本精炼并行强化对齐,在标准与开放词表两类基准上都刷到 SOTA。

HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling

HieraMamba 提出了基于 Mamba 的层次化视频时间定位架构,核心是 Anchor-MambaPooling(AMP)模块,用 Mamba 的选择性扫描将视频特征逐层压缩为多尺度锚点 token,配合 anchor-conditioned 和 segment-pooled 对比损失增强层次表示的紧凑性和判别性,在 Ego4D-NLQ、MAD 和 TACoS 上达到 SOTA。

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

HAL 利用「低层视觉特征变化快、高层动作语义变化慢」这一时间尺度不对称性,构造层级因果生成过程并配上一个平滑转移约束,让模型在只用动作转录(transcript)的弱监督下学到可识别的高层动作隐变量,从而缓解过分割、在 Breakfast / CrossTask / Hollywood / GTEA 四个基准上刷新弱监督动作分割 SOTA。

Hypergraph-State Collaborative Reasoning for Multi-Object Tracking

针对多目标跟踪里运动估计"各目标独立预测、易抖动、遮挡即断"的老毛病,本文提出 HyperSSM:用超图把运动状态相近的目标连成超边做"群体共识",再把超图卷积嵌进状态空间模型(SSM)的状态转移里同时管时间平滑,从而让相关目标互相约束、彼此补全运动,在 MOT17/MOT20/DanceTrack/SportsMOT 四个线性与非线性基准上都拿到 SOTA。

Image Guides Images: Consistent Video Amodal Completion with Rectified In-Context Exemplar Guidance

IC-Amodal 提出一个训练免微调的视频非模态补全(VAC)框架:直接借用预训练图像 inpainting 模型(Flux.1-Fill),把 VAC 重述成"整流式 in-context 学习"——用双帧协同构造可靠样例解决冷启动,再通过子区域注意力权重调制把模型注意力锚定到样例上,从而在不训练的情况下同时拿到开放世界泛化和帧间一致性,超过需要在合成数据上微调的 SOTA。

Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation

提出"交互式跟踪"新范式——用户可在视频任意时刻用自然语言指令引导/纠正跟踪器,配套发布首个大规模交互跟踪基准 InteractTrack(150 视频、14 万帧、四维评测协议)并实测 25 个 SOTA 跟踪器全部失效,再给出带正负记忆库的强基线 IMAT。

InternVideo-Next: Towards World-Understanding Video Models

InternVideo-Next 把传统掩码视频建模的"编码器-解码器"拆成 编码器-预测器-解码器(EPD) 三段,并用两阶段自监督预训练(阶段一:条件扩散解码器 + 图像级语义先验构造一个"既保细节又有高语义"的潜空间;阶段二:在该潜空间上向冻结教师做潜空间预测学世界知识),仅用公开无标注视频,就让一个没有任何视频-文本监督的模型在 K400/SSv2 等基准上首次超过视频-文本预训练对手。

InterRVOS: Interaction-Aware Referring Video Object Segmentation

本文把"指代视频对象分割"(RVOS)从只分割被指代主体(actor)扩展成同时分出 actor 和 target 两个交互角色的新任务 InterRVOS,配套构建了 12.7 万条带 actor-target 双掩码标注的数据集 InterRVOS-127K,并提出 MLLM 架构 ReVIOSa,用两个角色专属 [SEG_ACT]/[SEG_TAR] token 加注意力掩码损失(AML)显式建模交互方向,在新基准上全面超过现有方法。

Joint Learning of General and Diverse Patterns with Mixture of Memory Experts for Weakly-Supervised Video Anomaly Detection

MoME 用「内部记忆 + 共享外部记忆」的稀疏混合专家框架,让正常/异常两套专家在外部记忆里学共性、在内部记忆里学差异,再借 LLM 生成的异常语义原型来路由专家,从而同时兼顾泛化与判别,在 UCF-Crime 和 XD-Violence 上达到 SOTA(88.32% AUC / 86.15% AP)。

LaDy: Lagrangian-Dynamic Informed Network for Skeleton-based Action Segmentation via Spatial-Temporal Modulation

LaDy 给骨架时序动作分割(STAS)补上了一直被忽视的"物理动力学"维度:它用一条拉格朗日动力学支路从关节坐标显式合成关节广义力(力矩),再用能量一致性损失保证这些力符合功-能定理,最后把力信息分别注入空间特征(融合)和时间特征(分层门控),在六个数据集上刷新 SOTA,尤其在 PKU-MMD v2 上 F1@50 最高提升 5.2%,且只用 1.83M 参数。

LAOF: Robust Latent Action Learning with Optical Flow Constraints

提出LAOF框架,利用智能体的光流作为伪监督信号约束潜动作学习,使潜动作表示对干扰更鲁棒,在LIBERO和PROCGEN上显著超越无监督基线,且在无标签条件下匹配或超越使用1%动作标签的监督方法。

Learnable Motion-Focused Tokenization for Effective and Efficient Video Unsupervised Domain Adaptation

LMFT 在视频域适应里用「相邻帧 token 的 L1 运动差」量化每个 patch 的运动强度,再用强化学习学一个可微调的运动阈值丢掉低运动(背景)token,只把动作相关 token 送进 ViT,从而同时缓解背景引起的域偏移、把训练时间砍掉 10–20 倍。

Learning from Noisy Supervision: A Denoising-Debiasing Framework for Weakly Supervised Video Anomaly Detection

针对弱监督视频异常检测中 MIL 框架"把异常包里的正常片段错当异常"的噪声监督问题,本文提出即插即用的 D2MIL 框架:先用"噪声样本损失更高"这一规律动态丢弃高损失噪声,再用冻结 VLM 把被误删的难样本捞回来,在 ShanghaiTech / UCF-Crime / MSAD 上稳定提升五种主流 MIL 基线。

Learning from Synthetic Data via Provenance-Based Input Gradient Guidance

本文提出利用合成数据生成过程中自动获得的"出处信息"(provenance)作为辅助监督信号,通过输入梯度引导(抑制非目标区域的输入梯度)直接促进模型学习聚焦于目标区域的判别性表示,在弱监督定位、时空动作检测和图像分类等多任务多模态上验证了有效性。

Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning

提出 AssistMimic,将人-人辅助交互动作的物理模仿建模为多智能体强化学习(MARL)问题,通过运动先验初始化、动态参考重定向和接触促进奖励,首次实现了力交换型辅助动作的物理仿真跟踪。

Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding

针对视频时序定位(VTG)模型「凡查询必给一段时间」的盲目假设,本文用基于 GRPO 的强化微调(RA-RFT)配合四个奖励(格式、拒答-IoU、解释、查询纠错)和一个专门构造的「难无关查询」数据集 HI-VTG,让模型学会拒绝那些语义高度相似但实际不匹配的查询并解释原因,在多个 relevance-aware VTG 场景上把拒答与解释质量大幅拉高,同时不损伤正常的定位精度。

LensWalk: Agentic Video Understanding by Planning How You See in Videos

提出LensWalk,一个让LLM推理器主动控制视频观测范围和采样密度的智能体框架,通过reason-plan-observe循环实现自适应视频理解,无需微调即可在长视频基准上带来5%以上的即插即用性能提升。

Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation

针对现有指代视频对象分割(RVOS)数据集都只有几秒短片、目标几乎全程可见的问题,作者构建了首个分钟级长视频基准 Long-RVOS(2,193 段平均 60 秒、含频繁遮挡/消失重现/镜头切换的视频,附静态/动态/混合三类描述与 tIoU、vIoU 两个新指标),并提出运动增强的基线 ReferMo(用 MPEG-4 关键帧+运动矢量做"局部感知→全局交互",只在关键帧上监督、推理时由 SAM2 传播),在长视频场景下显著超过 7 个 SOTA 方法。

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

提出 LongVideo-R1,一个配备推理能力的多模态 Agent,通过层次化视频树结构和智能导航策略,以平均仅 10.5 轮工具调用实现高效长视频问答,在精度-效率权衡上显著优于穷举式方法。

M4-SAM: Multi-Modal Mixture-of-Experts with Memory-Augmented SAM for RGB-D Video Salient Object Detection

为了把 SAM2 高效迁移到 RGB-D 视频显著目标检测(RGB-D VSOD),M4-SAM 给冻结的 SAM2 编码器注入「模态感知 MoE-LoRA」做参数高效微调、用「门控多级特征融合 + 记忆库」聚合多尺度时序信息、再用「伪引导初始化」摆脱对人工 prompt 的依赖,在三个 RGB-D VSOD 数据集上全指标 SOTA,且整套训练只需约 5 小时两张 4090。

MA-Bench: Towards Fine-grained Micro-Action Understanding

提出 MA-Bench 微动作理解基准,包含 1000 个视频和 12000 个结构化 QA 对,通过"感知-理解-推理"三层评估架构系统测试 23 个 MLLM 的细粒度微动作理解能力,并构建 20.5K 训练语料 MA-Bench-Train 用于模型微调提升。

MaskAdapt: Learning Flexible Motion Adaptation via Mask-Invariant Prior for Physics-Based Characters

本文提出 MaskAdapt 框架,通过两阶段残差学习范式——先训练遮蔽不变的鲁棒基础策略,再训练冻结基础控制器上的残差策略来修改目标身体部位——实现灵活精准的物理仿真人形角色动作适应。

Matching Every Pair to Track Every Point: PairFormer for All-Pairs Tracking and Video Trajectory Fields

PairFormer 把视频运动建模从"追查询的几个点"升级成"预测任意帧对的稠密位移+可见性场"(All-Pairs Tracking, APT),用一个前馈 Transformer(时空编码器 + CorrBank + 广播运动混合器 + 轨迹场解码器)一次前向就吐出全序列一致的稠密轨迹场,并配套合成数据平台 PAIRender 提供 all-to-all 监督与基准,在 APT-Bench 上 SOTA、在标准 TAP 基准上也有竞争力。

MDS-VQA: Model-Informed Data Selection for Video Quality Assessment

MDS-VQA 让 VQA 模型"自己指出哪些视频它评不准",用一个排序式失败预测器估计难度、再叠加内容多样性做贪心选择,只标注 5% 的"难且多样"子集做主动微调,就把多目标域平均 SRCC 从 0.651 提到 0.722 并拿到 gMAD 竞赛第一。

Memory Matters: Boosting Training-Free Zero-Shot Temporal Action Localization with a Learnable Lookup Table

针对"训练无关零样本时序动作定位(TF ZS-TAL)逐视频独立适配、用完即丢、无法积累历史知识"的问题,本文用一张按动作类别维护、随测试流在线更新的可学习查找表(LLT)把高置信度"易判帧"聚合成类别原型,再配一个轻量残差模块把查找项和文本原型对齐到当前视频,从而在不微调 VLM 的前提下让训练无关 ZS-TAL 跨视频复用知识,在 THUMOS'14(75/25 划分)上把平均 mAP 从 T3AL 的 9.2 提到 12.8(相对 +40%)。

MER-Tracker: Towards High-Speed 3D Point Tracking via Multi-View Event-RGB Hybrid Cameras

针对普通 RGB 相机帧率低(约 30fps)、拍高速运动会糊掉且帧间漏掉关键动态的问题,本文用「4 台 RGB + 2 台事件相机」搭了个长方体拍摄装置,并提出 MER-Tracker——把 RGB 的纹理保真和事件流的微秒级时间分辨率融合起来,在 150fps 下输出准确的高速 3D 点轨迹,是首个系统化的高速 3D 点跟踪工作。

META: Meta Evolution of Tool Trajectory Adaptation for Long-Video Understanding

META 让一个免训练的视频理解 agent 在反复解题中"自我进化工具箱"——把成功轨迹里反复出现的多步工具组合凝练成可复用的宏工具,把失败轨迹蒸馏成工具使用约束,不更新任何参数就在三个长视频 benchmark 上把强 VLM 提升 4.6%~7.6%。

Minerva-Ego: Spatiotemporal Hints for Egocentric Video Understanding

Minerva-Ego 是一个面向第一人称(egocentric)长视频复杂推理的评测基准——1,160 道纯人工标注的五选一难题,每题都配有把"何时(时间戳)"与"何处(分割掩码)"绑定起来的密集推理轨迹;作者用它揭示出 SOTA 视频模型(Gemini 2.5 Pro 仅 40.1%,人类 91.8%)的瓶颈主要在感知接地,并证明只要在像素上直接提示模型"看哪里、看哪一帧",准确率最高可提升约 5.8%。

Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos

本文提出 Mistake Attribution (MATT) 任务,将第一人称视频中的操作错误归因到语义(违反了指令的哪个成分)、时间(不可逆转点 PNR 在哪一帧)和空间(PNR 帧中错误区域在哪里)三个维度,通过 MisEngine 数据引擎自动从已有动作数据集构建大规模错误样本,并设计统一的 Transformer 模型 MisFormer 同时完成三个归因子任务,在多个基准上超越各子任务的专用 SOTA 方法。

MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models

把视频扩散模型(VDM)里天然编码的「运动先验」蒸馏出来,作为辅助监督去对齐 VLM 的文本-视觉注意力,从而在不加任何可训练参数、不改架构的前提下显著提升 VLM 对细粒度运动的理解能力。

MoVie: Broaden Your Views with Human Motion for Action Detection

MoVie 把人体骨架运动拆解成一组「运动基元」(可学习的运动字典),再用一个正交投影把这些细粒度运动信号当作「正则器」去校正 RGB 视觉特征,而不是粗暴地把两路特征拼接/融合——在 TSU、Charades、Multi-THUMOS、PKU-MMD 四个真实场景数据集上把帧级动作检测推到新 SOTA(TSU-CS 上比纯视觉基线提升约 +15.9% mAP)。

MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark

提出 MovieRecapsQA,一个基于电影解说视频构建的多模态开放式视频问答基准,包含 60 部电影的约 8.2K 个问题,并设计了基于原子事实 (atomic facts) 的无参考评估指标,揭示了当前 MLLM 在视觉感知而非推理上的关键瓶颈。

MPL: Match-guided Prototype Learning for Few-shot Action Recognition

针对少样本动作识别里「原型学习」和「视频匹配」各自为政、原型与匹配方法不兼容的问题,MPL 把匹配结果反过来用作原型构造的引导信号——先用样本级 E-Match 借 query 语义增强 support 原型、再用跨样本注意力聚合共享动作模式、最后用帧级 K-Match 做精细化,从粗到细地造出更判别、且天然兼容匹配机制的类原型,在四个数据集上刷到 SOTA。

MS-Temba: Multi-Scale Temporal Mamba for Understanding Long Untrimmed Videos

MS-Temba 把 Mamba 的状态空间模型改造成"多尺度膨胀 SSM",用一组不同时间步幅(dilation)的并行分支堆叠成层级结构,再用一个轻量 Mamba 融合器统一各尺度特征——仅 17M 参数就在 40 分钟级的密集标注日常活动视频上把时序动作检测(TAD)做到 SOTA,比 Transformer 方案省 5 倍参数。

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

MuKV 把流式长视频的历史 KV 缓存按 patch/frame/segment 三种粒度同时存储,再用「自注意力 + 频率」双信号剪枝压缩冗余、用「半分层检索」在线召回相关缓存,在不增加显存和在线延迟的前提下显著提升长流视频问答准确率。

MV-TAP: Tracking Any Point in Multi-View Videos

MV-TAP 把"任意点跟踪"(Track Any Point)从单视图扩展到多视图同步视频,直接在 2D 像素空间建模,靠相机射线编码注入几何上下文、再用一层视角注意力跨视角交换信息,从而在单视角被遮挡/运动模糊处借助其他视角把轨迹补全,在 DexYCB / Panoptic Studio / Kubric / Harmony4D 上全面超过逐视角独立跟踪的单视图 SOTA。

Neural-Centric Video Processing Pipeline for Unified Multi-Task Inference

把视频直接编码成隐式神经表示(INR/NeRV),用 CKA 挑出"INR 中间层 ↔ 下游骨干网络注入点"的最佳配对,再训练极轻量的 1×1 卷积 Micro Adapter 做特征转换,从而在推理时只解码到所需中间层、跳过像素重建和骨干早期层,让同一份表示同时服务分类/检测/动作识别/字幕等多任务,端到端延迟最多降 89.5%、推理 FLOPs 最多降 29.9%。

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

提出端到端零样本视频异常检测框架 LAVIDA,通过异常暴露采样器将语义分割数据集转化为伪异常进行训练,结合 MLLM 提取深层异常语义特征和反注意力 token 压缩处理时空稀疏性,无需任何真实 VAD 数据即实现帧级/像素级 SOTA。

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

提出遮挡感知跟踪框架 OA-SORT,通过显式建模目标遮挡状态来缓解位置代价混淆和 Kalman Filter 估计不稳定问题,在 DanceTrack/SportsMOT/MOT17 上均取得 SOTA 级提升,且组件可即插即用地集成到多种跟踪器中。

OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios

针对时空视频定位(STVG)现有数据集类别单一、场景过简的问题,本文构建了覆盖 81 类、3,475 段真实复杂视频的 OmniGround 基准,配套提出前-后-精修(FBR)标注流水线、四维数据质量评估框架 DeepSTG,并给出一个训练无关的两阶段基线 PG-TAF,在四个基准上把 SOTA 在 OmniGround 上的定位精度拉回 25.6%/35.6%(m_tIoU/m_vIoU 相对提升)。

OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

针对视频时序定位(VTG)在开放世界里"稀有概念定不准"的瓶颈,作者用"语义覆盖迭代扩展"管线造了一个 2124 小时、35 万条 query、词表远超现有数据集总和的大规模数据集 OmniVTG,并提出"先预测再自我纠错"的三阶段(SFT→CoT→RL)训练范式,让 Qwen2.5-VL-7B 在四个公开 VTG benchmark 上零样本拿下 SOTA,且稀有概念上几乎不掉点。

One-Shot Flow, Any-Time Frame: A Bidirectional Warping Framework for Event-Based Video Frame Interpolation

针对事件相机视频插帧(E-VFI)中「前向 warping 快但有空洞、后向 warping 质量高但每帧都要重算」的两难,本文提出「One-Shot Flow, Any-Time Frame」:用一次前向计算得到覆盖整段时间的双向运动表示,任意时刻的光流可直接查询,再用带显式修复掩码的双向 warping 融合两种方向的优势,在合成与真实数据集上同时刷新了重建质量与推理效率(GOPRO Skip 15 PSNR 36.90,127 帧插值显存仅 7.27GB 而 TLXNet 直接 OOM)。

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie,融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制,并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。

Out of Sight, Out of Track: Adversarial Attacks on Propagation-based Multi-Object Trackers via Query State Manipulation

首次系统分析 Tracking-by-Query-Propagation(TBP)跟踪器的对抗脆弱性,提出 FADE 攻击框架,通过时序查询洪泛(TQF)耗尽固定查询预算和时序记忆腐蚀(TMC)破坏隐状态传播两种策略,在 MOT17/MOT20 上对 MOTR/MOTRv2/MeMOTR/Samba/CO-MOT 造成最高约 30 点 HOTA 下降和 10 倍以上身份切换。

Polyphony: Diffusion-based Dual-Hand Action Segmentation with Alternating Vision Transformer and Semantic Conditioning

针对"从未剪辑视频里同时给左右手逐帧打动作标签"这一双手动作分割任务,本文提出三阶段方法 Polyphony——用交替训练的共享 ViT 解决主导手抢梯度、用结构化语义条件化消除细粒度动作歧义、用带跨手特征融合的扩散分割器建模双手协调,在 HA-ViD/ATTACH 双手数据集上最高提升 16.8 个点,并以 12× 更小的骨干网在单流 Breakfast 上反超 SOTA。

Progressive Cross-Modal Causal Intervention for Long-Term Action Recognition

PCMCI 把长时动作识别中视觉语言模型(VLM)依赖的三种"伪相关"——共现幻觉、共依赖错觉、视觉混淆因子——拆成一条三段式因果干预流水线(OT 增强后门调整 → 关系感知后门调整 → 跨模态前门调整),逐级去混淆得到稳健的文本/视频表征,在 Breakfast / COIN / Charades 上 mAP 大幅刷新 SOTA(Breakfast mAP 76.32→90.51)。

Progressive Multi-cue Alignment for Unaligned RGBT Tracking

PMATrack 把"未对齐 RGBT 跟踪"里一次性回归的跨模态对齐参数拆成"中心偏移 → 尺度变换 → 全局精修"三级渐进估计,并在每一级用难度感知路由从三种对齐线索专家里挑最划算的那个,在新建的 MUART244 等基准上以更低算力刷新 SOTA。

ProgTrack: A Multi-Object Tracking Algorithm with Progressive Matching Strategy

ProgTrack 模仿人眼"先大后小再补漏"的跟踪习惯,把无人机多目标跟踪拆成"大目标用 IoU、小目标用上下文增强 ReID、剩余难匹配目标用目标间相对位置"三阶段渐进匹配,再配一个能扛遮挡/掉检的纯卡尔曼滤波(PKF),在 VisDrone2019 和 MDMT 上把 MOTP/IDF1 刷到 SOTA。

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

PyraTok 是一个语言对齐的金字塔式视频分词器:在冻结视频 VAE 的多个编码器深度上做逐级量化(LaPQ),配合一个共享的大词表二值码本和"局部跨注意力 + 全局自回归"双语义对齐,既把重建质量做到 SOTA,又让同一套离散 token 在零样本视频分割、时序动作定位、视频理解/分类上全面刷新纪录。

Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding

提出 QViC-MF 框架,通过问题引导的多帧视觉压缩(QMSA)和上下文记忆反馈机制,在长视频理解任务上以极少的视觉 token(每帧仅 16 个)实现了 MLVU/LVBench/VNBench 等多个基准上的 SOTA。

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

首次将文本描述引入 RGBT 跟踪,提出基于检索增强生成(RAG)的框架 RAGTrack,通过多模态 Transformer 编码器、自适应 Token 融合和上下文感知推理模块,在四个 RGBT 基准上取得 SOTA。

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

提出一个可学习的Verifier元模型,在合成数据上训练"判断tracker预测可靠性"的能力并迁移到真实世界,通过逐帧评估6个预训练tracker的预测来选取最可靠的作为伪标签,仅用~5K真实视频即微调出在4个真实世界基准上全面SOTA的Track-On-R模型。

Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

提出 SlotCurri,一种重建引导的 slot 数量课程学习策略,从极少 slot 开始训练并仅在重建误差高的区域逐步扩展 slot 容量,配合结构感知损失和循环推理,有效解决视频物体中心学习中单一物体被多个 slot 错误拆分的过度碎片化问题,在 YouTube-VIS 上实现 +6.8 FG-ARI 提升。

Rethinking Occlusion Modeling for UAV Tracking

针对无人机视角下遮挡呈"成块出现"的真实特性,本文用聚类采样生成空间相关的遮挡掩码(COM)来训练更鲁棒的表征,再用一条与层成本挂钩的深度偏置(CADB)让推理自动停在更浅的层,二者合成的 OCTrack 在四个 UAV benchmark 上做到了精度与 265 FPS 实时速度的良好平衡。

FlexHook: Rethinking Two-Stage Referring-by-Tracking in RMOT

提出 FlexHook,一种新颖的两阶段 Referring-by-Tracking 框架,通过基于采样的 Conditioning Hook(C-Hook)重新定义特征构建,并用 Pairwise Correspondence Decoder(PCD)替换 CLIP 余弦相似度匹配,首次使两阶段方法全面超越当前 SOTA 的一阶段方法。

Robust Promptable Video Object Segmentation

针对 SAM2 这类可提示视频目标分割(PVOS)模型在恶劣天气/噪声下性能骤降的问题,本文构建了首个 RobustPVOS benchmark(351 段真实恶劣视频 + 大规模时变合成退化数据),并提出 MoGA——用记忆库里每个被跟踪物体的指针来"条件化"地门控一个共享低秩适配器,让每个物体得到各自的、跨帧一致的鲁棒化处理,仅训练 1.1M 参数就在多种退化上稳定超越逐帧鲁棒化方法。

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

提出 SAIL,通过跨模态相似度引导的语义感知掩码生成和 LLM 合成字幕的辅助监督,在仅有字幕标注(无时间边界)的弱监督设置下,在 ActivityNet 和 YouCook2 上实现密集视频描述和事件定位的双 SOTA。

SAM2Text: Towards Prompt-Free and Multi-Resolution Video Scene Text Segmentation

把 SAM2 系统性改造成专做视频场景文字分割(video STS)的 SAM2Text:用 LoRA 让编码器学到文字特征、加一个自提示模块去掉外部 prompt、给解码器补 512/1024 高分辨率分支保住笔画细节、再用「短期 FIFO + Top-K 长期检索」的双层记忆稳住跨帧抖动,并配套发布两个像素级视频文字数据集(STS-SynthV / STS-RealV),在图像和视频多个基准上都刷到 SOTA。

SARL-STG: A Spatially Aware Reinforcement Learning Framework for Refining MLLMs in Spatio-Temporal Video Grounding

SARL-STG 把一个预训练 MLLM(管时间定位)和一个开集检测器(管空间定位)串成统一框架,再用「先 SFT 打底、后 GRPO 精修」两阶段训练,并设计了一个让空间接地质量反过来当奖励信号去校准时间边界的动态时空奖励,从而第一次把强化学习引入时空视频接地(STVG)并在 HCSTVG、VidSTG、Charades 等多个基准上刷到 SOTA。

SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion

形式化 Ego→Exo 模仿错误检测任务,并提出 SAVA-X (Align–Fuse–Detect) 框架,通过自适应采样、场景自适应视角嵌入和双向交叉注意力融合三个模块联合解决时序不对齐、视频冗余和跨视角域差距三大挑战。

Scene-Centric Unsupervised Video Panoptic Segmentation

本文首次提出完全无监督的视频全景分割(VPS)任务,给出方法 VideoCUPS:从单目"场景中心"视频出发,用自监督的深度、运动和视觉线索生成时序一致的全景伪标签,再用一个新的 Video DropLoss 在伪标签上训练 VPS 模型,在 Cityscapes-VPS / KITTI-STEP / Waymo / MOTS 上全面超过四个强基线,且展现出很强的标签高效迁移能力。

SDTrack: A Baseline for Event-based Tracking via Spiking Neural Networks

本文提出首个完全基于脉冲神经网络(SNN)的 Transformer 事件跟踪管线 SDTrack:用 Global Trajectory Prompt(GTP)把异步事件流聚合成富含轨迹信息的三通道事件帧,再用一个全脉冲驱动的 SNN Transformer 跟踪器(含 IPL 内禀位置学习)端到端预测目标框,在三个事件跟踪基准上以最低参数量和能耗(Tiny 版 19.61M / 8.16mJ)拿到接近或达到 SOTA 的精度。

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding

SEASON 是一种训练无关的视频大模型解码方法:通过"时间同质化"构造只破坏时间、保留空间的硬负样本,再用一个逐 token 的自诊断机制判断当前词更可能犯时间还是空间幻觉,自适应地对相应负样本做对比解码,在三个幻觉基准上超过所有训练无关方法,同时不损伤通用视频理解能力。

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

为快速增长但被现有 SDR 质量评估模型忽视的 HDR 用户生成视频(HDR-UGC),作者构建了迄今最大的众包主观质量数据集 Beyond8Bits(约 4.4 万段视频、150 万+人工评分),并提出首个面向 HDR-UGC 的多模态大模型质量评估器 HDR-Q——靠一个"HDR 感知视觉编码器"和一套强化学习微调框架 HAPO(在 GRPO 上加 HDR–SDR 对比 KL、双熵正则与高熵 token 加权),把推理牢牢锚在 HDR 线索上,在三个数据集上把 PLCC/SRCC 推到 0.91/0.92 的 SOTA。

Seeing Conversations: Communication Context Identification in Egocentric Video

本文提出"通信上下文识别(CCI)"这一新任务——从第一视角视频里判断画面中每个人是否属于佩戴者的对话组,配套放出 68.9 小时多人多对话数据集,并设计了仅用人脸结构化特征、跨人跨时联合推理的轻量模型 CoCoNet,在 CCI 上拿到 96% 平衡准确率。

Seeing Motion Through Polarity for Event-based Action Recognition

针对现有事件-文本跨模态动作识别把正负极性堆叠在一帧里、丢掉运动方向线索的问题,POKER 用一个极性运动捕获器(PMC)显式解耦正负极性并提取时空运动 primitive、再用一个极性运动推理器(PMR)让多模态大模型逐步推理出带极性意识的运动文本描述,最后用极性对齐损失把两路特征拉到类中心,在三个 EAR 基准上把 EventBind 基线稳定提升 1.3~2.6 个点。

Seeing the Scene Matters: Revealing Forgetting in Video Understanding Models with a Scene-Aware Long-Video Benchmark

本文提出场景级长视频理解基准 SceneBench,揭示了主流 VLM 在跨"场景"长程上下文上的严重"遗忘"现象(准确率骤降),并用一个轻量的 Scene-RAG(场景检索增强生成)把跨场景上下文动态召回拼回输入,带来 +2.50% 的提升以佐证"模型确实没记住长程上下文"这一结论。

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

把电影预告片生成重新表述成「以电影镜头为 prompt、对预告片镜头序列做掩码重建」的任务,用一个 Transformer 编码器配合自步调度的掩码率与迭代式重掩码(self-correction)生成预告片,在 F1 和排序准确率上显著超过 selection-then-ranking 与自回归方法。

SHANDS: A Multi-View Dataset and Benchmark for Surgical Hand-Gesture and Error Recognition Toward Medical Training

SHANDS 是首个面向开放手术训练的多视角 RGB 视频数据集,用五台同步相机记录 52 名专家/学员的切口与缝合操作,提供帧级 15 类手势原语和 8 类临床验证错误标注,并在单视角/多视角/跨视角三套协议上对主流视频模型做了基准评测。

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

提出首个真正野外环境下具有精确3D标注的手-物体交互数据集SHOW3D,通过设计轻便可穿戴多相机背包系统和ego-exo融合标注pipeline,采集430万帧多视角数据,手部和物体均达到亚厘米级标注精度,跨数据集实验验证其训练模型的泛化优势。

SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition

提出SkeletonContext框架,通过跨模态上下文提示模块从预训练语言模型重建骨骼数据缺失的环境和物体上下文语义,并用关键部位解耦模块增强运动关键关节的判别力,在NTU-60/120和PKU-MMD上的零样本和广义零样本设置中达到SOTA。

SkillSight: Efficient First-Person Skill Assessment with Gaze

SkillSight 用第一人称视频 + 视线(gaze)联合建模技能水平,先训一个看「视频+视线」的教师模型拿 SOTA,再蒸馏出一个推理时只看视线、关掉摄像头的学生模型,在三个跨领域数据集上以 14~73 倍更低功耗逼近甚至超过重型视频方法。

SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition

针对事件相机动作识别(EAR),本文不再把事件按时间轴聚成 H-W 帧,而是沿 H/W 轴投影到 T-H、T-W 两个"时间视角",并系统重做了表示(平移不变的 TISM)、融合(双分支动态融合 DDCF)、增强(多样化时间扭曲 DTW)三个环节,在三个 EAR 基准上 Top-1 提升 +7.0%/+10.7%/+10.2%,同时参数降 30.1%、计算降 35.7%。

SoccerMaster: A Vision Foundation Model for Soccer Understanding

SoccerMaster 用一个共享的时空 ViT 编码器 + 五个轻量任务头,把球员检测识别、球场配准、事件分类、视觉-语言对齐这四类"空间感知 + 语义推理"任务塞进一次监督式多任务预训练,再配套一条自动标注流水线 SoccerFactory 量产稠密空间标签,最终在检测、跟踪、相机标定、解说生成等下游任务上全面超过通用视觉基础模型(SigLIP 2 / DINOv3)和足球专用模型 MatchVision。

Spatio-Temporal Conditional Denoising Transformer for Modality-Missing RGBT Tracking

把 RGB-热红外(RGBT)跟踪里的"模态缺失补全"和"完整模态增强"统一成一个时空条件去噪过程:用历史帧的短期/长期时序线索做条件,引导去噪器在强噪声下重建缺失模态、在弱噪声下增强完整模态,单一架构和参数即可应对两种场景,在三个 RGBT 基准的完整与缺失设定上都拿到 SOTA 或接近 SOTA。

Spectral Scalpel: Amplifying Adjacent Action Discrepancy via Frequency-Selective Filtering for Skeleton-Based Action Segmentation

针对骨架时序动作分割(STAS)里"相邻相似动作分不清、边界糊"的痛点,本文把建模搬到频域:用一把可学习的"频谱手术刀"(多尺度自适应谱滤波 MASF)放大每个动作独有频率、压制相邻动作共享频率,再用"相邻动作差异损失"(AADL)当手术目标显式拉大相邻段的振幅谱差距,在五个数据集上取得 SOTA 且 FLOPs/参数更低。

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

提出 SpikeTrack,首个完全符合脉冲驱动范式的 RGB 视觉跟踪框架,通过非对称时间步扩展、单向信息流和脑启发记忆检索模块(MRM),在 SNN 跟踪器中达到 SOTA 并与 ANN 跟踪器持平,同时能耗仅为 TransT 的 1/26。

SpikeTrack: High-performance and Energy-efficient Event-Based Object Tracking with Spiking Neural Network

SpikeTrack 用一个纯脉冲驱动的 Spiking Transformer 做事件相机单目标跟踪,靠「多搜索帧-单模板(MSST)」训练范式把跟踪天然的时序连续性喂进 SNN 的膜电位累积里,再用「动态整数 LIF(DI-LIF)」神经元按输入稀疏程度自适应调节脉冲发放上限,在 FE108 / FELT / VisEvent 三个基准上同时拿到 SOTA 精度,且能耗只有次优方法的 6.6%、参数量只有 25.8%。

SPOT: Spatiotemporal Prompt Optimization for Motion-Stabilized MLLM-Guided Video Segmentation

SPOT 不改架构、不做视频预训练,只靠两个新损失约束「图像预训练 MLLM 给 SAM 生成的提示点」的时空行为——用布朗桥损失把目标中心轨迹建模成端点受约束的高斯过程逼出时间平滑、用提示质量损失逼出空间几何一致——就让静态训练的基础模型在 Ref-YouTube-VOS、MeViS、ReVOS 等 6 个指代/推理视频分割基准上全面刷到 SOTA。

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning

提出 ROS-DVC,通过将 DETR-based DVC 框架中的共享 query 分离为独立的 localization query 和 caption query,并设计 Overlap Suppression Loss 惩罚 query 间的时序重叠、Cross-Task Contrastive Alignment 保证跨任务语义一致性,在 YouCook2 和 ActivityNet Captions 上实现了 SOTA 的 captioning 和 localization 性能。

Stitch-a-Demo: Creating Video Demonstrations from Multistep Descriptions

给定一份多步骤文字流程(如一份菜谱),Stitch-a-Demo 用一个学习得到的「过程评估器」从成千上万条教学视频里检索并跨视频拼接出片段,组成一段既每步都对、又视觉连贯的演示视频,比纯检索/生成的 SOTA 召回最高提升 29%,人类偏好压倒性领先。

StreamingTOM: Streaming Token Compression for Efficient Video Understanding

提出 StreamingTOM,一个无需训练的两阶段流式视频理解框架:Causal Temporal Reduction (CTR) 在 LLM 前通过因果时序选择将每帧 token 从 196 压缩到 50,Online Quantized Memory (OQM) 在 LLM 后通过 4-bit 量化和按需检索限制 kv-cache 增长,实现 15.7× 压缩比、1.2× 更低峰值显存和 2× 更快 TTFT。

StreamRAG: Enhancing Real-Time Video Understanding with Retrieval Augmentation

StreamRAG 把 RAG 第一次系统性地搬到流式视频问答上,用「实时事件分割 + 复用历史字幕 token 的低延迟知识提取 + 按查询时效性动态选检索范围」三个即插即用模块,在不改动底座 MLLM 架构的前提下,于 OVO-Bench / StreamingBench 上把 Qwen2-VL、ViSpeak 等模型的准确率最高拉高约 11%~20%,同时把字幕生成延迟降近一半。

StreamReady: Learning What to Answer and When in Long Streaming Videos

提出就绪性感知的流式视频理解范式,通过可学习的 <RDY> token 和 Answer Readiness Score (ARS) 指标,让模型不仅回答正确,还能在证据出现的恰当时刻作答,在 9 个流式/离线视频基准上取得 SOTA。

SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration

提出 SVAgent,一个故事线引导的跨模态多智能体框架用于长视频问答,通过渐进式构建叙事表示、DPP 证据选择、跨模态一致性验证和迭代精炼实现超越基线 5.5%-11.5% 的性能提升。

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

T2SGrid 把视频时序定位(VTG)从"逐帧处理"改造成"逐片网格图处理"——用滑动窗口把若干连续帧按行主序拼成一张 2D 网格图喂给 Vision-LLM,让模型用它擅长的空间推理能力去读时序,再配一个"整段网格共用一个文本时间戳"补全绝对时间感知,在 Charades-STA / ActivityNet 上让没有时序编码的 Qwen2-VL-7B 的 mIoU 从 7.9 飙到 44.3。

TacSIm: A Dataset and Benchmark for Football Tactical Style Imitation

本文提出 TacSIm,首个从真实英超比赛转播画面中重建全队轨迹并在虚拟足球环境中进行战术风格模仿的大规模数据集与基准,通过空间占据相似度和运动向量相似度两个指标量化战术模仿保真度。

Dual-level Adaptation for Multi-Object Tracking: Building Test-Time Calibration from Experience and Intuition

TCEI 框架受 Kahneman 双系统理论启发,提出直觉系统(利用近期观测对象的瞬时记忆快速推断)和经验系统(利用历史视频积累的经验校准直觉预测)相结合的测试时自适应方法,无需反向传播即可在分布偏移下显著提升多目标跟踪性能。

TF-CADE: Foreground-Concentrated Text-Video Alignment for Zero-Shot Temporal Action Detection

针对零样本时序动作检测中"文本不影响预测"的痛点,本文用一个动作集中聚合模块(ACA)把视频特征按时序前景显著度加权聚出一个前景视频嵌入、专门和文本对齐,再用一个基于确定性的置信度重加权(CCR)把视频级先验注回逐片段分类分,从而压住语义不相关的动作类,在 THUMOS14/ActivityNet 的同分布与跨数据集零样本设定上都刷到 SOTA。

TGTrack: Temporal Generative Learning for Unified Single Object Tracking

TGTrack 给统一单目标跟踪框架加了一条"预测下一帧"的并行生成式监督任务——用带门控融合的自回归生成解码器和极坐标时间令牌,把以往隐式、被动的时序建模变成显式、主动的时序学习,在 5 种模态 11 个 benchmark 上刷新 SOTA(LaSOT AUC 75.3%)。

The Road Less Seen: Segment Exploration for Weakly Supervised Video Anomaly Detection

针对弱监督视频异常检测里 top-k 选段"只盯最高分段、漏掉分散且模糊的异常"的痛点,本文提出时序聚类 + 不确定性双探索策略来覆盖多样且暧昧的异常段,并主张用 Recall@FPR 与 AP 取代被严重类别不平衡"灌水"的 AUROC,在 UCF-Crime 上把 AP 从 35.48% 提到 38.33%。

Time Blindness: Why Video-Language Models Can't See What Humans Can?

作者构造了一个"信息只存在于帧间时序、单帧全是噪声"的合成基准 SpookyBench:人类靠运动分组能以 98% 准确率读出其中的文字/物体,而 15 个最强 Video-VLM(含 GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL-72B)全部 0% 准确率,从而干净地暴露出当前视频模型"时间盲"——只会读单帧空间特征、根本没有纯时序信息的处理机制。

TimeBridge: Self-Supervised Video Representation Learning via Start-End Joint Embedding and In-Between Frame Prediction

TimeBridge 在 iBOT 联合嵌入框架上加一个辅助任务——只给视频的首帧和尾帧,逼模型把中间几帧"补"出来,从而学到帧间真实的时间变换;在 DAVIS、VIP 等稠密视频预测基准上以 400 epoch 训练就刷新了 SOTA(DAVIS 73.5 J&F、VIP 47.5 mIoU)。

TLMA: Mitigating the Impact of Weakly Labeled Information for Video Anomaly Detection

针对弱监督视频异常检测(WSVAD)中视频级标签带来的"弱标签信息(WLI)"干扰,TLMA 用一个从模型预测动态构造的三元组学习策略把 WLI 与真异常在特征空间里推开,再配一个基于帧间边缘差分的运动感知特征增强模块突出前景动态,在 UCF-Crime / XD-Violence / MSAD 三个基准上都刷到 SOTA 并显著降低误报率。

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

提出 AOT 框架,通过建立局部-全局 token anchors 并利用最优传输(Optimal Transport)在帧内和帧间两级聚合被裁剪/合并 token 的语义信息,实现 training-free 的视频 token 压缩,在裁剪 90% token 的情况下仍保留 97.6% 的原始性能。

Toward Low-Cost yet Effective Temporal Learning for UAV Tracking

针对无人机(UAV)单目标跟踪,本文先提出一个把「精度提升」和「算力开销」绑在一起看的评价指标 PPF(每 FLOP 精度增益),用它揭示现有时序模块"性价比"普遍很低,再据此设计了一个只靠传播/合并少量代表性外观 token 的轻量时序模块 LETL,把它塞进单流框架做出 LETrack,在六个航拍数据集上拿到 SOTA 的同时几乎不增加算力。

Towards Streaming Referring Video Segmentation via Large Language Model

StreamingRVOS 把基于 MLLM 的指代图像分割改造成「逐帧流式」的指代视频分割:用 语义嵌入复用(SER) 把上一帧的 [SEG] token 当作时序上下文喂回 MLLM,再用 在线掩码一致性感知(OMCP) 判断当前帧要不要重新调用 MLLM,从而在不加任何参数的前提下,1B 变体在 MeViS 上比 Sa2VA 提升 19.2%,流式推理达到 7 FPS(单卡 A800)。

Tracking through Severe Occlusion via Event-Derived Transient Cues

针对"目标被严重遮挡 + 非线性运动"导致的跟踪失败,作者提出 EvoTrack:用事件相机微秒级的瞬态运动线索做"运动自回归"在遮挡期间预测目标位置,同时用目标感知的高斯掩码强化外观匹配,二者由门控自适应融合,并配套发布带遮挡分级标注的高分辨率帧-事件跟踪数据集 FEOT,在 FE108/VisEvent/COESOT/FEOT 上整体取得 SOTA。

TrajTok: Learning Trajectory Tokens Enhances Video Understanding

提出 TrajTok——一种端到端可微的轨迹 tokenizer,将视频像素隐式聚类为目标轨迹 token,取代外部分割+跟踪流水线;在从头训练 (TrajViT2)、特征适配 (TrajAdapter) 和视觉语言模型连接器 (TrajVLM) 三种场景下均取得显著提升,尤其在长视频 QA 上大幅超越 patch pooling。

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer 用一套"瞬态异步融合"机制,把低帧率 RGB 帧和高频事件流融成一个随事件持续更新的连续潜在表示,让任意点跟踪在运动模糊、低光、高速场景下都保持高频稳定,在自建真实帧-事件数据集上把阈值内平均像素误差提升了 28.2%。

TVHighlights: LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas

针对影视剧高光片段「没有统一定义、人工标注又贵又主观」的难题,作者先用社区二创复用行为自动造出无人工标注的 TVHighlights 数据集,再提出 LTV-HD:用视频级弱标签预训练一个轻量多模态网络,然后让它和 LLM 在一个自改进闭环里互相纠错,最终在全无人工标注的情况下做到 92.74% AUC / 71.20% AP 的 SOTA。

U2Flow: Uncertainty-Aware Unsupervised Optical Flow Estimation

U2Flow是首个联合估计光流和逐像素不确定性的循环无监督框架,通过基于增强一致性的解耦不确定性学习和不确定性引导的双向光流融合,在KITTI和Sintel上实现无监督SOTA。

UETrack: A Unified and Efficient Framework for Single Object Tracking

UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models

UFVideo 是首个统一全局、像素级和时序级三种粒度视频理解能力的 Video LLM,通过视觉-语言引导对齐策略和 SAM2 mask decoder,在单一模型内同时支持视频问答、目标引用、视频分割和时序定位,并构建了多粒度协同理解基准 UFVideo-Bench。

Understanding Temporal Logic Consistency in Video-Language Models through Cross-Modal Attention Discriminability

本文从可解释性角度分析了视频语言模型(Video-LLMs)时间理解逻辑不一致的根本原因——跨模态注意力头无法有效区分不同时间戳的视频token——并提出 TCAS(Temporally Conditioned Attention Sharpening)方法通过优化注意力分布显著提升了时间逻辑一致性和通用时序定位性能。

Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention

提出统一时空token压缩方法,通过全局保留池联合评估token的贡献度和语义冗余度,并在LLM内部引入文本感知合并机制,在仅保留约2%视觉token的极端压缩下仍保留90.1%的基线性能,同时将FLOPs降至约2.6%。

UniVBench: Towards Unified Evaluation for Video Foundation Models

UniVBench 用 200 段人工创作、无版权的多镜头视频和一套智能体评测系统 UniV-Eval,把视频理解、生成、编辑、以及新提出的"视频重建"四类能力放进同一把尺子里,第一次能在统一框架下回答"统一视频模型到底有没有把感知和生成都做好"。

Unstitching the Chimera: Frame-Level Risk and Train-Free Mitigation for Video Hallucination

本文从「帧」而非「token」的视角刻画了一种被忽视的视频幻觉——奇美拉幻觉(Chimera Hallucination):模型把视频里真实存在但不属于同一事件链的片段拼成一个虚假的连续叙事;为此提出单次前向、无需参考的风险指标 CH-Risk 来量化这种风险,并用免训练的两阶段干预 CH-M(片段路由 sSAFR + 残差 token 校准 RTC)在高风险样本上纠偏,在 9 个 benchmark、6 个 VideoLLM 上以 <5% 延迟、<2.5% 显存、≈1% FLOPs 的代价稳定降低幻觉、提升准确率。

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

提出 UTPTrack,首个在 one-stream Transformer 跟踪器中同时对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 三个组件进行联合 token 剪枝的统一框架,在 RGB 和多模态/语言引导跟踪中实现 65–67% 的视觉 token 裁减,且保持 99.7%–100.5% 的基线性能。

VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference

本文发现视频模型注意力图中存在强烈的"垂直向量"稀疏模式,据此提出 VecAttention 细粒度向量级稀疏注意力框架,通过 TilingSelect + minS 过滤实现高效重要向量选择,在 78%+ 稀疏度下视频理解准确率与全注意力持平,注意力计算加速 2.65 倍。

Video Panels for Long Video Understanding

把视频里相邻的多帧像漫画分镜一样拼进同一张图片,用空间分辨率换时间分辨率,从而在不改架构、不训练、不加参数的前提下提升现有 VLM 的长视频理解能力——在最长视频的 TimeScope(Long) 上把 VideoLLaMA 3 的问答准确率提升了 19.4%。

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

VideoChat-M1 提出协作策略规划(CPP)范式和多智能体强化学习(MARL)训练方法,让 4 个异构 VLM agent 动态生成和更新工具调用策略来理解视频,在 LongVideoBench 上超过 Gemini 2.5 Pro 3.6%、GPT-4o 15.6%。

VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding

VideoITG 把"根据用户指令挑帧"做成一个独立的时序定位任务:先用 GPT-4o 驱动的 VidThinker 三阶段流水线自动标出 40K 视频里"哪些帧和这条指令相关",造出 50 万条指令对齐标注,再训练一个即插即用的帧选择器接到各种 Video-LLM 前面,用 16~32 帧就追平甚至超过均匀采样 64 帧的效果。

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

VideoNet 构建了一个覆盖 37 个领域、1000 个细粒度"领域专用动作"的视频动作识别基准(多选 + 二元 few-shot 两套协议),用全自动流水线收集近 50 万条 VQA 训练对,把领域专用动作识别这个"被遗忘的任务"重新拉回 VLM 评测视野——结果是开源 8B VLM 多选准确率不足 50%,而在该数据上微调的 4B 模型反超所有 8B 开源模型。

VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

VideoSeek 提出一种长程视频 Agent,利用视频逻辑流主动"寻找"关键证据而非穷举解析所有帧,通过 think-act-observe 循环和多粒度工具包(overview/skim/focus),在 LVBench 上比基座模型 GPT-5 提升 10.2 个点的同时减少 93% 的帧使用量。

VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer

VidPrism 把图像-视频迁移里的 Mixture-of-Experts 从"一群同质通才专家"改造成"按时间分辨率分工的异构专家":用内容感知的多速率采样给每个专家喂不同节奏的视频流、用动态双向交互让快慢通路互通信息,在 K400/UCF-101/HMDB-51/SSv2 上以更低算力刷新 SOTA。

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

提出 VirtueBench,首个评估 VLM 在不确定性下可信度的长视频理解基准,通过为每个视频构建多级帧采样并标注可回答/不可回答的 ground truth,揭示了现有模型普遍倾向于猜测而非诚实拒绝的问题。

Wavelet-based Frame Selection by Detecting Semantic Boundary for Long Video Understanding

提出 WFS-SB,一种免训练的帧选择框架,利用小波变换从查询-帧相似度信号中检测语义边界,将视频分割为语义连贯的片段后自适应分配帧预算并做多样性采样,在 VideoMME/MLVU/LongVideoBench 上大幅超越 SOTA。

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

提出 LAS-VAD 框架,通过异常连通分量机制(ACC)将视频帧划分为语义一致的组来生成伪标签弥补帧级标注缺失,并通过意图感知机制(IAM)利用位置-速度-加速度特征区分外观相似但意图不同的正常/异常行为,在 XD-Violence 上达 89.96% AP (I3D)。

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

提出 WorldMM,一个基于多模态记忆的视频推理 agent,构建情景记忆(多时间尺度文本知识图)、语义记忆(持续更新的关系知识图)和视觉记忆(帧级检索库)三类互补记忆,通过自适应多轮检索 agent 动态选择最相关的记忆源和时间粒度,在五个长视频 QA 基准上平均超越前 SOTA 8.4%。

Your One-Stop Solution for AI-Generated Video Detection

作者构建了 AIGVDBench——一个覆盖 31 个最新视频生成模型、44 万+ 视频的 AI 生成视频检测大规模基准,配套一条"属性均衡 + 全面选型 + 去偏预处理"的标准化数据构建流水线,并在 33 个检测器上跑了 1500+ 次评测,提炼出 8 项分析和 4 个新发现(最关键的是"生成质量更高 ≠ 更难被检测")。