跳转至

📹 视频理解

📷 CVPR2025 · 77 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (92) · 🔬 ICLR2026 (24) · 🤖 AAAI2026 (33) · 🧠 NeurIPS2025 (61) · 📹 ICCV2025 (58)

🔥 高频主题: 目标跟踪 ×9 · LLM ×9 · 多模态 ×6 · 压缩/编码 ×4 · 推理 ×3

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

提出 BehaviorVLM,一个统一的无需微调的视觉语言框架,通过多阶段结构化推理管线同时解决动物姿态估计和行为理解两大任务,仅需 3 帧人工标注即可实现可靠的关键点追踪,并通过深度嵌入聚类 + VLM 描述 + LLM 语义合并实现可解释的多动物行为分割。

Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

提出 R-MSD(Reliable Multi-Sample Distillation),通过对每个输入采样多个教师响应并结合任务自适应质量匹配,解决视频 LVLM 黑盒蒸馏中单样本教师监督不可靠的问题,4B 学生模型在 VideoMME (+1.5%)、Video-MMMU (+3.2%)、MathVerse (+3.6%) 等基准上取得一致提升。

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

本文提出 BIMBA,基于 Mamba selective scan 的时空 token 选择器,将长视频的 10万+ token 序列压缩 16 倍至 6400 个包含关键信息的 token,在 7 个长视频 VQA 基准上取得 SOTA。

Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-Grained View-Invariant Video Representations

通过掩码建模在自我中心和外部视角之间学习细粒度视图不变表示,无需配对标注即可从两种视角的关联中自监督学习

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Models

本文提出Coarse Correspondences,一种轻量级的training-free视觉提示方法,通过在图像帧上叠加目标跟踪得到的粗粒度实例对应关系标记,显著增强MLLM的空间时序推理能力,在ScanQA上提升+20.5%、OpenEQA上+9.7%、EgoSchema上+6.0%和R2R导航上+11%。

Context-Enhanced Memory-Refined Transformer for Online Action Detection

本文揭示了现有在线动作检测(OAD)方法中的训练-推理不一致问题——短时记忆帧的不均衡上下文暴露和伪未来引入的非因果信息泄漏导致学习偏向中间帧——并提出CMeRT通过近过去上下文增强编码器和基于近未来的记忆精炼解码器来解决该问题,在THUMOS'14、CrossTask和EK100上实现SOTA。

Cross-modal Causal Relation Alignment for Video Question Grounding

通过因果干预消除视频问答定位(VideoQG)中的虚假跨模态关联,引入高斯平滑定位、跨模态对齐和显式因果干预三个模块,在 NextGQA 上同时提升定位(+2.2 Acc@GQA)和问答(+0.9 Acc@VQA)性能。

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos

提出DeCafNet,通过delegate-and-conquer双编码器策略(轻量sidekick encoder密集提特征+生成显著性图,expert encoder仅处理top-c%关键clip),配合DeCaf-Grounder统一不同时序分辨率特征,在长视频时序定位任务上以减少47% TFLOPs的代价超越所有先前方法。

DivPrune: Diversity-Based Visual Token Pruning for Large Multimodal Models

将视觉token剪枝问题重新建模为Max-Min Diversity Problem (MMDP),通过精确求解使保留token集合的最小pair-wise距离最大化,实现无需训练/校准的即插即用剪枝方案,在16个多模态基准上实现SOTA,特别是在≥80%极端剪枝率下显著优于所有基线。

DPFlow: Adaptive Optical Flow Estimation with a Dual-Pyramid Framework

提出DPFlow,结合图像金字塔特征金字塔的双金字塔循环编码器,配合纯卷积的Cross-Gated Unit (CGU),仅用标准分辨率训练即可自适应泛化至8K分辨率输入,在Sintel、KITTI、Spring等基准上达到SOTA,同时发布Kubric-NK多分辨率光流评测数据集首次支持定量高分辨率评估。

DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection

提出Dynamic Prototype Updating (DPU)框架,通过Cohesive-Separate对比训练建立稳健表示空间、动态原型逼近自适应更新类中心、Pro-ratio差异增强按样本到原型的距离调节多模态预测差异的放大强度,作为即插即用模块在5个数据集×9种基础OOD方法上全面提升性能,Far-OOD检测提升最高达80%

DrVideo: Document Retrieval Based Long Video Understanding

提出DrVideo,将长视频理解转化为长文档理解任务:先将视频帧转为文本文档,通过文档检索定位关键帧并增强信息,再通过Planning-Interaction双Agent循环迭代补充缺失信息,最终以CoT方式回答问题。在EgoSchema(3分钟)、MovieChat-1K(10分钟)和Video-MME长视频分割(平均44分钟)上大幅超越现有LLM-based SOTA。

Dynamic Updates for Language Adaptation in Visual-Language Tracking

提出DUTrack,通过动态更新多模态参考信息(模板帧+语言描述)来解决视觉语言跟踪中静态参考与动态目标之间的语义不一致问题,首次让VL跟踪器在LaSOT上超越最佳纯视觉跟踪器。

DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding

提出DynFocus,一个基于LLM的动态协作视频编码网络,通过DPE模块动态选择与问答相关的关键帧,CCE模块对关键帧用细粒度token编码(类似视锥细胞Cones)、对冗余帧用极少token粗粒度编码(类似视杆细胞Rods),在有限token预算下平衡空间细节与时序动态。

EBS-EKF: Accurate and High Frequency Event-based Star Tracking

本文提出 EBS-EKF,通过建模事件相机在低光条件下的电路行为来获得亮度依赖的质心偏移校正,结合 3D 扩展卡尔曼滤波进行星跟踪,在真实夜空数据上比现有方法精确一个数量级。

EDCFlow: Exploring Temporally Dense Difference Maps for Event-based Optical Flow Estimation

提出EDCFlow,利用相邻事件帧之间时间密集的特征差分图与低分辨率代价体积的互补性,在1/4分辨率上实现高质量且轻量的事件光流估计。

Efficient Transfer Learning for Video-language Foundation Models

提出多模态时空适配器MSTA,通过视觉-语言共享投影层和时空描述引导的一致性约束,以仅2-7%的可训练参数实现视频-语言基础模型向下游任务的高效迁移。

Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input

提出Ego4o统一框架,从穿戴设备的多模态输入(1-3个IMU + 第一人称图像 + 运动描述)同时实现人体运动捕捉和运动描述生成,且两个任务可互相增强。

EgoLife: Towards Egocentric Life Assistant

发布EgoLife数据集(6名参与者共居一周、300小时第一人称多模态视频)和EgoLifeQA基准,提出EgoButler系统(EgoGPT + EgoRAG)探索超长上下文第一人称视觉生活助手的建设路径。

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

提出 EgoTextVQA 基准,包含 1.5K 第一人称视频和 7K 场景文字相关问答对,揭示了当前 MLLM 在以自我中心视角进行实时场景文字问答辅助时的严重不足(最佳模型 Gemini 1.5 Pro 仅约 33% 准确率)。

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

AoTD 用 LLM agent 将复杂视频问题分解为子任务、调用专家视觉模型执行并收集中间结果作为推理链(CoT),经 LLM 质量过滤后蒸馏到 Video-LLM 中,让端到端模型同时获得准确答案和可解释的多步推理能力。

ETAP: Event-based Tracking of Any Point

本文提出了首个纯事件相机的任意点追踪(TAP)方法 ETAP,通过新颖的对比式特征对齐损失学习运动不变的相关特征,结合新的合成数据集 EventKubric,在五个数据集上实现了跨数据集泛化,比基线在 AJ 指标上提升 136%,并在特征追踪基准上超越此前最佳的事件+帧融合方法 3.7%。

ExpertAF: Expert Actionable Feedback from Video

本文提出 ExpertAF,首个从视频生成可操作教练反馈的方法,通过融合视频、3D 人体姿态和语言的多模态模型,不仅能生成描述错误和改进建议的文本评语,还能检索/生成正确的专家示范,利用 Ego-Exo4D 数据集和 LLM 构建弱监督训练数据,在足球、篮球和攀岩三个场景上显著优于强基线。

FC-Track: Overlap-Aware Post-Association Correction for Online Multi-Object Tracking

提出 FC-Track,一个轻量级的后关联校正框架,通过基于 IoA(Intersection over Area)的外观特征过滤和重叠 tracklet 对内的相似度比较,在线纠正因目标重叠导致的检测-轨迹错误匹配,将长期身份切换比例从 36.86% 降至 29.55%,同时在 MOT17/MOT20 上保持 SOTA 性能。

Few-Shot Personalized Scanpath Prediction

提出少样本个性化扫视路径预测(FS-PSP)任务 和 Subject-Embedding Network(SE-Net),通过将主体嵌入学习与扫视路径预测解耦,仅需 1-10 张图像的注视数据即可适配新用户,在 OSIE、COCO-FreeView、COCO-Search18 三个数据集上 ScanMatch 指标超越第二名 5.9%-7.9%,且适配时间仅 3.6 秒、无需微调。

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

FRAME 提出了一种基于地面对齐坐标系的自我中心动作捕捉方法,通过建立轻量级 VR 数据采集系统收集大规模真实世界数据集,并设计了一个几何感知的多模态融合架构将设备 6D 位姿与相机图像有效结合,在 300 FPS 下实现了 state-of-the-art 的全身姿态预测。

FSBench: A Figure Skating Benchmark for Advancing Artistic Sports Understanding

提出 FSAnno/FSBench,首个面向花样滑冰的细粒度、多模态、多层次基准数据集,覆盖从先验知识测试、单个动作识别/评估/解说到整体表演评估/解说的完整任务链,揭示了现有 LLM 在艺术体育理解上的显著不足。

GG-SSMs: Graph-Generating State Space Models

提出 Graph-Generating State Space Models (GG-SSMs),通过基于特征相似度动态构建最小生成树(MST)来替代传统 SSM 中固定的一维扫描路径,实现对高维数据中复杂非局部依赖的高效建模,在 11 个数据集上取得 SOTA 性能。

H-MoRe: Learning Human-centric Motion Representation for Action Analysis

提出 H-MoRe(Human-centric Motion Representation),通过骨骼约束和边界约束的联合自监督学习框架,从真实场景中学习精确的以人为中心的运动表示(world-local flows),在步态识别(CL@R1 +16.01%)、动作识别(Acc@1 +8.92%)和视频生成(FVD -67.07%)上均大幅超越传统光流方法。

Heterogeneous Skeleton-Based Action Representation Learning

首次研究人体骨架数据的异构性问题(不同关节数、不同坐标维度),提出通过 3D 姿态估计模块统一维度、骨架特定 prompt 统一拓扑、语义运动编码引入语义信息三大组件,结合自监督统一表示学习框架,在 NTU-60/120 和 PKU-MMD II 上取得显著提升。

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding

提出 HierarQ,一种任务感知的层次化 Q-Former 框架,通过双流语言引导特征调制器(实体流 + 场景流)和短/长期记忆库实现自回归式逐帧视频处理,无需帧采样即可绕过 LLM 上下文长度限制,在 10 个视频理解基准上取得 SOTA 或接近 SOTA 的性能。

HuMoCon: Concept Discovery for Human Motion Understanding

HuMoCon 是一个面向人体行为分析的运动-视频理解框架,其核心创新是在编码器预训练阶段通过显式的视频-运动特征对齐和基于速度重建的高频信息保持机制来发现语义化的运动概念(codebook),从而显著提升下游 LLM 的人体运动理解和推理能力。

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation

HyperGLM 提出将实体场景图(捕捉空间关系)和程序图(建模因果时序转换)统一为超图 (HyperGraph),并将其注入多模态 LLM 实现视频场景图的生成、预测和推理,同时发布包含 190 万帧的 VSGR 数据集支持五类任务。

Learning Audio-Guided Video Representation with Gated Attention for Video-Text Retrieval

提出 AVIGATE 框架,通过门控注意力机制选择性地融合音频与视觉信息(过滤无用音频噪声),并设计自适应间距对比损失处理视频-文本之间模糊的正负关系,在多个视频-文本检索基准上取得 SOTA。

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

提出 ORTrack 框架,通过基于空间 Cox 过程的随机遮罩来学习遮挡鲁棒的 ViT 特征表征(训练时加遮罩约束、推理时零开销),并设计自适应特征蒸馏方法将大模型压缩为轻量级学生模型 ORTrack-D,在多个无人机跟踪基准上实现 SOTA 精度与实时速度的最佳平衡。

LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant

提出 LION-FS 在线视频助手框架,借鉴"快思考-慢思考"认知理论,用 Fast Path(基于路由的 Token 聚合与丢弃)实现高效实时响应判断,用 Slow Path(多粒度关键帧增强)在响应生成时注入细粒度空间和交互特征,在 Ego4D/Ego-Exo4D 基准上全面超越现有方法。

LLAVIDAL: A Large Language Vision Model for Daily Activities of Living

针对日常生活活动(ADL)理解,构建了多视角多模态指令微调数据集 ADL-X,提出 LLAVIDAL 模型融合视频、3D 骨架和 HOI 线索,采用 MMPro 渐进式训练策略实现 SOTA 性能。

Localizing Events in Videos with Multimodal Queries

提出 ICQ 基准和 ICQ-Highlight 数据集,首次系统研究用多模态查询(图像+文本)替代纯文本查询进行视频事件定位,并设计 3 种查询适配方法和 SUIT 代理微调策略。

M-LLM Based Video Frame Selection for Efficient Video Understanding

提出一个轻量级 M-LLM 帧选择器,通过空间和时序伪标签训练,自适应地为下游视频 LLM 选取与问题最相关的帧,无需微调下游模型即可提升多个视频 QA 基准性能。

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

首个基于 Mamba 的视觉语言跟踪器 MambaVLT,利用状态空间的时间演化特性实现长时序目标信息记忆和多模态参考特征的自适应更新,在多个视觉语言跟踪基准上达到 SOTA。

MLVU: Benchmarking Multi-task Long Video Understanding

提出 MLVU 基准,通过9种多样化评测任务、多种视频类型和灵活的时长设置,系统评估多模态大模型在长视频理解上的能力,揭示现有模型在处理长视频时的显著不足。

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

提出 MMVU 基准,包含 3,000 个专家标注的跨 27 个学科的视频理解题目,评估多模态基础模型在专业领域视频中的专家级知识推理能力,揭示即使最强模型仍显著落后于人类专家。

MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

提出首个大规模多光谱无人机单目标跟踪数据集 MUST(250 序列、43K 帧、8 光谱波段),并设计 UNTrack 统一框架融合光谱、空间、时序特征,通过非对称 Transformer 和光谱提示编码器实现高效鲁棒跟踪。

Number it: Temporal Grounding Videos like Flipping Manga

本文提出 NumPro,把每一帧的序号直接画在视频帧的右下角,使 Vid-LLM 把"看到事件"和"说出对应帧号"绑成同一个 OCR 任务,从而在零训练或轻量 LoRA 微调下显著提升视频时间定位 (VTG) 的 mIoU 与 mAP。

Object-Shot Enhanced Grounding Network for Egocentric Video

OSGNet 针对第一人称视频自然语言查询 (NLQ) 的两大短板——视觉特征缺细粒度物体信息、忽略头戴相机运动暗含的注意力切换——提出"object branch (Co-DETR + CLIP 文本编码) + shot branch (按头转分镜 + 镜头级对比)"双分支架构,在 Ego4D-NLQ / Goal-Step / TACoS 上刷新 SOTA。

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Omni-RGPT 提出 Token Mark 机制在视觉特征空间中直接标记目标区域,统一图像和视频的区域级理解,配合 30 万条区域级视频指令数据集 RegVID-300k,在常识推理等任务上达到 SOTA。

OmniTrack: Omnidirectional Multi-Object Tracking

提出首个面向 360° 全景图像的多目标跟踪框架 OmniTrack,统一 TBD 和 E2E 两种跟踪范式,通过 CircularStatE 模块缓解全景畸变、FlexiTrack 实例引入时序先验、Tracklet Management 提供轨迹反馈,并构建 QuadTrack 四足机器人全景 MOT 数据集。

On the Consistency of Video Large Language Models in Temporal Comprehension

系统研究视频大语言模型 (Video-LLMs) 在时序理解中的预测一致性,发现当前模型在改述查询、时间偏移和自我验证等探测下一致性极差(接近随机水平),提出事件时序验证微调 (VTune) 方法通过显式考虑一致性显著改善 grounding 和一致性表现。

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

OVO-Bench 是首个强调时间戳在视频理解中重要性的在线视频基准,将在线视频理解分为"回溯追踪"、"实时感知"和"前瞻主动响应"三种模式,通过 12 个任务、644 个视频和 2800+ 精细标注评估 Video-LLM 的在线理解能力。

PAVE: Patching and Adapting Video Large Language Models

PAVE 提出了一种通过轻量级"补丁"(patch)适配预训练 Video LLM 的框架,能将音频、3D 线索、多视角视频等侧信道信号以约 0.1% 的额外参数和计算量融入基础模型,在音视频 QA、3D QA 等任务上超越专用模型。

PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes

本文提出 PlanarSplatting,通过直接优化可学习的 3D 矩形平面基元,利用新设计的矩形 splatting 函数将平面可微地渲染为深度和法线图,仅需 3 分钟即可从多视角图像重建精确的室内平面场景,无需任何平面标注。

Progress-Aware Video Frame Captioning

本文提出了"进度感知视频帧级描述"这一新任务,并开发了 ProgressCaptioner 模型,通过两阶段训练(帧对→帧序列)和自动化的伪标签筛选机制,生成能精确捕捉动作逐帧演变的细粒度描述,在自建 FrameCapEval 基准上大幅超越 GPT-4o 和 Gemini-1.5-Pro。

Q-Bench-Video: Benchmark the Video Quality Understanding of LMMs

首个系统评估大型多模态模型视频质量理解能力的基准 Q-Bench-Video,涵盖自然/AIGC/CG视频、四维质量关注和多题型设计。

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering

提出 QA-TIGER 框架,通过混合高斯专家(MoE)对视频时序进行连续自适应加权建模,并在编码早期即注入问题信息实现渐进式语义精炼,在多个 AVQA 基准上达到 SOTA。

T*: Re-thinking Temporal Search for Long-Form Video Understanding

提出轻量级时序搜索框架 T*,将昂贵的时序搜索转化为空间搜索问题,通过自适应缩放机制在时间和空间维度上迭代定位关键帧,配合首个大规模长视频关键帧搜索基准 LV-Haystack,显著提升现有 VLM 在长视频理解上的表现。

ReWind: Understanding Long Videos with Instructed Learnable Memory

本文提出 ReWind,一种基于可学习记忆模块的视觉语言模型架构,通过新颖的 read-perceive-write 循环机制和指令引导的动态帧选择,在使用更少 token 和帧的情况下,大幅超越先前方法在长视频 VQA 和时序定位任务上的表现。

SEAL: SEmantic Attention Learning for Long Video Representation

提出SEAL统一长视频表征方法,将视频分解为场景/物体/动作三种语义token,通过query感知的子集选择优化来平衡相关性与多样性,在LVBench上以45.9%超越Qwen2-VL-72B的41.3%。

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding

Seq2Time 提出了一个数据驱动的训练范式,通过将大规模图像序列和短视频片段转化为模拟长视频时序结构的训练数据,并引入统一相对位置 token 表示,在不需要大量时间戳标注的情况下显著提升了视频 LLM 的时序理解能力(YouCook2 F1 提升 27.6%,Charades-STA R@1 提升 14.7%)。

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

提出 SeriesBench,首个面向叙事驱动电视剧理解的视频基准,涵盖105部剧集、28个任务、5大维度,并提出 PC-DCoT(情节-角色双链思维)框架使MLLM性能提升超10%。

Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking

发现轻量级 ViT 跟踪器中深层存在显著冗余(特征饱和),提出相似度引导的层自适应方法 SGLATrack,动态禁用冗余层并仅保留一个最优层,在 GPU 上实现 225 FPS 的实时 UAV 跟踪。

STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding

提出 STOP,一种面向视频理解的集成时空动态提示方法,通过帧内空间提示自适应突出判别性区域,通过帧间时序提示在高时序变化的帧之间动态插入提示 token,引导冻结 CLIP 模型聚焦关键时空位置。

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

本文提出 TAMT,一个解耦的"预训练-微调"范式用于跨域少样本动作识别(CDFSAR),通过时序感知适配器(TAA)高效重校准冻结模型的中间特征,并利用全局时序矩调优(GTMT)捕获长短期时序协方差来生成强表示,在多个跨域场景中以 5 倍低的训练成本超越现有方法 13%-31%。

Temporal Alignment-Free Video Matching for Few-Shot Action Recognition

本文提出 TEAM(TEmporal Alignment-free Matching),通过固定数量的可学习模式令牌(pattern tokens)以交叉注意力聚合视频特征,消除了对预定义时序单元和暴力对齐的依赖,在 FSAR 任务上实现了更灵活、高效的视频匹配,并在多个 benchmark 上达到 SOTA。

Temporally Consistent Object-Centric Learning by Contrasting Slots

Slot Contrast 提出了一种新颖的对象级时序对比损失,通过在批次内跨视频对比 slot 表示,显著提升了视频物体中心模型的时序一致性,在合成和真实世界数据集上的物体发现任务中超越了甚至使用运动掩码的弱监督方法,并有效支持了下游的无监督物体动态预测。

Towards Universal Soccer Video Understanding

本文构建了迄今最大的多模态足球数据集 SoccerReplay-1988(1988场完整比赛),并提出了足球专用的视觉编码器 MatchVision,通过时空注意力机制统一处理事件分类、评论生成和犯规识别等多任务,在多个基准上达到 SOTA。

Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks

提出 UTD 方法,利用 VLM+LLM 生成视频帧文本描述来系统分析视频基准中的对象/时序/常识偏差,并构建去偏测试集,使视频理解评估更加鲁棒公正。

VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos

VCBench 将计数重新定位为诊断视频模型"时空状态维护"能力的最小探针,提出了覆盖物体计数(当前状态/身份追踪)和事件计数(瞬时事件/周期活动)的 8 种子类别,通过沿时间线的流式多点查询观察模型预测轨迹,在 406 个视频/4576 个查询点上评估主流模型,发现当前模型在时空状态维护上仍存在显著缺陷。

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Video-Panda 提出了首个无编码器(encoder-free)的视频语言模型,通过仅 45M 参数的时空对齐模块(STAB)直接处理视频输入,在开放式视频问答任务上达到与使用 300M-1.4B 参数编码器的方法相当的性能,且推理速度提升 3-4 倍。

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

提出 Video Streaming Thinking (VST) 范式,在视频播放过程中交替执行"看"和"想"——模型边接收视频帧边生成中间推理链,将 CoT 计算摊销到预查询阶段,从而在保持实时响应(0.56s QA延迟)的同时实现 StreamingBench 79.5% 的 SOTA。

Video Summarization with Large Language Models

LLMVS 提出一个基于 LLM 的视频摘要框架,先用多模态 LLM 将视频帧转换为文本描述,再用 LLM 通过滑动窗口上下文学习评估每帧的局部重要性分数,最后通过全局自注意力机制聚合全局上下文生成最终预测,在 SumMe 和 TVSum 上取得了 SOTA 性能。

VideoGEM: Training-Free Action Grounding in Videos

VideoGEM 提出了首个基于预训练图像/视频语言模型的免训练空间动作定位方法,通过层权重加权和提示分解策略,在四个动作定位数据集上超越了现有需要训练的方法。

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

VideoRefer Suite 从数据集(700K 目标级视频指令数据)、模型(时空目标编码器实现像素级区域理解)和基准(多维度评估)三方面构建完整体系,使 Video LLM 具备对视频中任意目标在任意时刻的感知、推理和检索能力。

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video SpatioTemporal Augmentation

提出 VISTA 框架,通过时空组合现有视频-描述数据集合成长时和高分辨率视频指令数据(涵盖 7 种增强方法),构建 VISTA-400K 数据集,在长视频理解基准上平均提升 3.3%,并首创高分辨率视频理解基准 HRVideoBench 实现 6.5% 提升。

ViTED: Video Temporal Evidence Distillation

ViTED提出一个自动生成时间定位证据链的框架,将证据收集、时间基准定位和问答推理统一到单一视频语言模型中,通过证据蒸馏提升复杂视频问答能力。

VoCo-LLaMA: Towards Vision Compression with Large Language Models

提出 VoCo-LLaMA,首个利用 LLM 自身能力压缩视觉 token 的方法,通过在视觉和文本 token 之间插入 VoCo token 并修改注意力掩码实现注意力蒸馏,以单个 token 实现 576 倍压缩率同时保持 83.7% 性能。

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

提出端到端的野外多手部重建管线 WiLoR,包含实时全卷积手部检测器和基于 Transformer 的高保真3D手部重建模型,通过多尺度精化模块实现图像对齐。