Elysium: Exploring Object-level Perception in Videos via MLLM¶

会议: ECCV 2024
arXiv: 2403.16558
代码: 有 (GitHub)
领域: 视频理解
关键词: 多模态大语言模型, 目标跟踪, 视频目标感知, Token压缩, 大规模数据集

一句话总结¶

提出 Elysium——一个端到端可训练的多模态大语言模型（MLLM），通过构建百万级视频目标感知数据集 ElysiumTrack-1M 和设计视觉 Token 压缩网络 T-Selector，将 MLLM 的目标级感知能力从静态图像扩展到视频领域，支持单目标跟踪（SOT）、引用单目标跟踪（RSOT）和视频引用表达生成（Video-REG）三大任务。

研究背景与动机¶

现有的 MLLM（如 Shikra、MiniGPT-v2 等）已在图像层面展示了出色的目标级感知能力（如图像 Grounding、目标检测），但在视频领域的目标级任务（如目标跟踪）上研究不足。作者将视频任务按粒度分为三类：

视频级任务（VideoQA、视频描述）：关注全局信息，可通过时间轴上的融合操作提取特征
帧级任务（视频 Grounding、密集视频描述）：需要逐帧区分和分析
目标级任务（SOT、MOT、VOS）：需要在每帧中定位目标并保持跨帧的时间一致性

将 MLLM 应用于视频目标级任务面临两大核心挑战：

数据匮乏：现有跟踪数据集规模有限（如 LaSOT 仅 1.4K 轨迹），远不足以支撑 MLLM 的大规模预训练
计算瓶颈：处理大量视频帧会在 LLM 的上下文窗口中产生巨大的视觉 Token 负担，严重制约可处理的帧数

已有的视频 MLLM 工作（如 Video-LLaMA、VideoChat）主要聚焦于视频级理解，要么通过时间轴融合压缩信息丢失帧级信息，要么依赖外部专家模型进行目标感知（如 PG-Video-LLaVA），缺乏端到端的统一方案。Elysium 的目标是用纯 MLLM 架构、不借助任何外部模型来处理视频中的目标级任务。

方法详解¶

整体框架¶

Elysium 采用经典的 MLLM 架构：视觉编码器（CLIP-ViT-L）+ Token 压缩模块（T-Selector）+ 大语言模型（Vicuna）。对于视频中的每一帧 $\mathbf{X}_v^i$，先通过视觉编码器提取特征 $\mathbf{F}_v^i \in \mathbb{R}^{N \times C}$，再通过 T-Selector 压缩为 $\mathbf{T}_v^i \in \mathbb{R}^{\alpha N \times D}$，其中 $\alpha \in (0,1]$ 为压缩比，$D$ 为 LLM 的隐藏维度。

关键设计¶

1. ElysiumTrack-1M 数据集构建：解决大规模视频目标感知训练数据缺失问题¶

核心思路：从 WebVid-10M 视频数据集出发，通过自动化流水线生成百万级的"名词短语-轨迹"对。

构建流程分两步： - Step 1（生成名词短语-边界框对）：用 spaCy 解析视频描述为名词短语，过滤虚拟词和复数词，用 Grounding DINO 在首帧/中间帧/末帧生成边界框，保留置信度 > 0.6 的结果 - Step 2（扩展为轨迹对）：用 MixFormer 从首帧边界框生成轨迹，保留置信度 > 0.8 的轨迹，用卡尔曼滤波过滤漂移轨迹，计算中间帧和末帧的 IoU（< 0.3 则丢弃）

最终生成 127 万条名词短语-轨迹对，是 TrackingNet（3.06 万轨迹）的 41 倍。整个过程在 24 张 A100 上仅需 6 天。

同时定义两个新任务： - RSOT（引用单目标跟踪）：仅靠语言描述在视频中定位和跟踪目标，无需位置先验 - Video-REG（视频引用表达生成）：给定帧坐标，生成目标描述，要求时序感知能力

2. T-Selector Token 压缩网络：在性能与计算效率间取得平衡¶

核心思路：基于"视频包含冗余信息"的假设，通过门控机制选择最重要的视觉 Token，而非对空间维度进行融合。

设计动机：实验发现空间维度的融合操作（如交叉注意力、拼接）会导致性能急剧下降。T-Selector 通过逐 Token 打分并保留 Top-K 的方式避免了空间融合带来的信息损失。

\[\mathbf{G}_v = \text{KeepTopK}(\text{Softmax}(\text{MLP}(\mathbf{F}_v)), k, \mathbf{F}_v)$$ $$\mathbf{T}_v = \text{MLP}(\mathbf{G}_v)\]

其中 $k = \alpha N$，MLP 门控层计算每个 Token 的重要性分数，Softmax 归一化后取 Top-K，最后通过另一个 MLP 将维度映射到 LLM 隐藏维度。默认设置 $\alpha N = 108$（原始 576 tokens 压缩至 108，压缩比约 5.3 倍）。

3. 输入输出格式设计：高效利用 Token 预算¶

为每帧的视觉 Token 添加时间戳，使模型能区分连续帧
坐标表示采用 [0, 100) 范围的整数格式，如 "[23,45,46,72]" 仅需 13 个 LLaMA token，相比 Shikra 的浮点格式（28 tokens）节省约一半
为不同任务设计专用 prompt 模板，增强模型对多种问题格式的鲁棒性

训练策略¶

采用两阶段渐进式训练：

Stage 1：大规模图像数据预训练 - 先用 LLaVA-558K 冻结 ViT 和 LLM，仅训练 T-Selector（lr=2e-3，8 GPUs） - 然后解冻所有参数端到端训练，混合图像数据，30K steps（lr=5e-5，32 GPUs）

Stage 2：高质量数据微调 - 混合高质量图像数据 + 视频数据（VideoChat + ElysiumTrack-1M），22K steps - 前 20K steps 每视频随机采样 2-8 帧，间隔 1-60 帧（模拟不同帧率和运动速度） - 后 2K steps 扩展到 32 帧/视频，batch size=1

推理时：VideoQA 均匀采样 16 帧；SOT/RSOT 将长视频切分为 8 帧的 clip，相邻 clip 重叠 1 帧用于初始化跟踪。

实验关键数据¶

主实验¶

图像 Grounding（RefCOCO 系列）

模型	Token数	RefCOCO val	RefCOCO test-A	RefCOCO+ val	RefCOCOg val
Shikra (7B)	256	87.01	90.61	81.60	82.27
MiniGPT-v2 (7B)	256	88.69	91.65	79.97	84.44
Ferret (7B)	608	87.49	91.35	80.78	83.93
Elysium (7B)	108	89.07	92.12	82.86	82.92

Elysium 仅用 108 个视觉 Token 即超越使用 256-608 Token 的基线方法。

零样本 SOT（LaSOT 数据集）

模型	是否零样本	AUC	P	P_Norm
SiamRPN++	否	49.6	56.9	49.1
DiMP	否	56.9	65.0	56.7
SiamGAT	否	53.9	63.3	53.0
Elysium	是	56.1	61.0	50.1

零样本下 AUC 达到 56.1，接近专用跟踪器（DiMP 56.9）。

消融实验¶

T-Selector 压缩比消融（RefCOCO 系列平均精度）

压缩模块	Token数 $\alpha N$	平均精度	说明
无压缩	256	76.81	ViT@224 + MLP
无压缩	576	81.45	ViT@336 + MLP
拼接 (Concat)	144	54.65	空间融合导致严重退化
交叉注意力 (C.A.)	144	49.23	更差的空间融合
T-Selector	1	43.70	极端压缩
T-Selector	36	74.48	较大性能损失
T-Selector	108	78.54	最佳性价比
T-Selector	256	80.09	接近无压缩性能

关键发现¶

空间融合操作（拼接/交叉注意力）不适合视频目标感知：相同 Token 数下，T-Selector 的门控选择策略显著优于融合方式（78.54 vs 54.65/49.23）
Token 压缩存在临界点：从 108 降到 72 时性能显著下降，108 是性能-效率的最佳平衡点
零样本 SOT 可行：通过大规模视频目标数据训练，MLLM 无需微调即可接近专用跟踪器
MLLM 处理小目标的能力有限：在 UAV123 等包含小目标的数据集上表现欠佳，受限于视觉编码器分辨率

亮点与洞察¶

数据驱动的工程洞察：通过搭建自动化数据生产流水线（结合 Grounding DINO + MixFormer + 多种过滤策略），从通用视频数据中生成了百万级高质量目标跟踪注释，这种"用模型生成数据、再用数据训练模型"的范式值得借鉴
Token 选择优于 Token 融合：对比拼接/交叉注意力等融合方式，按重要性选择 Token 的策略更好地保留了空间信息
坐标格式的 Token 效率：整数坐标表示比浮点表示节省一半 Token，在长视频场景下收益显著

局限与展望¶

小目标跟踪效果不够理想，需要引入高分辨率视觉编码器
仅探索了 SOT 相关任务，未涉及 MOT、VOS、RVOS 等更复杂的目标级任务
数据集构建依赖 Grounding DINO 和 MixFormer 的质量，可能继承这些模型的偏差
T-Selector 的 Token 选择是静态的，未考虑不同帧/任务可能需要不同的 Token 分配策略

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地用纯 MLLM 实现视频目标级感知，提出 RSOT 和 Video-REG 两个新任务
实验充分度: ⭐⭐⭐⭐ — 覆盖图像 Grounding、VideoQA、SOT、RSOT、Video-REG 多个任务，消融研究完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，问题定义明确，图表丰富
价值: ⭐⭐⭐⭐ — 数据集和方法为视频 MLLM 的目标级感知研究奠定了基础