MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding¶
会议: ICLR 2026
arXiv: 2510.07915
代码: 有 (Project Web / Code / Model 均提供)
领域: 自动驾驶
关键词: 视频 token 压缩, 强化学习蒸馏, 视觉记忆检索, GRPO, 高效推理
一句话总结¶
提出 MARC 框架,通过"先检索再压缩"策略——用 Visual Memory Retriever (VMR) 选出与查询最相关的视频片段,再用 Compression GRPO (C-GRPO) 将 64 帧教师模型的推理能力蒸馏到仅用 1 帧 token 的学生模型——实现视觉 token 95% 压缩,GPU 显存降低 72%,推理延迟降低 23.9%,性能几乎无损(42.20 vs 42.21)。
研究背景与动机¶
视频理解的计算瓶颈:VLM 从图像扩展到视频后,高帧率和长时长视频带来的 token 数量激增,推理成本急剧上升,严重限制了在自动驾驶、监控等延迟敏感场景的部署。
现有 token 压缩方法的局限:主流压缩方法(如 MovieChat、VidCom、ByteVideoLLM)多基于 training-free 的 token 合并策略,在空间或时间维度独立处理冗余信息,不可避免地在压缩过程中丢失关键信息,导致显著性能下降。
时空冗余的独立处理问题:现有方法忽略了人类视觉记忆的时序组织和上下文感知特性——认知科学研究表明,人类将连续经验分割为离散事件,通过情景记忆进行回忆和检索。
极端压缩下的性能保持难题:将视频压缩到仅相当于单帧 token 数量时,朴素的几何 token 缩减启发式方法难以保持教师模型级别的推理质量。
缺少训练式压缩方案:现有方法大多是 training-free 的推理时技巧,缺乏通过学习来优化压缩质量的端到端方案。
检索与压缩的割裂:视频检索增强生成(Video-RAG)与 token 压缩通常是割裂的两条技术路线,本文首次将结构化检索与 RL 压缩紧密整合。
方法详解¶
整体框架¶
MARC 要解决的是一个很实际的矛盾:视频 token 一多,VLM 推理就贵,但简单粗暴地砍 token 又会丢关键信息、掉性能。它的思路是「先检索、再压缩」(retrieve then compress)——不去盲目压整段视频,而是先把和问题真正相关的片段挑出来,再在这一小块里做有意义的压缩。
整个流程是这样转的:原始视频先经 Visual Memory Retriever (VMR) 切成事件级片段并检索出与 query 最相关的 top-k 片段,这些片段进入 Memory-Aware Temporal Compression Layer 做两阶段时序压缩,把帧数压到目标预算,压缩后的少量 token 喂给 LLM;训练阶段则用 Compression GRPO (C-GRPO) 以 64 帧输入的教师网络为参照,通过强化学习把推理能力蒸馏进只用 1 帧 token 的学生网络。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
Q["用户 query"] --> VMR
V["原始视频<br/>(高帧率 / 长时长)"] --> VMR
VMR["Visual Memory Retriever<br/>事件级切段 + top-k 检索"] --> COMP
COMP["Memory-Aware 时序压缩层<br/>段内合并 → 跨段合并"] --> TOK["压缩后 token<br/>(≈1 帧, ~122 个)"]
TOK --> LLM["LLM 生成答案"]
LLM --> ANS["输出答案"]
ANS -.训练期对齐.-> CGRPO["Compression GRPO<br/>正确性门控 + 保持奖励"]
TEA["教师网络<br/>64 帧输入"] -.性能参照.-> CGRPO
CGRPO -.RL 蒸馏更新.-> COMP
关键设计¶
1. Visual Memory Retriever (VMR):先把相关片段捞出来,再压缩
直接压缩整段视频的问题在于:大量与问题无关的冗余会被一起塞进压缩流程,稀释掉真正重要的信息、拉低压缩质量。VMR 的做法借鉴了认知科学的观察——人类并不是把连续经历当成一条无差别的流,而是通过情景记忆把它切成一个个离散事件来回忆和检索。于是 VMR 先用一个深度事件检测网络(Soucek & Lokoc, 2024)识别场景切换、话题转变这类时序边界,把视频切成语义连贯的短片段(而不是固定长度的窗口);再用嵌入模型(Bolya et al., 2025)把 query 和所有片段映射到同一个高维潜空间,靠对比学习训练出的近邻搜索选出 top-k 个最相关片段(实验里 top-k=3)。这一步等于在压缩前先把搜索空间大幅收窄,让后续压缩只针对真正有用的证据。
2. Memory-Aware Temporal Compression Layer:顺着事件边界先合冗余最多的相邻帧
挑出片段后还得把帧数真正压下来,关键是别把重要证据也一起合掉。这一层利用 VMR 给出的事件边界结构,优先在同一事件内部合并高度相似的相邻帧——因为冗余最集中的地方就在同一事件里连续的相似帧。具体分两阶段:阶段 1(段内合并)对每个检索片段,在短期记忆窗口 \(m\) 内迭代合并余弦相似度最高的相邻帧对,用均值表示 \(\mathbf{H}_{merge} = \frac{1}{2}(\mathbf{H}_a + \mathbf{H}_b)\),一直合到满足压缩比 \(\rho\) 对应的帧预算为止;阶段 2(跨段合并)则在段内合并后总帧数仍超过目标 \(N_{target}\) 时,再做一次轻量级的全局合并兜底。相似度用 patch 对齐的余弦得分均值来度量:
这样压缩是「先合最该合的」,而不是无差别地几何缩减。
3. Compression GRPO (C-GRPO):把压缩从几何缩减变成对齐教师的奖励问题
把视频压到只剩单帧 token 时,靠启发式的几何缩减根本保不住教师级的推理质量。标准 GRPO 又只盯着答案对不对、格式合不合规,并不显式地把学生的表现和教师挂钩。C-GRPO 的改动就是引入一个「保持对齐」的奖励信号,把压缩重新定义成一个对齐问题。它先定义保持比率 \(\eta = a_{comp} / a_{full}\),量化学生到底保住了教师多少性能;再据此给出压缩奖励 \(r_c = \alpha \cdot \max(0, \eta - \tau)\),其中 \(\tau\) 是最低可接受的保持率阈值。关键的一步是正确性门控 \(R_i = r_i + \mathbb{1}[\text{correct}] \cdot r_c\)——只有语义答对的生成才有资格拿到保持奖励,这样能挡住 reward hacking,避免模型为了凑高 \(\eta\) 而放大虚假模式。之后照常做组内优势归一化 \(A_i = (R_i - \bar{R}) / \sigma_R\),最终优化一个带 KL 锚的裁剪目标。
损失函数 / 训练策略¶
- 教师网络:Qwen2.5-VL-3B,64 帧输入
- 学生网络:同架构,压缩至 1 帧 token(~122 tokens)
- 训练数据:仅从 Video-R1-260K 中随机采样 5K 样本(含视频和图像)
- Group size \(G=8\),阈值 \(\tau=0.6\)
- 图像数据不参与压缩奖励计算,但辅助建立静态场景下的通用推理能力
实验关键数据¶
主实验¶
| 模型 | 帧数 | VSI-Bench | VideoMMMU | MMVU | MVBench | TempCompass | VideoMME | 均值 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-3B (baseline) | 64 | 32.93 | 35.33 | 48.64 | 44.77 | 38.05 | 53.55 | 42.21 |
| Qwen2.5-VL-3B | 16 | 27.63 | 30.78 | 45.28 | 43.89 | 37.95 | 44.37 | 38.32 |
| InternVL3.5-4B | 64 | 28.96 | 33.33 | 47.51 | 44.71 | 58.34 | 39.15 | 42.00 |
| Gemma-3-4B | 64 | 26.83 | 26.78 | 41.76 | 36.82 | 55.04 | 46.00 | 38.87 |
| ByteVideoLLM-3B | 64 | 21.33 | 22.33 | 28.63 | 22.56 | 35.55 | 22.70 | 25.52 |
| MovieChat-3B | 1 | 25.14 | 25.78 | 39.35 | 37.10 | 38.79 | 26.41 | 32.10 |
| VidCom2-3B | 64 | 25.50 | 23.89 | 31.08 | 29.88 | 35.23 | 21.48 | 27.84 |
| MARC-3B | 1 | 27.55 | 33.11 | 51.99 | 45.82 | 55.34 | 39.44 | 42.20 |
关键数据:MARC-3B 使用仅 4.71% 的视觉 token(122.69 vs 原始 2589.93),均值 42.20 与 64 帧 baseline 42.21 几乎一致。
消融实验¶
τ 阈值消融:
| τ | VSI-Bench | VideoMMMU | MMVU | MVBench | TempCompass | VideoMME | 均值 |
|---|---|---|---|---|---|---|---|
| 0.4 | 28.27 | 31.66 | 49.12 | 45.21 | 54.72 | 39.07 | 41.34 |
| 0.6 | 27.55 | 33.11 | 51.99 | 45.82 | 55.34 | 39.44 | 42.20 |
| 0.8 | 28.23 | 31.78 | 49.34 | 45.89 | 54.12 | 39.03 | 41.40 |
VMR 与训练策略消融:
| 方法 | 帧数 | 均值 |
|---|---|---|
| Baseline (无 VMR) | 64 | 42.21 |
| Baseline + VMR | 64 | 45.56 |
| SFT | 1 | 38.50 |
| SFT + VMR | 1 | 40.16 |
| MARC (C-GRPO + VMR) | 1 | 42.20 |
关键发现¶
- 极端压缩下性能近乎无损:95% token 压缩率(64帧→1帧 token),均值性能 42.20 vs 42.21
- 效率提升显著:GPU 显存降低 72.4%(41.63GB → 11.48GB),LLM 生成延迟降 23.9%,端到端延迟降 11.1%
- VMR 单独即提升性能:不加压缩时 VMR 将 baseline 从 42.21 提升至 45.56(+7.9%),在 MVBench 上提升高达 27.85%
- C-GRPO 显著优于 SFT:MARC 均值 42.20 vs SFT 38.50(+9.6%)
- 在部分 benchmark 上超越 baseline:MMVU、MVBench、TempCompass 三个 benchmark 上 MARC 均超过 64 帧 baseline
- 超越更大模型:MARC-3B 均值超过 InternVL3.5-4B(42.20 vs 42.00)和 Gemma-3-4B(42.20 vs 38.87)
- τ=0.6 最优:太低(0.4)约束过松导致保持不足,太高(0.8)信号稀疏限制学习
亮点与洞察¶
- 认知科学启发的检索设计:VMR 的事件级分割模拟了人类情景记忆的编码与检索机制,比固定窗口或均匀采样更符合视频内容的自然结构
- 将压缩转化为对齐问题:C-GRPO 的核心洞察是把 token 压缩从几何/启发式操作重新定义为教师-学生对齐问题,利用 RL 的奖励塑形来引导压缩方向
- 正确性门控设计精妙:只有答对的生成才能获得压缩保持奖励,避免了奖励黑客行为和虚假模式的放大
- 仅用 5K 训练样本:训练数据极少(从 260K 中采样 5K),表明 C-GRPO 的数据效率极高
- retrieve-then-compress 范式:先检索再压缩的流水线设计,让压缩模块不是盲目压缩全视频,而是针对已筛选的关键片段进行有意义的压缩
局限与展望¶
- 长视频性能损失:在 VideoMME 上 MARC 仅保留 baseline 74% 性能(39.44 vs 53.55),极端压缩对长视频理解仍有明显代价
- 仅在 3B 模型上验证:所有训练实验基于 Qwen2.5-VL-3B,未验证 MARC 在 7B+ 模型上的泛化性
- VMR 依赖事件分割质量:如果事件检测模块误判边界或 query 语义匹配不佳,downstream 压缩质量会受影响
- 固定 top-k=3:检索片段数量固定,未探索自适应选择策略
- 压缩比固定:ρ 没有按视频复杂度自适应调整,对不同类型视频可能不是最优
- 端到端训练分离:VMR 和 C-GRPO 分开训练,未实现完全端到端的联合优化
相关工作与启发¶
- Video-RAG 方向:MARC 的 VMR 模块本质上是一种 video corpus retrieval 方案,可以与 Agent-Based 系统(如 VideoAgent)结合
- GRPO 的可扩展性:C-GRPO 中的压缩奖励设计思路可推广到其他模态的 token 压缩场景(如 3D 点云、长文档)
- Token Merging 方法族:MovieChat 的短期记忆合并是 MARC 时序压缩层的直接前身,MARC 通过 VMR 提供的事件结构显著改进了合并质量
- 知识蒸馏新范式:传统 KD 用 KL 散度对齐 logits/features,C-GRPO 开创了用 RL 奖励信号进行"行为级"蒸馏的新路径
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首次将 RL (GRPO) 应用于视频 token 压缩,retrieve-then-compress 组合新颖 |
| 实验充分度 | ⭐⭐⭐⭐ | 6 个 benchmark、多组对比/消融、效率评估完整;但缺少大模型验证 |
| 写作质量 | ⭐⭐⭐⭐ | 结构清晰,公式推导完整,动机阐述充分 |
| 价值 | ⭐⭐⭐⭐⭐ | 95% 压缩率 + 性能无损,对实际部署价值极高 |