MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding¶
会议: ICLR 2026
arXiv: 2510.07915
代码: 有 (Project Web / Code / Model 均提供)
领域: 自动驾驶
关键词: 视频 token 压缩, 强化学习蒸馏, 视觉记忆检索, GRPO, 高效推理
一句话总结¶
提出 MARC 框架,通过"先检索再压缩"策略——用 Visual Memory Retriever (VMR) 选出与查询最相关的视频片段,再用 Compression GRPO (C-GRPO) 将 64 帧教师模型的推理能力蒸馏到仅用 1 帧 token 的学生模型——实现视觉 token 95% 压缩,GPU 显存降低 72%,推理延迟降低 23.9%,性能几乎无损(42.20 vs 42.21)。
研究背景与动机¶
视频理解的计算瓶颈:VLM 从图像扩展到视频后,高帧率和长时长视频带来的 token 数量激增,推理成本急剧上升,严重限制了在自动驾驶、监控等延迟敏感场景的部署。
现有 token 压缩方法的局限:主流压缩方法(如 MovieChat、VidCom、ByteVideoLLM)多基于 training-free 的 token 合并策略,在空间或时间维度独立处理冗余信息,不可避免地在压缩过程中丢失关键信息,导致显著性能下降。
时空冗余的独立处理问题:现有方法忽略了人类视觉记忆的时序组织和上下文感知特性——认知科学研究表明,人类将连续经验分割为离散事件,通过情景记忆进行回忆和检索。
极端压缩下的性能保持难题:将视频压缩到仅相当于单帧 token 数量时,朴素的几何 token 缩减启发式方法难以保持教师模型级别的推理质量。
缺少训练式压缩方案:现有方法大多是 training-free 的推理时技巧,缺乏通过学习来优化压缩质量的端到端方案。
检索与压缩的割裂:视频检索增强生成(Video-RAG)与 token 压缩通常是割裂的两条技术路线,本文首次将结构化检索与 RL 压缩紧密整合。
方法详解¶
整体框架¶
MARC 是一个 "retrieve then compress" 框架,包含两个核心模块:
- Visual Memory Retriever (VMR):将视频分割为事件级片段,检索与 query 最相关的 top-k 片段
- C-GRPO 训练策略:以 64 帧输入的教师网络为参考,通过强化学习将推理能力蒸馏到仅使用 1 帧 token 的学生网络
整个流程:原始视频 → 事件分割 → 检索 top-k 片段 → 时序压缩(Memory-Aware Temporal Compression) → 压缩后 token 输入 LLM → C-GRPO 训练对齐。
关键设计¶
1. Visual Memory Retriever (VMR)¶
功能:从长视频中检索与查询最相关的事件级片段,作为下游压缩的输入。
为什么:受认知科学启发——人类通过情景记忆将连续视觉经验分割为离散事件并进行检索。直接压缩整个视频会引入大量冗余信息,降低压缩质量;先检索再压缩可以大幅缩小搜索空间。
怎么做: - 事件级视频分割:使用深度事件检测网络(Soucek & Lokoc, 2024)识别场景切换、话题转变等时序边界,将视频分割为语义连贯的短片段(而非固定长度窗口) - 记忆检索:使用嵌入模型(Bolya et al., 2025)将 query 和所有片段映射到共享高维潜空间,通过对比学习训练的近邻搜索选出 top-k 个最相关片段 - 实验中 top-k=3
2. Memory-Aware Temporal Compression Layer¶
功能:将 VMR 选出的片段进行两阶段时序压缩,减少视觉 token 数量。
为什么:利用 VMR 提供的事件边界结构,优先在同一事件内合并高度相似的相邻帧(冗余最多的地方),保留 VMR 认为重要的事件证据。
怎么做: - 阶段 1(段内合并):对每个检索到的片段,在短期记忆窗口 \(m\) 内,迭代合并余弦相似度最高的相邻帧对,取均值表示 \(\mathbf{H}_{merge} = \frac{1}{2}(\mathbf{H}_a + \mathbf{H}_b)\),直到满足压缩比 \(\rho\) 对应的帧预算 - 阶段 2(跨段合并):如果段内合并后总帧数仍超过目标 \(N_{target}\),进行轻量级全局合并 - 相似度度量为 patch 对齐的余弦得分均值:\(\text{sim}(\mathbf{H}_a, \mathbf{H}_b) = \frac{1}{P}\sum_{p=1}^{P} \frac{\mathbf{h}_a^{(p)} \cdot \mathbf{h}_b^{(p)}}{\|\mathbf{h}_a^{(p)}\| \|\mathbf{h}_b^{(p)}\|}\)
3. Compression GRPO (C-GRPO)¶
功能:以教师-学生蒸馏范式,通过强化学习训练学生模型在极端压缩下保持教师级推理能力。
为什么:标准 GRPO 只关注答案正确性和格式,不显式耦合学生与教师的性能;C-GRPO 引入保持对齐奖励,将压缩转化为对齐问题而非几何缩减。
怎么做: - 定义保持比率 \(\eta = a_{comp} / a_{full}\),量化学生保留了多少教师性能 - 引入压缩奖励 \(r_c = \alpha \cdot \max(0, \eta - \tau)\),其中 \(\tau\) 是最低可接受保持率阈值 - 正确性门控:\(R_i = r_i + \mathbb{1}[\text{correct}] \cdot r_c\),只有语义正确的生成才能获得保持奖励,防止 reward hacking - 组内优势归一化 \(A_i = (R_i - \bar{R}) / \sigma_R\) - 最终优化带 KL 锚的裁剪目标
损失函数 / 训练策略¶
- 教师网络:Qwen2.5-VL-3B,64 帧输入
- 学生网络:同架构,压缩至 1 帧 token(~122 tokens)
- 训练数据:仅从 Video-R1-260K 中随机采样 5K 样本(含视频和图像)
- Group size \(G=8\),阈值 \(\tau=0.6\)
- 图像数据不参与压缩奖励计算,但辅助建立静态场景下的通用推理能力
实验关键数据¶
主实验¶
| 模型 | 帧数 | VSI-Bench | VideoMMMU | MMVU | MVBench | TempCompass | VideoMME | 均值 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-3B (baseline) | 64 | 32.93 | 35.33 | 48.64 | 44.77 | 38.05 | 53.55 | 42.21 |
| Qwen2.5-VL-3B | 16 | 27.63 | 30.78 | 45.28 | 43.89 | 37.95 | 44.37 | 38.32 |
| InternVL3.5-4B | 64 | 28.96 | 33.33 | 47.51 | 44.71 | 58.34 | 39.15 | 42.00 |
| Gemma-3-4B | 64 | 26.83 | 26.78 | 41.76 | 36.82 | 55.04 | 46.00 | 38.87 |
| ByteVideoLLM-3B | 64 | 21.33 | 22.33 | 28.63 | 22.56 | 35.55 | 22.70 | 25.52 |
| MovieChat-3B | 1 | 25.14 | 25.78 | 39.35 | 37.10 | 38.79 | 26.41 | 32.10 |
| VidCom2-3B | 64 | 25.50 | 23.89 | 31.08 | 29.88 | 35.23 | 21.48 | 27.84 |
| MARC-3B | 1 | 27.55 | 33.11 | 51.99 | 45.82 | 55.34 | 39.44 | 42.20 |
关键数据:MARC-3B 使用仅 4.71% 的视觉 token(122.69 vs 原始 2589.93),均值 42.20 与 64 帧 baseline 42.21 几乎一致。
消融实验¶
τ 阈值消融:
| τ | VSI-Bench | VideoMMMU | MMVU | MVBench | TempCompass | VideoMME | 均值 |
|---|---|---|---|---|---|---|---|
| 0.4 | 28.27 | 31.66 | 49.12 | 45.21 | 54.72 | 39.07 | 41.34 |
| 0.6 | 27.55 | 33.11 | 51.99 | 45.82 | 55.34 | 39.44 | 42.20 |
| 0.8 | 28.23 | 31.78 | 49.34 | 45.89 | 54.12 | 39.03 | 41.40 |
VMR 与训练策略消融:
| 方法 | 帧数 | 均值 |
|---|---|---|
| Baseline (无 VMR) | 64 | 42.21 |
| Baseline + VMR | 64 | 45.56 |
| SFT | 1 | 38.50 |
| SFT + VMR | 1 | 40.16 |
| MARC (C-GRPO + VMR) | 1 | 42.20 |
关键发现¶
- 极端压缩下性能近乎无损:95% token 压缩率(64帧→1帧 token),均值性能 42.20 vs 42.21
- 效率提升显著:GPU 显存降低 72.4%(41.63GB → 11.48GB),LLM 生成延迟降 23.9%,端到端延迟降 11.1%
- VMR 单独即提升性能:不加压缩时 VMR 将 baseline 从 42.21 提升至 45.56(+7.9%),在 MVBench 上提升高达 27.85%
- C-GRPO 显著优于 SFT:MARC 均值 42.20 vs SFT 38.50(+9.6%)
- 在部分 benchmark 上超越 baseline:MMVU、MVBench、TempCompass 三个 benchmark 上 MARC 均超过 64 帧 baseline
- 超越更大模型:MARC-3B 均值超过 InternVL3.5-4B(42.20 vs 42.00)和 Gemma-3-4B(42.20 vs 38.87)
- τ=0.6 最优:太低(0.4)约束过松导致保持不足,太高(0.8)信号稀疏限制学习
亮点与洞察¶
- 认知科学启发的检索设计:VMR 的事件级分割模拟了人类情景记忆的编码与检索机制,比固定窗口或均匀采样更符合视频内容的自然结构
- 将压缩转化为对齐问题:C-GRPO 的核心洞察是把 token 压缩从几何/启发式操作重新定义为教师-学生对齐问题,利用 RL 的奖励塑形来引导压缩方向
- 正确性门控设计精妙:只有答对的生成才能获得压缩保持奖励,避免了奖励黑客行为和虚假模式的放大
- 仅用 5K 训练样本:训练数据极少(从 260K 中采样 5K),表明 C-GRPO 的数据效率极高
- retrieve-then-compress 范式:先检索再压缩的流水线设计,让压缩模块不是盲目压缩全视频,而是针对已筛选的关键片段进行有意义的压缩
局限与展望¶
- 长视频性能损失:在 VideoMME 上 MARC 仅保留 baseline 74% 性能(39.44 vs 53.55),极端压缩对长视频理解仍有明显代价
- 仅在 3B 模型上验证:所有训练实验基于 Qwen2.5-VL-3B,未验证 MARC 在 7B+ 模型上的泛化性
- VMR 依赖事件分割质量:如果事件检测模块误判边界或 query 语义匹配不佳,downstream 压缩质量会受影响
- 固定 top-k=3:检索片段数量固定,未探索自适应选择策略
- 压缩比固定:ρ 没有按视频复杂度自适应调整,对不同类型视频可能不是最优
- 端到端训练分离:VMR 和 C-GRPO 分开训练,未实现完全端到端的联合优化
相关工作与启发¶
- Video-RAG 方向:MARC 的 VMR 模块本质上是一种 video corpus retrieval 方案,可以与 Agent-Based 系统(如 VideoAgent)结合
- GRPO 的可扩展性:C-GRPO 中的压缩奖励设计思路可推广到其他模态的 token 压缩场景(如 3D 点云、长文档)
- Token Merging 方法族:MovieChat 的短期记忆合并是 MARC 时序压缩层的直接前身,MARC 通过 VMR 提供的事件结构显著改进了合并质量
- 知识蒸馏新范式:传统 KD 用 KL 散度对齐 logits/features,C-GRPO 开创了用 RL 奖励信号进行"行为级"蒸馏的新路径
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首次将 RL (GRPO) 应用于视频 token 压缩,retrieve-then-compress 组合新颖 |
| 实验充分度 | ⭐⭐⭐⭐ | 6 个 benchmark、多组对比/消融、效率评估完整;但缺少大模型验证 |
| 写作质量 | ⭐⭐⭐⭐ | 结构清晰,公式推导完整,动机阐述充分 |
| 价值 | ⭐⭐⭐⭐⭐ | 95% 压缩率 + 性能无损,对实际部署价值极高 |