跳转至

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

会议: ICLR 2026
arXiv: 2510.07915
代码: 有 (Project Web / Code / Model 均提供)
领域: 自动驾驶
关键词: 视频 token 压缩, 强化学习蒸馏, 视觉记忆检索, GRPO, 高效推理

一句话总结

提出 MARC 框架,通过"先检索再压缩"策略——用 Visual Memory Retriever (VMR) 选出与查询最相关的视频片段,再用 Compression GRPO (C-GRPO) 将 64 帧教师模型的推理能力蒸馏到仅用 1 帧 token 的学生模型——实现视觉 token 95% 压缩,GPU 显存降低 72%,推理延迟降低 23.9%,性能几乎无损(42.20 vs 42.21)。

研究背景与动机

视频理解的计算瓶颈:VLM 从图像扩展到视频后,高帧率和长时长视频带来的 token 数量激增,推理成本急剧上升,严重限制了在自动驾驶、监控等延迟敏感场景的部署。

现有 token 压缩方法的局限:主流压缩方法(如 MovieChat、VidCom、ByteVideoLLM)多基于 training-free 的 token 合并策略,在空间或时间维度独立处理冗余信息,不可避免地在压缩过程中丢失关键信息,导致显著性能下降。

时空冗余的独立处理问题:现有方法忽略了人类视觉记忆的时序组织和上下文感知特性——认知科学研究表明,人类将连续经验分割为离散事件,通过情景记忆进行回忆和检索。

极端压缩下的性能保持难题:将视频压缩到仅相当于单帧 token 数量时,朴素的几何 token 缩减启发式方法难以保持教师模型级别的推理质量。

缺少训练式压缩方案:现有方法大多是 training-free 的推理时技巧,缺乏通过学习来优化压缩质量的端到端方案。

检索与压缩的割裂:视频检索增强生成(Video-RAG)与 token 压缩通常是割裂的两条技术路线,本文首次将结构化检索与 RL 压缩紧密整合。

方法详解

整体框架

MARC 是一个 "retrieve then compress" 框架,包含两个核心模块:

  • Visual Memory Retriever (VMR):将视频分割为事件级片段,检索与 query 最相关的 top-k 片段
  • C-GRPO 训练策略:以 64 帧输入的教师网络为参考,通过强化学习将推理能力蒸馏到仅使用 1 帧 token 的学生网络

整个流程:原始视频 → 事件分割 → 检索 top-k 片段 → 时序压缩(Memory-Aware Temporal Compression) → 压缩后 token 输入 LLM → C-GRPO 训练对齐。

关键设计

1. Visual Memory Retriever (VMR)

功能:从长视频中检索与查询最相关的事件级片段,作为下游压缩的输入。

为什么:受认知科学启发——人类通过情景记忆将连续视觉经验分割为离散事件并进行检索。直接压缩整个视频会引入大量冗余信息,降低压缩质量;先检索再压缩可以大幅缩小搜索空间。

怎么做: - 事件级视频分割:使用深度事件检测网络(Soucek & Lokoc, 2024)识别场景切换、话题转变等时序边界,将视频分割为语义连贯的短片段(而非固定长度窗口) - 记忆检索:使用嵌入模型(Bolya et al., 2025)将 query 和所有片段映射到共享高维潜空间,通过对比学习训练的近邻搜索选出 top-k 个最相关片段 - 实验中 top-k=3

2. Memory-Aware Temporal Compression Layer

功能:将 VMR 选出的片段进行两阶段时序压缩,减少视觉 token 数量。

为什么:利用 VMR 提供的事件边界结构,优先在同一事件内合并高度相似的相邻帧(冗余最多的地方),保留 VMR 认为重要的事件证据。

怎么做: - 阶段 1(段内合并):对每个检索到的片段,在短期记忆窗口 \(m\) 内,迭代合并余弦相似度最高的相邻帧对,取均值表示 \(\mathbf{H}_{merge} = \frac{1}{2}(\mathbf{H}_a + \mathbf{H}_b)\),直到满足压缩比 \(\rho\) 对应的帧预算 - 阶段 2(跨段合并):如果段内合并后总帧数仍超过目标 \(N_{target}\),进行轻量级全局合并 - 相似度度量为 patch 对齐的余弦得分均值:\(\text{sim}(\mathbf{H}_a, \mathbf{H}_b) = \frac{1}{P}\sum_{p=1}^{P} \frac{\mathbf{h}_a^{(p)} \cdot \mathbf{h}_b^{(p)}}{\|\mathbf{h}_a^{(p)}\| \|\mathbf{h}_b^{(p)}\|}\)

3. Compression GRPO (C-GRPO)

功能:以教师-学生蒸馏范式,通过强化学习训练学生模型在极端压缩下保持教师级推理能力。

为什么:标准 GRPO 只关注答案正确性和格式,不显式耦合学生与教师的性能;C-GRPO 引入保持对齐奖励,将压缩转化为对齐问题而非几何缩减。

怎么做: - 定义保持比率 \(\eta = a_{comp} / a_{full}\),量化学生保留了多少教师性能 - 引入压缩奖励 \(r_c = \alpha \cdot \max(0, \eta - \tau)\),其中 \(\tau\) 是最低可接受保持率阈值 - 正确性门控\(R_i = r_i + \mathbb{1}[\text{correct}] \cdot r_c\),只有语义正确的生成才能获得保持奖励,防止 reward hacking - 组内优势归一化 \(A_i = (R_i - \bar{R}) / \sigma_R\) - 最终优化带 KL 锚的裁剪目标

损失函数 / 训练策略

\[\mathcal{L}_{\text{C-GRPO}} = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\left(\text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) A_i\right) - \beta \text{KL}(\pi_\theta \| \pi_{ref})\right]\]
  • 教师网络:Qwen2.5-VL-3B,64 帧输入
  • 学生网络:同架构,压缩至 1 帧 token(~122 tokens)
  • 训练数据:仅从 Video-R1-260K 中随机采样 5K 样本(含视频和图像)
  • Group size \(G=8\),阈值 \(\tau=0.6\)
  • 图像数据不参与压缩奖励计算,但辅助建立静态场景下的通用推理能力

实验关键数据

主实验

模型 帧数 VSI-Bench VideoMMMU MMVU MVBench TempCompass VideoMME 均值
Qwen2.5-VL-3B (baseline) 64 32.93 35.33 48.64 44.77 38.05 53.55 42.21
Qwen2.5-VL-3B 16 27.63 30.78 45.28 43.89 37.95 44.37 38.32
InternVL3.5-4B 64 28.96 33.33 47.51 44.71 58.34 39.15 42.00
Gemma-3-4B 64 26.83 26.78 41.76 36.82 55.04 46.00 38.87
ByteVideoLLM-3B 64 21.33 22.33 28.63 22.56 35.55 22.70 25.52
MovieChat-3B 1 25.14 25.78 39.35 37.10 38.79 26.41 32.10
VidCom2-3B 64 25.50 23.89 31.08 29.88 35.23 21.48 27.84
MARC-3B 1 27.55 33.11 51.99 45.82 55.34 39.44 42.20

关键数据:MARC-3B 使用仅 4.71% 的视觉 token(122.69 vs 原始 2589.93),均值 42.20 与 64 帧 baseline 42.21 几乎一致。

消融实验

τ 阈值消融

τ VSI-Bench VideoMMMU MMVU MVBench TempCompass VideoMME 均值
0.4 28.27 31.66 49.12 45.21 54.72 39.07 41.34
0.6 27.55 33.11 51.99 45.82 55.34 39.44 42.20
0.8 28.23 31.78 49.34 45.89 54.12 39.03 41.40

VMR 与训练策略消融

方法 帧数 均值
Baseline (无 VMR) 64 42.21
Baseline + VMR 64 45.56
SFT 1 38.50
SFT + VMR 1 40.16
MARC (C-GRPO + VMR) 1 42.20

关键发现

  1. 极端压缩下性能近乎无损:95% token 压缩率(64帧→1帧 token),均值性能 42.20 vs 42.21
  2. 效率提升显著:GPU 显存降低 72.4%(41.63GB → 11.48GB),LLM 生成延迟降 23.9%,端到端延迟降 11.1%
  3. VMR 单独即提升性能:不加压缩时 VMR 将 baseline 从 42.21 提升至 45.56(+7.9%),在 MVBench 上提升高达 27.85%
  4. C-GRPO 显著优于 SFT:MARC 均值 42.20 vs SFT 38.50(+9.6%)
  5. 在部分 benchmark 上超越 baseline:MMVU、MVBench、TempCompass 三个 benchmark 上 MARC 均超过 64 帧 baseline
  6. 超越更大模型:MARC-3B 均值超过 InternVL3.5-4B(42.20 vs 42.00)和 Gemma-3-4B(42.20 vs 38.87)
  7. τ=0.6 最优:太低(0.4)约束过松导致保持不足,太高(0.8)信号稀疏限制学习

亮点与洞察

  • 认知科学启发的检索设计:VMR 的事件级分割模拟了人类情景记忆的编码与检索机制,比固定窗口或均匀采样更符合视频内容的自然结构
  • 将压缩转化为对齐问题:C-GRPO 的核心洞察是把 token 压缩从几何/启发式操作重新定义为教师-学生对齐问题,利用 RL 的奖励塑形来引导压缩方向
  • 正确性门控设计精妙:只有答对的生成才能获得压缩保持奖励,避免了奖励黑客行为和虚假模式的放大
  • 仅用 5K 训练样本:训练数据极少(从 260K 中采样 5K),表明 C-GRPO 的数据效率极高
  • retrieve-then-compress 范式:先检索再压缩的流水线设计,让压缩模块不是盲目压缩全视频,而是针对已筛选的关键片段进行有意义的压缩

局限与展望

  1. 长视频性能损失:在 VideoMME 上 MARC 仅保留 baseline 74% 性能(39.44 vs 53.55),极端压缩对长视频理解仍有明显代价
  2. 仅在 3B 模型上验证:所有训练实验基于 Qwen2.5-VL-3B,未验证 MARC 在 7B+ 模型上的泛化性
  3. VMR 依赖事件分割质量:如果事件检测模块误判边界或 query 语义匹配不佳,downstream 压缩质量会受影响
  4. 固定 top-k=3:检索片段数量固定,未探索自适应选择策略
  5. 压缩比固定:ρ 没有按视频复杂度自适应调整,对不同类型视频可能不是最优
  6. 端到端训练分离:VMR 和 C-GRPO 分开训练,未实现完全端到端的联合优化

相关工作与启发

  • Video-RAG 方向:MARC 的 VMR 模块本质上是一种 video corpus retrieval 方案,可以与 Agent-Based 系统(如 VideoAgent)结合
  • GRPO 的可扩展性:C-GRPO 中的压缩奖励设计思路可推广到其他模态的 token 压缩场景(如 3D 点云、长文档)
  • Token Merging 方法族:MovieChat 的短期记忆合并是 MARC 时序压缩层的直接前身,MARC 通过 VMR 提供的事件结构显著改进了合并质量
  • 知识蒸馏新范式:传统 KD 用 KL 散度对齐 logits/features,C-GRPO 开创了用 RL 奖励信号进行"行为级"蒸馏的新路径

评分

维度 评分 说明
新颖性 ⭐⭐⭐⭐ 首次将 RL (GRPO) 应用于视频 token 压缩,retrieve-then-compress 组合新颖
实验充分度 ⭐⭐⭐⭐ 6 个 benchmark、多组对比/消融、效率评估完整;但缺少大模型验证
写作质量 ⭐⭐⭐⭐ 结构清晰,公式推导完整,动机阐述充分
价值 ⭐⭐⭐⭐⭐ 95% 压缩率 + 性能无损,对实际部署价值极高