SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodal LLMs¶
会议: NeurIPS 2025
arXiv: 2510.24214
代码: https://github.com/kinredon/SCOPE
领域: 多模态VLM
关键词: 视觉Token剪枝, 多模态大模型推理加速, 语义覆盖率, 子模函数, 训练无关
一句话总结¶
提出 SCOPE,一种联合建模显著性和覆盖率的视觉 Token 剪枝策略,通过迭代选择 SCOPE 得分最高的 Token 来保持语义完整性,在 9 倍 Token 缩减下保留 LLaVA-1.5 96% 的性能。
研究背景与动机¶
领域现状:MLLM 将图像编码为大量视觉 Token(如 576 或 2000+),与文本 Token 一起输入 LLM,自注意力的二次复杂度导致巨大计算开销
现有痛点:基于显著性的剪枝(如 FastV、SparseVLM、VisionZip)只保留注意力分数最高的 Token,存在两个问题: - 语义不完整:高显著性 Token 往往集中在少数物体上,丢失了上下文信息(如对 "猫在哪" 的回答需要猫和它周围的环境) - 注意力分布偏斜:只有极少数 Token 获得高注意力,其余 Token 注意力几乎均匀分布,难以区分信息性 Token 和冗余 Token
核心矛盾:显著性优先会导致所选 Token 语义高度重叠,覆盖率低
切入角度:借鉴子模函数优化(submodular optimization)中的覆盖函数思想,提出联合考虑显著性和覆盖率的选择策略
方法详解¶
整体框架¶
在 MLLM 的指定层(如第2层)进行 Token 剪枝:计算所有视觉 Token 对之间的余弦相似度,然后迭代地选择 SCOPE 得分最高的 Token 加入保留集合,直到达到预算 K。
关键设计¶
-
集合覆盖率(Set-Coverage):
- 功能:量化已选 Token 集合对全部 Token 的语义覆盖程度
- 核心思路:对每个 Token \(u\),其被覆盖程度定义为它与已选集合中最相似 Token 的余弦相似度:\(C(u,\mathcal{S}) = \max_{s \in \mathcal{S}} \text{sim}(u,s)\)。总覆盖率:\(f(\mathcal{S}) = \sum_{u \in \mathcal{V}} \max_{s \in \mathcal{S}} \text{sim}(u,s)\)
- 设计动机:鼓励选择语义多样化的 Token,确保每个未选 Token 都有至少一个相似的代表
-
Token 覆盖增益(Token-Coverage Gain):
- 功能:量化新增一个 Token 带来的额外覆盖
- 核心思路:边际增益 \(\Delta(v;\mathcal{S}) = \sum_{u \in \mathcal{V}}[\max(C(u,\mathcal{S}), \text{sim}(u,v)) - C(u,\mathcal{S})]\)
- 设计动机:贪心选择增益最大的 Token,这是经典的次模函数最大化策略,有 \((1-1/e)\) 的近似保证
-
SCOPE 得分:
- 功能:融合显著性和覆盖增益
- 核心思路:\(\Delta(v, A_v^\alpha; \mathcal{S}) = \Delta(v; \mathcal{S}) \cdot A_v^\alpha\),其中 \(A_v\) 是注意力分数,\(\alpha\) 是缩放因子
- 设计动机:纯覆盖增益忽略了 Token 的内在信息量,乘以注意力分数后可以在覆盖和重要性之间取得平衡
训练策略¶
完全无需训练,即插即用。在推理时的指定 Transformer 层执行一次剪枝即可。
实验关键数据¶
主实验 — LLaVA-1.5 7B, 保留 64 Token (↓88.9%)¶
| Benchmark | Vanilla (576) | FastV | SparseVLM | VisionZip | SCOPE | 相对性能 |
|---|---|---|---|---|---|---|
| GQA | 61.9 | 52.7 | 57.6 | 59.3 | 60.3 | 97.4% |
| MME | 1862 | 1612 | 1721 | 1783 | 1805 | 97.0% |
| POPE | 85.9 | 64.8 | 83.6 | 85.3 | 85.6 | 99.7% |
| TextVQA | 58.2 | 52.5 | 56.1 | 56.3 | 57.0 | 97.9% |
| Avg.(相对) | 100% | 89.5% | 96.5% | 97.5% | 98.2% | - |
消融实验¶
| 策略 | θ-Coverage (θ=0.95) | GQA | MME |
|---|---|---|---|
| Saliency Only | 18.2% | 57.6 | 1721 |
| Coverage Only | 52.3% | 59.1 | 1778 |
| Random | 23.5% | 50.2 | 1512 |
| SCOPE (ours) | 48.7% | 60.3 | 1805 |
关键发现¶
- 纯显著性方法的 θ-覆盖率甚至低于随机选择,说明高注意力 Token 高度集中
- 192 Token 时 SCOPE 保留 96.0% 原始性能,64 Token 时保留 98.2%
- 在 LLaVA-Next 上同样有效,说明方法具有通用性
- \(\alpha\) 参数控制显著性权重,\(\alpha=0.5\) 在大多数任务上最优
亮点与洞察¶
- θ-覆盖率指标的定义非常优雅,为视觉 Token 剪枝领域提供了一个新的定量评估维度,可以用来分析任何 Token 选择策略
- 子模函数最大化的贪心策略天然适合 Token 选择问题,这个连接虽然自然但之前没人做过,是本文核心贡献
- 方法的时间复杂度是 \(O(NK)\),对于 \(N=576, K=64\) 只需约 36K 次相似度比较,几乎不影响推理速度
局限与展望¶
- 当前 SCOPE 在 MLLM 的某一层做一次剪枝,渐进式多层剪枝可能更好(如 PyramidDrop 的思路)
- 覆盖率基于余弦相似度来衡量语义接近性,但余弦相似度在高维空间不一定能精确反映语义关系
- 未考虑文本 Token 与视觉 Token 的交互,可以结合问题内容做自适应剪枝
- 对视频理解的扩展尚未验证
相关工作与启发¶
- vs FastV:FastV 用文本到视觉的早期层注意力做剪枝,只选显著 Token;SCOPE 额外考虑覆盖率
- vs DivPrune:DivPrune 最大化多样性但不考虑显著性;SCOPE 统一两者
- vs VisionZip:VisionZip 用 CLS Token 注意力 + Token 合并;SCOPE 的覆盖增益是更优的选择准则
- 这个方法的思路可以迁移到 NLP 中的长文本 Token 压缩
评分¶
- 新颖性: ⭐⭐⭐⭐ 子模函数覆盖 + 显著性的结合简洁优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 多个 MLLM、多个 benchmark、详细消融
- 写作质量: ⭐⭐⭐⭐⭐ 数学推导完整、可视化直观
- 价值: ⭐⭐⭐⭐⭐ 无训练即插即用,实用性极强