SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodal LLMs¶

会议: NeurIPS 2025
arXiv: 2510.24214
代码: https://github.com/kinredon/SCOPE
领域: 多模态VLM
关键词: 视觉Token剪枝, 多模态大模型推理加速, 语义覆盖率, 子模函数, 训练无关

一句话总结¶

提出 SCOPE，一种联合建模显著性和覆盖率的视觉 Token 剪枝策略，通过迭代选择 SCOPE 得分最高的 Token 来保持语义完整性，在 9 倍 Token 缩减下保留 LLaVA-1.5 96% 的性能。

研究背景与动机¶

领域现状：MLLM 将图像编码为大量视觉 Token（如 576 或 2000+），与文本 Token 一起输入 LLM，自注意力的二次复杂度导致巨大计算开销

现有痛点：基于显著性的剪枝（如 FastV、SparseVLM、VisionZip）只保留注意力分数最高的 Token，存在两个问题： - 语义不完整：高显著性 Token 往往集中在少数物体上，丢失了上下文信息（如对 "猫在哪" 的回答需要猫和它周围的环境） - 注意力分布偏斜：只有极少数 Token 获得高注意力，其余 Token 注意力几乎均匀分布，难以区分信息性 Token 和冗余 Token

核心矛盾：显著性优先会导致所选 Token 语义高度重叠，覆盖率低

切入角度：借鉴子模函数优化（submodular optimization）中的覆盖函数思想，提出联合考虑显著性和覆盖率的选择策略

方法详解¶

整体框架¶

在 MLLM 的指定层（如第2层）进行 Token 剪枝：计算所有视觉 Token 对之间的余弦相似度，然后迭代地选择 SCOPE 得分最高的 Token 加入保留集合，直到达到预算 K。

关键设计¶

集合覆盖率（Set-Coverage）：
- 功能：量化已选 Token 集合对全部 Token 的语义覆盖程度
- 核心思路：对每个 Token \(u\)，其被覆盖程度定义为它与已选集合中最相似 Token 的余弦相似度：\(C(u,\mathcal{S}) = \max_{s \in \mathcal{S}} \text{sim}(u,s)\)。总覆盖率：\(f(\mathcal{S}) = \sum_{u \in \mathcal{V}} \max_{s \in \mathcal{S}} \text{sim}(u,s)\)
- 设计动机：鼓励选择语义多样化的 Token，确保每个未选 Token 都有至少一个相似的代表
Token 覆盖增益（Token-Coverage Gain）：
- 功能：量化新增一个 Token 带来的额外覆盖
- 核心思路：边际增益 \(\Delta(v;\mathcal{S}) = \sum_{u \in \mathcal{V}}[\max(C(u,\mathcal{S}), \text{sim}(u,v)) - C(u,\mathcal{S})]\)
- 设计动机：贪心选择增益最大的 Token，这是经典的次模函数最大化策略，有 \((1-1/e)\) 的近似保证
SCOPE 得分：
- 功能：融合显著性和覆盖增益
- 核心思路：\(\Delta(v, A_v^\alpha; \mathcal{S}) = \Delta(v; \mathcal{S}) \cdot A_v^\alpha\)，其中 \(A_v\) 是注意力分数，\(\alpha\) 是缩放因子
- 设计动机：纯覆盖增益忽略了 Token 的内在信息量，乘以注意力分数后可以在覆盖和重要性之间取得平衡

训练策略¶

完全无需训练，即插即用。在推理时的指定 Transformer 层执行一次剪枝即可。

实验关键数据¶

主实验 — LLaVA-1.5 7B, 保留 64 Token (↓88.9%)¶

Benchmark	Vanilla (576)	FastV	SparseVLM	VisionZip	SCOPE	相对性能
GQA	61.9	52.7	57.6	59.3	60.3	97.4%
MME	1862	1612	1721	1783	1805	97.0%
POPE	85.9	64.8	83.6	85.3	85.6	99.7%
TextVQA	58.2	52.5	56.1	56.3	57.0	97.9%
Avg.(相对)	100%	89.5%	96.5%	97.5%	98.2%	-

消融实验¶

策略	θ-Coverage (θ=0.95)	GQA	MME
Saliency Only	18.2%	57.6	1721
Coverage Only	52.3%	59.1	1778
Random	23.5%	50.2	1512
SCOPE (ours)	48.7%	60.3	1805

关键发现¶

纯显著性方法的 θ-覆盖率甚至低于随机选择，说明高注意力 Token 高度集中
192 Token 时 SCOPE 保留 96.0% 原始性能，64 Token 时保留 98.2%
在 LLaVA-Next 上同样有效，说明方法具有通用性
\(\alpha\) 参数控制显著性权重，\(\alpha=0.5\) 在大多数任务上最优

亮点与洞察¶

θ-覆盖率指标的定义非常优雅，为视觉 Token 剪枝领域提供了一个新的定量评估维度，可以用来分析任何 Token 选择策略
子模函数最大化的贪心策略天然适合 Token 选择问题，这个连接虽然自然但之前没人做过，是本文核心贡献
方法的时间复杂度是 \(O(NK)\)，对于 \(N=576, K=64\) 只需约 36K 次相似度比较，几乎不影响推理速度

局限与展望¶

当前 SCOPE 在 MLLM 的某一层做一次剪枝，渐进式多层剪枝可能更好（如 PyramidDrop 的思路）
覆盖率基于余弦相似度来衡量语义接近性，但余弦相似度在高维空间不一定能精确反映语义关系
未考虑文本 Token 与视觉 Token 的交互，可以结合问题内容做自适应剪枝
对视频理解的扩展尚未验证

评分¶

新颖性: ⭐⭐⭐⭐ 子模函数覆盖 + 显著性的结合简洁优雅
实验充分度: ⭐⭐⭐⭐⭐ 多个 MLLM、多个 benchmark、详细消融
写作质量: ⭐⭐⭐⭐⭐ 数学推导完整、可视化直观
价值: ⭐⭐⭐⭐⭐ 无训练即插即用，实用性极强