Topology-Aware Layer Pruning for Large Vision-Language Models¶
会议: ACL 2026
arXiv: 2604.16502
代码: GitHub
领域: 多模态VLM / 模型压缩
关键词: 层剪枝, 拓扑数据分析, 持久同调, 视觉语言模型, 模型压缩
一句话总结¶
提出基于拓扑数据分析的层剪枝框架 TopoVLM,将各层隐藏状态建模为点云并通过 zigzag 持久同调量化层间拓扑一致性,自适应保留关键表征转换层、剪除结构冗余层,在 50-60% 稀疏率下显著优于现有剪枝方法。
研究背景与动机¶
领域现状:大型视觉语言模型(LVLMs)如 LLaVA-NeXT、VideoLLaMA2 在多模态理解任务上表现优异,但基于深层 Transformer 解码器架构带来的计算和内存开销限制了实际部署。层剪枝作为一种有效的结构化压缩策略受到关注。
现有痛点:现有层剪枝方法分为两类:(1) 基于相似性的方法(如 LLM-Pruner、LLM-Streamline)依赖相邻层之间的余弦相似度等局部指标;(2) 基于信号驱动的方法(如 SparseGPT、Wanda)依赖权重幅度、激活统计等静态代理信号。两类方法都只提供局部快照视角,无法捕捉表征沿模型深度的全局动态演化。
核心矛盾:LVLMs 的表征沿深度方向经历非单调的结构性变化——从细粒度视觉编码到视觉-语言对齐再到指令条件推理。局部看起来冗余的层可能实际上是不同语义阶段之间的关键桥梁,剪掉这些"过渡关键层"会导致非线性的性能退化。
本文目标:设计一种能捕捉表征全局演化过程的剪枝准则,区分真正的结构冗余层和过渡关键层。
切入角度:拓扑数据分析(TDA)关注数据的全局几何和结构组织,持久同调可以追踪拓扑特征(连通分量、环、空洞)在不同尺度上的生灭,恰好适合分析表征沿深度的动态演化。
核心 idea:将各层隐藏状态视为点云,用 k-近邻图构建单纯复形,通过 zigzag 持久同调追踪拓扑特征跨层的生灭模式,定义层间拓扑一致性来量化结构冗余度——高一致性意味着该层未引入新的拓扑结构,可以安全剪除。
方法详解¶
整体框架¶
TopoVLM 要解决的是层剪枝里一个被忽视的陷阱:LVLM 的表征沿深度并非平滑演化,而是从细粒度视觉编码、到视觉-语言对齐、再到指令条件推理来回切换,某些层局部看着冗余、实际却是不同语义阶段之间的关键桥梁,剪掉它们会引发非线性的性能塌方。现有方法(基于相邻层相似度,或基于权重/激活的静态信号)都只是局部快照,看不到这种全局演化。TopoVLM 的破法是引入拓扑数据分析:把每一层的隐藏状态当成一团点云,用 zigzag 持久同调追踪拓扑特征(连通分量、环)跨层的生灭,再定义"层间拓扑一致性"来量化每层的结构冗余度——一致性高说明这层没引入新的拓扑结构,可以安全剪掉。整条流程是:图像-指令对过 LVLM、插入 [RET] token 聚合多模态信息得到各层隐藏状态 → 转点云、建复形、做 zigzag 过滤算持久同调 → 整理成有效持久性图像(EPI)→ 从中提一致性分数、把高于阈值的层标记为可剪除。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["图像-指令对输入"] --> B["LVLM 前向 + 插入 [RET] token<br/>聚合多模态信息得各层隐藏状态"]
B --> C["Zigzag 过滤构建<br/>隐藏状态转点云 → kNN 图建复形 → 相邻层取交集 → 算 0/1 维持久同调"]
C --> D["有效持久性图像(EPI)<br/>生灭区间投影到层索引 → 高斯核铺成连续可微图像"]
D --> E["层间拓扑一致性与自适应剪枝<br/>算拓扑活动度与层间一致性分数"]
E -->|一致性高于阈值| F["判为结构冗余层 → 剪除"]
E -->|一致性低于阈值| G["判为过渡关键层 → 保留"]
F --> H["压缩后的 LVLM"]
G --> H
关键设计¶
1. Zigzag 过滤构建:用允许"前进后退"的过滤捕捉非单调的表征演化
经典持久同调要求过滤是单调的,可 LVLM 层间表征恰恰是非单调来回变的,标准 PH 根本套不上去。TopoVLM 对每层 \(L_\ell\) 的隐藏状态 \(\mathbf{H}_{L_\ell} \in \mathbb{R}^{N \times d}\) 构建 k-近邻图、团扩展成单纯复形 \(\mathcal{K}_{L_\ell}\),再对相邻层取交集复形 \(\mathcal{K}_{L_\ell, L_{\ell+1}} = \mathcal{K}_{L_\ell} \cap \mathcal{K}_{L_{\ell+1}}\),把它们串成一条 zigzag 过滤序列,对序列算 0 维和 1 维持久同调得到拓扑特征的生灭区间。zigzag 的关键在于它允许前向和后向的包含映射,因此能完整追踪一个拓扑特征是在哪层出现、持续了多久、又在哪层消失——这正是单调过滤做不到的。
2. 有效持久性图像(EPI):把离散的持久性图摊成可微、可比的层-持久性平面
原始持久性图是个离散多集,既不便于做逐层分析,也不利于跨层比较。EPI 把每个生灭区间 \([b_j, d_j]\) 投影到最近的模型层索引得到有效区间 \([\tilde{b}_j, \tilde{d}_j]\),再用高斯核加权求和铺成一张连续图像
其中 \(\tau_j\) 为持久性长度。这样得到的表示既可微又稳定,便于后续层级分析;而权重函数 \(\omega(\tau_j)\) 会强调长寿命特征、抑制短命的噪声,让真正稳定的拓扑结构在图上更突出。
3. 层间拓扑一致性与自适应剪枝:用全局覆盖度而非局部相似度决定剪谁
最后要把 EPI 翻译成"剪不剪"的决策。TopoVLM 先算层级拓扑活动度 \(A(\ell)\)(沿持久性维度聚合 EPI),再算层间一致性分数 \(\bar{S_p}(\ell)\)——衡量层 \(\ell\) 产生的拓扑特征在其他层持续存在的加权概率,权重用距离函数 \(\omega(\ell, \ell') = |\ell - \ell'|^\alpha\);一致性高于阈值 \(\epsilon \cdot \bar{S_p}^{max}\) 的层被剪除。判据的含义是:某层一致性高,说明它贡献的拓扑结构在别的层早已被覆盖,移掉它不会破坏全局拓扑连续性。这与局部相似性度量的本质差别就在这里——它问的是"这层在全局结构演化里是否多余",而不是"它和邻居像不像",因而能把真正的结构冗余层和过渡关键层区分开。
训练策略与开销¶
无需训练,是纯推理时的剪枝方法。只需一次校准前向传播(512 个样本),zigzag 过滤离线完成,不引入推理时开销。主要超参为 k-近邻的 k 值和距离权重指数 \(\alpha\)。
实验关键数据¶
主实验¶
LLaVA-NeXT (8B) 50% 稀疏率:
| 方法 | MME-cognition | MMMU | MathVista | MMBench | 相对得分 |
|---|---|---|---|---|---|
| Full Model | 376.8 | 40.1 | 36.2 | 72.2 | 100% |
| TAMP | 341.0 | 35.7 | 31.9 | 66.3 | 90.9% |
| Ours | 353.1 | 38.2 | 34.6 | 69.8 | 91.6% |
VideoLLaMA2 (7B) 60% 稀疏率:
| 方法 | Clotho-AQA | MuchoMusic | VideoMME | NextQA-MC | 相对得分 |
|---|---|---|---|---|---|
| Full Model | 85.6 | 58.9 | 48.7 | 73.3 | 100% |
| TAMP | 84.2 | 55.9 | 42.5 | 70.9 | 95.0% |
| Ours | 84.9 | 58.1 | 48.0 | 72.5 | 96.7% |
消融实验¶
| 配置 | 说明 | 相对得分变化 |
|---|---|---|
| 去除 zigzag(仅用标准PH) | 无法处理非单调演化 | -2.1% |
| 去除 EPI(用原始PD) | 层级分析不稳定 | -1.5% |
| k=5 vs k=15 vs k=25 | k=15 最优,过小/过大均退化 | k=15 最佳 |
| α=0.5 vs α=1.0 vs α=2.0 | α=1.0 最优 | α=1.0 最佳 |
关键发现¶
- 浅层拓扑活动度高(形成低级多模态结构),中深层拓扑一致性高(结构冗余),与直觉一致
- 在高稀疏率(>60%)下优势更明显,说明拓扑感知剪枝能更准确识别真正重要的层
- 搜索阶段仅需 5.7 分钟(单次校准),远快于需要多次前向传播的 SparseGPT/Wanda
- 50% 稀疏率下 VRAM 降低 43%,推理延迟从 105.4ms 降至 60.3ms(1.75x 加速)
亮点与洞察¶
- TDA → 模型压缩的创新连接非常优雅——将持久同调从纯数学工具转化为实用的剪枝准则,为理解深度网络的表征结构提供了新视角
- "过渡关键层"概念有启发性——局部看冗余但全局看不可缺少的层,传统方法难以识别,拓扑分析天然适合这类全局结构推理
- 方法的通用性值得注意——不依赖特定模型架构,在图像和视频 LVLM 上均有效,可直接迁移到纯 LLM 或其他模态
局限与展望¶
- 仅考虑 0 维和 1 维持久同调,更高维可能包含有价值的结构信息但计算开销更大
- 校准数据的选择可能影响拓扑分析结果,对分布外数据的鲁棒性有待验证
- 目前是一次性剪枝,未探索渐进式剪枝或微调后恢复的可能性
- zigzag 过滤的计算复杂度虽然线性于层数,但实际实现的效率仍受点云规模影响
相关工作与启发¶
- vs LLM-Pruner / LLM-Streamline: 基于相邻层余弦相似度的局部指标,无法捕捉全局表征演化;本文通过 zigzag PH 提供全局视角
- vs TAMP: TAMP 是最强基线但仍依赖局部信号;本文在高稀疏率下优势更明显
- vs TDA 在 LLM 中的其他应用: 现有 TDA 工作主要用于幻觉检测和推理分析,本文首次将其用于结构化剪枝
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 zigzag 持久同调应用于 LVLM 层剪枝,理论新颖且实用
- 实验充分度: ⭐⭐⭐⭐ 覆盖两种架构和多种基准,但仅在两个模型上验证,更大规模模型缺失
- 写作质量: ⭐⭐⭐⭐ 数学形式化清晰,但对非 TDA 背景读者门槛较高
- 价值: ⭐⭐⭐⭐ 为模型压缩提供了新的理论工具,但实际部署中需要 TDA 专业知识