Topology-Aware Layer Pruning for Large Vision-Language Models¶

会议: ACL 2026
arXiv: 2604.16502
代码: GitHub
领域: 多模态VLM / 模型压缩
关键词: 层剪枝, 拓扑数据分析, 持久同调, 视觉语言模型, 模型压缩

一句话总结¶

提出基于拓扑数据分析的层剪枝框架 TopoVLM，将各层隐藏状态建模为点云并通过 zigzag 持久同调量化层间拓扑一致性，自适应保留关键表征转换层、剪除结构冗余层，在 50-60% 稀疏率下显著优于现有剪枝方法。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLMs）如 LLaVA-NeXT、VideoLLaMA2 在多模态理解任务上表现优异，但基于深层 Transformer 解码器架构带来的计算和内存开销限制了实际部署。层剪枝作为一种有效的结构化压缩策略受到关注。

现有痛点：现有层剪枝方法分为两类：(1) 基于相似性的方法（如 LLM-Pruner、LLM-Streamline）依赖相邻层之间的余弦相似度等局部指标；(2) 基于信号驱动的方法（如 SparseGPT、Wanda）依赖权重幅度、激活统计等静态代理信号。两类方法都只提供局部快照视角，无法捕捉表征沿模型深度的全局动态演化。

核心矛盾：LVLMs 的表征沿深度方向经历非单调的结构性变化——从细粒度视觉编码到视觉-语言对齐再到指令条件推理。局部看起来冗余的层可能实际上是不同语义阶段之间的关键桥梁，剪掉这些"过渡关键层"会导致非线性的性能退化。

本文目标：设计一种能捕捉表征全局演化过程的剪枝准则，区分真正的结构冗余层和过渡关键层。

切入角度：拓扑数据分析（TDA）关注数据的全局几何和结构组织，持久同调可以追踪拓扑特征（连通分量、环、空洞）在不同尺度上的生灭，恰好适合分析表征沿深度的动态演化。

核心 idea：将各层隐藏状态视为点云，用 k-近邻图构建单纯复形，通过 zigzag 持久同调追踪拓扑特征跨层的生灭模式，定义层间拓扑一致性来量化结构冗余度——高一致性意味着该层未引入新的拓扑结构，可以安全剪除。

方法详解¶

整体框架¶

TopoVLM 要解决的是层剪枝里一个被忽视的陷阱：LVLM 的表征沿深度并非平滑演化，而是从细粒度视觉编码、到视觉-语言对齐、再到指令条件推理来回切换，某些层局部看着冗余、实际却是不同语义阶段之间的关键桥梁，剪掉它们会引发非线性的性能塌方。现有方法（基于相邻层相似度，或基于权重/激活的静态信号）都只是局部快照，看不到这种全局演化。TopoVLM 的破法是引入拓扑数据分析：把每一层的隐藏状态当成一团点云，用 zigzag 持久同调追踪拓扑特征（连通分量、环）跨层的生灭，再定义"层间拓扑一致性"来量化每层的结构冗余度——一致性高说明这层没引入新的拓扑结构，可以安全剪掉。整条流程是：图像-指令对过 LVLM、插入 [RET] token 聚合多模态信息得到各层隐藏状态 → 转点云、建复形、做 zigzag 过滤算持久同调 → 整理成有效持久性图像（EPI）→ 从中提一致性分数、把高于阈值的层标记为可剪除。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像-指令对输入"] --> B["LVLM 前向 + 插入 [RET] token<br/>聚合多模态信息得各层隐藏状态"]
    B --> C["Zigzag 过滤构建<br/>隐藏状态转点云 → kNN 图建复形 → 相邻层取交集 → 算 0/1 维持久同调"]
    C --> D["有效持久性图像（EPI）<br/>生灭区间投影到层索引 → 高斯核铺成连续可微图像"]
    D --> E["层间拓扑一致性与自适应剪枝<br/>算拓扑活动度与层间一致性分数"]
    E -->|一致性高于阈值| F["判为结构冗余层 → 剪除"]
    E -->|一致性低于阈值| G["判为过渡关键层 → 保留"]
    F --> H["压缩后的 LVLM"]
    G --> H

关键设计¶

1. Zigzag 过滤构建：用允许"前进后退"的过滤捕捉非单调的表征演化

经典持久同调要求过滤是单调的，可 LVLM 层间表征恰恰是非单调来回变的，标准 PH 根本套不上去。TopoVLM 对每层 \(L_\ell\) 的隐藏状态 \(\mathbf{H}_{L_\ell} \in \mathbb{R}^{N \times d}\) 构建 k-近邻图、团扩展成单纯复形 \(\mathcal{K}_{L_\ell}\)，再对相邻层取交集复形 \(\mathcal{K}_{L_\ell, L_{\ell+1}} = \mathcal{K}_{L_\ell} \cap \mathcal{K}_{L_{\ell+1}}\)，把它们串成一条 zigzag 过滤序列，对序列算 0 维和 1 维持久同调得到拓扑特征的生灭区间。zigzag 的关键在于它允许前向和后向的包含映射，因此能完整追踪一个拓扑特征是在哪层出现、持续了多久、又在哪层消失——这正是单调过滤做不到的。

2. 有效持久性图像（EPI）：把离散的持久性图摊成可微、可比的层-持久性平面

原始持久性图是个离散多集，既不便于做逐层分析，也不利于跨层比较。EPI 把每个生灭区间 \([b_j, d_j]\) 投影到最近的模型层索引得到有效区间 \([\tilde{b}_j, \tilde{d}_j]\)，再用高斯核加权求和铺成一张连续图像

\[\text{EPI}_p(u,v) = \sum_j \omega(\tau_j) \exp\!\Big(-\frac{(u-\tilde{b}_j)^2 + (v-\tau_j)^2}{2\sigma^2}\Big)\]

其中 \(\tau_j\) 为持久性长度。这样得到的表示既可微又稳定，便于后续层级分析；而权重函数 \(\omega(\tau_j)\) 会强调长寿命特征、抑制短命的噪声，让真正稳定的拓扑结构在图上更突出。

3. 层间拓扑一致性与自适应剪枝：用全局覆盖度而非局部相似度决定剪谁

最后要把 EPI 翻译成"剪不剪"的决策。TopoVLM 先算层级拓扑活动度 \(A(\ell)\)（沿持久性维度聚合 EPI），再算层间一致性分数 \(\bar{S_p}(\ell)\)——衡量层 \(\ell\) 产生的拓扑特征在其他层持续存在的加权概率，权重用距离函数 \(\omega(\ell, \ell') = |\ell - \ell'|^\alpha\)；一致性高于阈值 \(\epsilon \cdot \bar{S_p}^{max}\) 的层被剪除。判据的含义是：某层一致性高，说明它贡献的拓扑结构在别的层早已被覆盖，移掉它不会破坏全局拓扑连续性。这与局部相似性度量的本质差别就在这里——它问的是"这层在全局结构演化里是否多余"，而不是"它和邻居像不像"，因而能把真正的结构冗余层和过渡关键层区分开。

训练策略与开销¶

无需训练，是纯推理时的剪枝方法。只需一次校准前向传播（512 个样本），zigzag 过滤离线完成，不引入推理时开销。主要超参为 k-近邻的 k 值和距离权重指数 \(\alpha\)。

实验关键数据¶

主实验¶

LLaVA-NeXT (8B) 50% 稀疏率：

方法	MME-cognition	MMMU	MathVista	MMBench	相对得分
Full Model	376.8	40.1	36.2	72.2	100%
TAMP	341.0	35.7	31.9	66.3	90.9%
Ours	353.1	38.2	34.6	69.8	91.6%

VideoLLaMA2 (7B) 60% 稀疏率：

方法	Clotho-AQA	MuchoMusic	VideoMME	NextQA-MC	相对得分
Full Model	85.6	58.9	48.7	73.3	100%
TAMP	84.2	55.9	42.5	70.9	95.0%
Ours	84.9	58.1	48.0	72.5	96.7%

消融实验¶

配置	说明	相对得分变化
去除 zigzag（仅用标准PH）	无法处理非单调演化	-2.1%
去除 EPI（用原始PD）	层级分析不稳定	-1.5%
k=5 vs k=15 vs k=25	k=15 最优，过小/过大均退化	k=15 最佳
α=0.5 vs α=1.0 vs α=2.0	α=1.0 最优	α=1.0 最佳

关键发现¶

浅层拓扑活动度高（形成低级多模态结构），中深层拓扑一致性高（结构冗余），与直觉一致
在高稀疏率（>60%）下优势更明显，说明拓扑感知剪枝能更准确识别真正重要的层
搜索阶段仅需 5.7 分钟（单次校准），远快于需要多次前向传播的 SparseGPT/Wanda
50% 稀疏率下 VRAM 降低 43%，推理延迟从 105.4ms 降至 60.3ms（1.75x 加速）

亮点与洞察¶

TDA → 模型压缩的创新连接非常优雅——将持久同调从纯数学工具转化为实用的剪枝准则，为理解深度网络的表征结构提供了新视角
"过渡关键层"概念有启发性——局部看冗余但全局看不可缺少的层，传统方法难以识别，拓扑分析天然适合这类全局结构推理
方法的通用性值得注意——不依赖特定模型架构，在图像和视频 LVLM 上均有效，可直接迁移到纯 LLM 或其他模态

局限与展望¶

仅考虑 0 维和 1 维持久同调，更高维可能包含有价值的结构信息但计算开销更大
校准数据的选择可能影响拓扑分析结果，对分布外数据的鲁棒性有待验证
目前是一次性剪枝，未探索渐进式剪枝或微调后恢复的可能性
zigzag 过滤的计算复杂度虽然线性于层数，但实际实现的效率仍受点云规模影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 zigzag 持久同调应用于 LVLM 层剪枝，理论新颖且实用
实验充分度: ⭐⭐⭐⭐ 覆盖两种架构和多种基准，但仅在两个模型上验证，更大规模模型缺失
写作质量: ⭐⭐⭐⭐ 数学形式化清晰，但对非 TDA 背景读者门槛较高
价值: ⭐⭐⭐⭐ 为模型压缩提供了新的理论工具，但实际部署中需要 TDA 专业知识