Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling¶
会议: ACL2026 arXiv: 2604.18103 代码: GitHub 领域: multimodal_vlm 关键词: 长上下文推理, Prefill加速, Token剪枝, 注意力冗余, 视觉语言模型
一句话总结¶
提出 DASH(Delta Attention Selective Halting),一种无需训练的推理加速方法,通过监测自注意力层的逐层更新幅度 Δ_attn 来识别已"语义固化"的 token 并停止其后续计算,在长上下文文本和视觉-语言基准上实现显著的 prefill 加速且几乎不损失精度。
研究背景与动机¶
长上下文推理是 LLM 和 LMM 的核心能力,但 prefill 阶段的计算成本随序列长度二次增长,成为主要延迟瓶颈。现有 token 剪枝方法大多依赖启发式重要性分数(如累积注意力权重),需要访问完整注意力矩阵,与 FlashAttention 等高效核心不兼容。作者提出一个全新视角:与其问"哪些 token 重要",不如问"哪些 token 已经完成了它们的工作"。通过三个关键观察支撑这一假设:(1) token 表示向"语义固定点"收敛,Δ_attn 高度偏斜,绝大多数 token 在中间层即趋近零;(2) 低 Δ_attn 的 token 很少被后续层关注,验证了稳定即冗余的假设;(3) 视觉 token 比文本 token 更早饱和,解释了为什么视觉模型的剪枝方法直接移植到文本模型时常失败。
方法详解¶
整体框架¶
DASH 在 prefill 阶段的激活层 l_s 处一次性决定 token 的活跃集合。对于 l < l_s 的层,所有 T 个 token 正常处理;在 l_s 层,计算每个 token 的 Δ_attn 分数,保留 top-(1-ρ)T 个 token 作为活跃集,其余 token 被"停止"。被停止的 token 在所有后续层中跳过自注意力和 FFN 计算,其隐状态冻结在最后更新值。
关键设计¶
- Δ_attn 信号:定义为自注意力子层输出(残差连接前)的 L2 范数:Δ_t^(l) = ‖U_t^(l)‖_2,其中 U^(l) = Attn(LN(H^(l)))。这个信号直接捕捉 token 是否仍在参与全局信息聚合,比使用整个 Transformer block 的 Δ_block 更有效(消融实验证实)。关键优势:无需展开完整注意力矩阵,与 FlashAttention 完全兼容。
- 单次选择调度:在激活层 l_s 处一次性选择活跃集 S* = TopK(S, K, Δ^(l_s)),K = ⌊(1-ρ)T⌋,后续所有层复用同一活跃集。相比多次选择调度,单次选择更简洁且实验效果可比。
- 模态统一处理:DASH 不做模态特定假设,对文本 token 和视觉 token 统一施加 Δ_attn 准则。由于视觉 token 天然更早饱和,激进压缩比下 DASH 的优势更加显著。
损失函数/训练策略¶
DASH 完全无需训练,是纯推理时策略。理论 FLOPs 加速比为 C_full / C_ours = L·A(T) / [l_s·A(T) + (L-l_s)·A(T̂)]。在典型设置(l_s=0.4L, ρ=0.667)下,T=16384 时理论加速 1.83×。
实验关键数据¶
主实验¶
LongBench-E (Qwen2.5-7B-Instruct-1M):
| 方法 | 平均分(%) | Qasper | HotpotQA | 2WikiQA | GovRep | LCC | Rep-P |
|---|---|---|---|---|---|---|---|
| 原始模型 | 48.87 | 44.19 | 51.13 | 62.97 | 6.97 | 65.00 | 99.33 |
| FastV | 43.99 | 40.44 | 42.63 | 57.67 | 6.96 | 59.33 | 83.67 |
| D3 | 45.00 | 40.18 | 44.49 | 60.95 | 6.19 | 64.67 | 99.33 |
| SnapKV (pr.) | 46.15 | 38.14 | 42.98 | 61.54 | 7.00 | 63.67 | 97.67 |
| DASH | 46.76 | 40.58 | 49.38 | 61.00 | 7.01 | 59.00 | 98.00 |
内核兼容性验证(剪枝率 40%):
| 设置 | LongBench-E (Avg) | LooGLE (Avg) |
|---|---|---|
| Vanilla | 48.87 | 22.69 |
| Eager | 46.78 (1.52×) | 19.90 (1.34×) |
| FlashAttn | 46.76 (1.74×) | 19.94 (1.71×) |
消融实验¶
| 实验内容 | 关键发现 |
|---|---|
| Δ_attn vs Δ_block | Δ_attn 在文本和 VL 基准上一致优于 Δ_block |
| 低 Δ_attn vs 高 Δ_attn vs 随机 | 低 Δ_attn (停止) 大幅优于高 Δ_attn 和随机选择,验证"稳定即冗余"假说 |
| 方向性消融 | 高 Δ_attn 停止: LongBench-E 33.65 vs DASH 46.76,差距 13+ 分 |
| VL 压缩比 | 在 96%-99% 极端压缩下 DASH 退化显著慢于 FastV/VisionZip/DART |
关键发现¶
- DASH 在 LongBench-E 上所有压缩方法中取得最优平均分(46.76 vs 原始 48.87),同时实现 1.74× 加速
- 在相同精度下比 FastV 快 1.74×,在相同时间下比 FastV 高 8.5% 精度
- 视觉-语言任务中,极端压缩(96-99%)下 DASH 优势更加明显,得益于视觉 token 的早期饱和特性
亮点与洞察¶
- 范式转换:从"哪些 token 重要"到"哪些 token 已完成工作",是 token 剪枝思路的根本性转变
- 三个关键观察的层层递进:语义固定点存在 → 固定点 token 确实冗余 → 视觉 token 更早饱和,形成完整的理论支撑
- FlashAttention 兼容:不需要展开注意力矩阵,是少数能与高效注意力核心完美配合的剪枝方法
- 统一跨模态:同一个 Δ_attn 准则自然适配文本和视觉-语言场景,无需模态特定设计
局限与展望¶
- 激活层 l_s 和剪枝比 ρ 需要根据模型和任务调整(虽然论文提供了基于困惑度代理的轻量筛选方法)
- 单次选择调度虽然简洁,但无法处理层间 token 重要性动态变化的情况
- 仅在 7-8B 模型上验证,更大规模模型(70B+)的效果待检验
- 当前仅加速 prefill,不改变解码阶段的效率
相关工作与启发¶
- SnapKV (Li et al., 2024b):基于累积注意力的 KV cache 压缩,DASH 将其适配为 token 剪枝变体进行对比
- FastV (Chen et al., 2024):视觉 token 剪枝方法,直接移植到长上下文文本时效果不佳
- D3 (Fan et al., 2025):动态 token 剪枝,但依赖注意力矩阵访问
- Layer-wise redundancy (He et al., 2024; Brinkmann et al., 2024):深层 Transformer 的表示冗余分析,DASH 将其从观察转化为可行的加速策略
- 启发:关注信号变化率而非信号本身的方法论,可能推广到其他序列模型的高效推理
评分¶
| 维度 | 分值 (1-10) |
|---|---|
| 创新性 | 8 |
| 实验充分度 | 9 |
| 表达清晰度 | 9 |
| 实用价值 | 8 |
| 总分 | 8.5 |
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评