FASA: Frequency-Aware Sparse Attention¶

会议: ICLR 2026
arXiv: 2602.03152
代码: GitHub
领域: 信号通信
关键词: KV缓存压缩, 稀疏注意力, RoPE频率分析, token剪枝, 长上下文推理

一句话总结¶

本文发现RoPE中频率块（FC）级别的功能稀疏性——少数"主导FC"可有效预测token重要性，据此提出FASA框架，通过主导FC预估token重要性+聚焦注意力计算两阶段实现无训练的KV缓存压缩，在LongBench上仅保留256个token接近100%全KV性能，AIME24上用18.9%缓存实现2.56×加速。

研究背景与动机¶

领域现状: LLM长上下文处理面临KV缓存线性增长的内存瓶颈。主流压缩方向包括token剪枝（StreamingLLM, SnapKV）、低秩压缩、量化、KV合并和预算分配。
现有痛点: (1)静态策略（StreamingLLM）固定保留首尾token，不可逆信息丢失；(2)自适应策略（SnapKV, H2O）启发式排名不能充分捕获token重要性的查询依赖性；(3)学习策略需要训练token预测器，在不同数据集上泛化性差。
核心矛盾: token重要性本质上是查询依赖的，但现有方法要么用与查询无关的静态规则，要么用计算全注意力一样昂贵的方式评估重要性。能否用更廉价的方式实现查询感知的重要性预测？
本文目标: 如何在不训练的前提下，以极低计算代价实现查询感知的token重要性预测？
切入角度: RoPE将注意力计算分解为\(d/2\)个2D频率块（FC）的独立贡献。不同FC因旋转频率不同而具有不同功能：高频FC负责位置模式，低频FC负责语义信息。只需少数"主导FC"即可近似重建全头的注意力模式。
核心 idea: 利用RoPE内在的FC级功能稀疏性，用少量主导FC的低开销计算代替全维度注意力来预测token重要性。

方法详解¶

整体框架¶

FASA分两阶段：(1) Token重要性预测（TIP）——使用预校准的主导FC集合\(\mathcal{I}_{dom}\)快速估计每个token的重要性分数；(2) 聚焦注意力计算（FAC）——仅在筛选出的关键token子集上执行全维度注意力。主导FC的识别是一次性离线校准过程。

关键设计¶

RoPE频率块的功能稀疏性发现:
- 功能: 提供token重要性预测的理论和实证基础
- 核心思路: 在RoPE中，\(d\)维向量被分为\(d/2\)个2D频率块，第\(i\)个FC的旋转频率为\(\theta_i = B^{-2(i-1)/d}\)。提出上下文一致性（CA）度量: \(\text{CA}_\mathcal{K}^{l,h,i} = |\text{TopK-I}(\alpha_{l,h}, \mathcal{K}) \cap \text{TopK-I}(\alpha_{l,h}^{(i)}, \mathcal{K})| / \mathcal{K}\)，衡量单FC注意力模式与全头注意力的top-K token集合重合度。实证发现：主导FC稀疏（不到1%的FC贡与>90%的上下文协议性）、跨任务普适（不同校准数据集的主导FC重合度>70%）、跨模型一致。
- 设计动机: FC级稀疏性是RoPE结构的固有属性而非任务特定的。高频FC主要编码位置模式（近因偏差）而非语义信息，因此可安全忽略。
TIP: Token重要性预测器:
- 功能: 以极低计算代价预测所有token的重要性排序
- 核心思路: 离线校准：选择最大化期望CA分数之和的\(N_{tip}\)个FC: \(\mathcal{I}_{dom}^{l,h} = \text{TopK-I}(\{\overline{\text{CA}}_\mathcal{K}^{l,h,i}\}, N_{tip})\)。在线预测：仅聚合主导FC的分数\(S_t^{l,h} = \sum_{i \in \mathcal{I}_{dom}} \alpha^{l,h,i}(q_t, K_{1:t})\)，然后选top-\(N_{fac}\) token: \(\mathcal{T}_t = \text{TopK-I}(S_t^{l,h}, N_{fac})\)。TIP复杂度为\(O(2tN_{tip})\)，远小于全注意力\(O(td)\)。
- 设计动机: 主导FC占全维度的1/4到1/8，但能精确重建上下文选择行为。校准一次即可跨任务使用。
FAC: 聚焦注意力计算:
- 功能: 在筛选后的关键token上执行全精度注意力
- 核心思路: 通过Gather操作从完整KV缓存中选取\(\mathcal{T}_t\)对应的Key和Value: \(K_{\mathcal{T}_t} = \text{Gather}(K_{1:t}, \mathcal{T}_t)\), \(V_{\mathcal{T}_t} = \text{Gather}(V_{1:t}, \mathcal{T}_t)\)。保留token的原始绝对位置，维护RoPE位置编码完整性。复杂度\(O(N_{fac}d)\)。两个变体: FASA-M（内存优化，离线KV缓存到CPU）和FASA-C（计算优化，全缓存保留GPU但仅访问稀疏Key）。
- 设计动机: TIP阶段已筛选出关键token，FAC阶段在缩减集上执行全保真注意力确保生成质量。位置保留避免了位置编码失真导致的性能退化。

损失函数 / 训练策略¶

FASA是完全无训练框架。主导FC识别仅需少量校准样本（一次性离线过程）。与层级预算分配（如PyramidKV）正交可组合。理论加速: \(\text{Speedup} = d / N_{tip}\)（当\(N_{fac} \ll t\)时）。

实验关键数据¶

主实验¶

任务/方法	Stream	SnapKV	Quest	FASA	Full KV	Oracle
LongBench (K=256)	~80%	~92%	~90%	~99%	100%	100%
AIME24 加速	—	—	—	2.56×	1×	—
KV缓存用量	—	—	—	18.9%	100%	—

跨模型验证: Llama-3.1-8B, Mistral-7B, Qwen2-7B等均一致有效。

消融实验¶

FC数量(F) / KV预算(K)	K=64	K=256	K=512	K=1024
Random FC	2.0	3.6	6.4	25.5
Stream	34.4	26.8	24.4	30.7
SnapKV	37.9	40.9	41.9	49.5
F=8 (1/8)	43.0	49.4	54.3	62.6
F=16 (1/4)	55.3	59.7	62.8	70.1

关键发现¶

仅1/8的FC即可在所有预算水平上超越SnapKV 10.3%的复合CA分数
FC的功能稀疏性是模型固有属性：跨架构/规模/任务高度一致
FASA-C在AIME24长CoT推理任务上实现2.56×加速且性能损失<0.7%
主导FC不到全部FC的1%但贡献绝大多数上下文信息
LongBench上仅保留256个token即达到接近100%的全KV性能

亮点与洞察¶

对RoPE的全新理论视角：频率块级功能稀疏性——高频FC位置编码 vs 低频FC语义承载的优雅分工
完全无训练、一次校准终身使用：主导FC的任务无关性使得校准极其高效
与现有方法正交：可与量化、层级预算分配等技术无缝组合
从token级到频率块级的粒度创新：相比页级（Quest）或token级（SnapKV）更精细

局限与展望¶

主导FC的1/4选取比例在极长上下文（100K+）下是否仍最优有待验证
当前实现聚焦于decoder-only架构，encoder-decoder和非RoPE模型需适配
FASA-M的CPU-GPU数据传输延迟在高吞吐场景中可能成为瓶颈
未探索与投机采样（speculative decoding）的结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ FC级功能稀疏性是RoPE的全新理论发现，具有普遍意义
实验充分度: ⭐⭐⭐⭐⭐ 长上下文基准+序列建模+长CoT推理三大范式全覆盖
写作质量: ⭐⭐⭐⭐ 从观察到假设到验证到方法的逻辑链完整
价值: ⭐⭐⭐⭐⭐ 无训练、高效、通用的KV缓存压缩方案，极具实用价值