SAT: Selective Aggregation Transformer for Image Super-Resolution¶

会议: CVPR 2026
arXiv: 2604.07994
代码: https://github.com/PhuTran1005/SAT
领域: 图像超分辨率
关键词: super-resolution, transformer, token aggregation, efficient attention, global modeling

一句话总结¶

提出选择性聚合 Transformer (SAT)，通过密度驱动 token 聚合将 Key-Value 矩阵 token 数减少 97%、保持 Query 全分辨率，实现高效全局注意力建模，超越 SOTA PFT 达 0.22dB 且 FLOPs 降低 27%。

研究背景与动机¶

基于 Transformer 的超分方法能捕获长距离依赖但面临二次计算复杂度。窗口注意力方法限制感受野，而近期方法各有不足：IPG 的图操作对硬件不友好、ATD 的外部字典引入有限额外信息、PFT 的跨层注意力链接可能传播早期层错误。

核心观察：SR 中高频区域（边缘、纹理）需要更多计算，低频区域（平滑区域）可安全聚合。现有方法对全图均匀处理导致计算分配低效。

方法详解¶

整体框架¶

SAT 采用残差组结构，交替使用局部 Transformer 块（LTB, 窗口注意力）和选择性聚合 Transformer 块（SATB, 全局注意力），形成全局-局部互补结构。

关键设计¶

选择性聚合注意力 (SAA)：非对称压缩——保持 Query 全分辨率（逐像素重建所需），仅压缩 Key-Value 矩阵。N 个 token 聚合为 K 个代表性 token（K ≈ 3% × N），将复杂度从 O(N²d) 降为 O(NKd)。
密度驱动 Token 聚合 (DTA)：基于密度峰值聚类原则选择聚合中心。计算每个 token 的局部密度（k-近邻余弦相似度）和到更高密度点的最小距离，乘积高者为聚合中心。使用分层子采样将中心选择复杂度从 O(N²) 降至 O(K²)。相似度加权聚合 + 特征范数恢复（FNR）保持特征分布一致性。
全局-局部交替结构：SAA 专注全局建模（捕获长距离依赖），与 Rwin-SA 局部注意力交替排列，互补提取深层特征。

损失函数 / 训练策略¶

标准 L1 像素损失训练。提供了严格的复杂度保证（定理 3.1）和近似界分析（定理 3.2），证明方法在质量退化可控的前提下实现大幅加速。

实验关键数据¶

主实验¶

数据集	指标	SAT	PFT (之前SOTA)	提升
Urban100 ×4	PSNR	+0.22dB	baseline	显著
多数据集	FLOPs	-27%	baseline	效率大幅提升

消融实验¶

配置	PSNR	说明
无 FNR (特征范数恢复)	下降	FNR 对稳定训练至关重要
均匀聚合 vs 密度驱动	下降	密度感知选择中心更优
仅局部注意力	下降	全局建模不可或缺

关键发现¶

Token 数量减少 97% 的情况下仍能保持甚至提升重建质量
密度驱动选择自然保留高频区域的细粒度 token 而合并低频区域
FNR 对维持加权平均后的特征范数分布至关重要

亮点与洞察¶

非对称 Query-KV 压缩完美匹配 SR 任务需求（Query 保持逐像素，KV 可聚合）
密度驱动选择自适应于图像内容，高频保留、低频聚合
有完整的理论分析（复杂度界和近似界），增强了方法可信度
全局-局部交替是经过充分消融验证的最优选择

局限与展望¶

聚合比例（k=3%）和子采样因子 β 需要调优
DTA 中的 k-近邻搜索仍有一定计算开销
对极度不规则纹理的处理效果有待验证

评分¶

新颖性：⭐⭐⭐⭐ — 非对称KV压缩+密度驱动聚合组合新颖
技术深度：⭐⭐⭐⭐⭐ — 理论分析严格
实验充分度：⭐⭐⭐⭐⭐ — 全面对比+充分消融
实用价值：⭐⭐⭐⭐ — 显著降低FLOPs同时提升性能