Learned Image Compression via Sparse Attention and Adaptive Frequency¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/（论文称已开源 "SAAF"，具体地址 ⚠️ 以原文为准）
领域: 图像恢复 / 学习式图像压缩
关键词: 学习式图像压缩、稀疏注意力、自适应频率变换、去噪正则、率失真

一句话总结¶

SAAF 用一条"空间-频率双路"变换网络做学习式图像压缩：空间路用稀疏窗口注意力（CSWA）以极少全局 token 高效建模长程依赖，频率路用内容自适应的频率重加权（AFB）替代固定小波变换，再加一个只在训练期生效的去噪正则（DaR）让潜空间更平滑，最终在 Kodak/CLIC/Tecnick 上同时拿到最优 BD-rate 和最低延迟（67 ms）。

研究背景与动机¶

领域现状：学习式图像压缩（LIC）已经在率失真（RD）上超过 JPEG、VVC 等传统编解码器。主流框架沿用 Ballé 的自编码器 + 超先验：一个变换网络 \(g_a/g_s\) 把图像压成紧凑潜变量 \(y\)，一个熵模型估计量化后 \(\hat{y}\) 的分布来控制码率，二者按率失真目标 \(L_{RD}=E[R+\lambda D(x,\hat{x})]\) 端到端联合优化。近年的改进集中在变换网络（引入 CNN-Transformer、状态空间模型）和熵模型（超先验、通道自回归、高斯混合）两条线上。

现有痛点：作者指出两个具体短板。其一，空间建模的注意力陷在"效果与效率"的两难里——标准窗口多头自注意力（WMSA）感受野局限于窗口内，而 Swin 的移位窗口虽能跨窗传信，却要堆多层才能传到远处，复杂度反而更高。其二，自然图像有多尺度频率结构，但多数 LIC 直接忽略频率；少数引入频率变换的工作（如固定小波基）又和传统算法一样依赖人工设计的固定参数，无法随图像内容自适应。

核心矛盾：RD 性能和推理速度之间的 trade-off——想要更强的长程/频率建模往往要付出更高的延迟和算力，而工程落地又对延迟敏感。固定频率变换则在"是否随内容变化"这一维度上根本没有自由度。

本文目标：① 在不增加复杂度的前提下让空间注意力兼顾局部和全局；② 把频率分解从固定变换升级成内容自适应；③ 在不增加任何推理开销的情况下进一步提升重建质量。

切入角度：长程依赖未必需要稠密注意力——少量"窗口条件化"的可学习全局 token 就能充当跨窗信息的中转站；频率响应也不必硬解码到固定频带，可以让网络按内容动态生成频带权重。

核心 idea：用"稀疏全局 token 的局部-全局注意力 + 内容自适应频率重加权 + 训练期去噪正则"三件套，同时把 RD 和延迟往更优的方向推。

方法详解¶

整体框架¶

SAAF 整体仍是"变换网络 + 超先验/自回归熵模型"的标准 LIC 骨架，但把变换网络做成空间-频率双路：编码器把图像 \(x\) 逐级下采样成潜变量 \(y\)，每一级里既有处理空间长程关系的 Sparse Attention Block（含 CSWA），又有做频率重加权的 Adaptive Frequency Block（AFB）；\(y\) 量化为 \(\hat{y}\) 后由超先验 \(\Phi=(\mu,\sigma)\) 加通道自回归上下文做高斯熵编码，解码器用对称的 SAB + 逆频率块 IAFB 把 \(\hat{y}\) 重建成 \(\hat{x}\)。额外挂一个只在训练期工作的 Denoising-as-Regularizer（DaR），给潜空间施加结构化约束。三个模块按下图顺序串起来：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x"] --> B["Cross-Sparse Window Attention<br/>稀疏全局 token 建模空间长程依赖"]
    B --> C["Adaptive Frequency Block<br/>内容自适应频率重加权"]
    C --> D["量化 ŷ + 熵模型<br/>超先验 + 通道自回归"]
    D --> E["Denoising-as-Regularizer<br/>训练期单步去噪正则潜空间"]
    E -->|仅训练期，推理零开销| F["解码器 SAB+IAFB<br/>重建 x̂"]

关键设计¶

1. Cross-Sparse Window Attention（CSWA）：用稀疏全局 token 替掉昂贵的跨窗注意力

CSWA 针对的是 WMSA 感受野受限、移位窗口又太贵的问题，把单个窗口的注意力拆成三部分：局部窗口注意力（LWA）、全局稀疏注意力（GSA）、局部-全局混合（LGM）。LWA 就是标准窗口内自注意力 \(\text{Softmax}(Q_i K_i^\top/\sqrt{d_h}+B)V_i\)，但有个关键工程优化——把相对位置偏置 \(B\) 从 Swin 里"用 MLP 动态生成"改成预计算并缓存成静态查找表，推理时直接查表，省掉这部分算力（Tab. 3 验证）。GSA 是核心：引入 \(N_g\) 个可学习全局 token \(G_i=G_{learn}+\bar{X}_i\)，其中 \(G_{learn}\) 是所有窗口共享的参数，\(\bar{X}_i\) 是该窗口的均值特征——这样每个窗口都有"窗口条件化"的全局表示。局部 query 只对这 \(N_g\) 个全局 token 做交叉注意力，注意力矩阵从 \(M^2\times M^2\) 缩到 \(M^2\times N_g\)，复杂度大降。最后 LGM 用固定权重 \(\alpha=0.25\) 融合：\(H_i=(1-\alpha)H_{local,i}+\alpha H_{global,i}\)。消融显示 \(N_g=2\) 就够（再多反而不划算），说明极稀疏的全局 token 就能撑起长程建模，这正是它比 WMSA 又快又好的原因。

2. Adaptive Frequency Block（AFB）：让频率分解随图像内容动态变化

固定小波这类频率变换的毛病是参数人工写死、不看内容。AFB 用一个轻量卷积网络——分解权重生成器（DWG）——根据输入内容动态生成 4 张权重图 \(A_{freq}\in\mathbb{R}^{H\times W\times 4}\)，模拟对 LL/LH/HL/HH 四个频带的响应。它不做硬分解，而是做"内容自适应重加权"：再引入一组可学习全局权重 \(w_{freq}\in\mathbb{R}^4\) 提供全局频率偏好，重加权特征为

\[X_{freq}=X\odot\Big(\sum_{i=1}^{4}A_{freq,i}\cdot\exp(w_{freq,i})\Big)\]

其中 \(\exp(\cdot)\) 保证权重为正。这样局部（\(A_{freq}\)）和全局（\(w_{freq}\)）两个尺度共同调制频率响应。重加权后的特征再过一个带正交约束的正交线性投影（OLP）做通道变换，保证训练稳定和信息保持。解码端的 IAFB 用对称结构：先用 OLP 还原维度，再用类似的频率注意力做残差增强，选择性恢复细节。

3. Denoising-as-Regularizer（DaR）：借扩散思想正则潜空间，推理零开销

传统 RD 目标只管码率和失真，对潜变量本身没有约束，容易在低码率下出伪影。DaR 是一个只在训练期用的正则器：给潜变量 \(y\) 加上按时间步缩放的高斯噪声得到 \(y_{noise}=y+t\cdot\epsilon\)，用一个轻量噪声预测器 \(f_{denoise}\) 预测注入的噪声 \(\epsilon\)，并以时间步 \(t\) 和超潜变量 \(\hat{z}\) 为条件：

\[L_{DaR}=E\big[\|f_{denoise}(y_{noise},t_{emb},\hat{z}_{cond})-\epsilon\|_2^2\big]\]

基于去噪分数匹配，最小化 \(L_{DaR}\) 等价于最大化条件对数似然 \(\log p(y|c)\)，相当于给潜空间装了一个可学习先验。\(\hat{z}\) 条件带来空间自适应性：平滑区域被强正则、纹理区域被保留，实现隐式的频率自适应正则。关键是 DaR 推理时整个关掉——它只通过训练梯度把编码器"推"向更平滑的潜变量，从而在不动码率、不加任何推理开销的前提下提升视觉质量。

损失函数 / 训练策略¶

总训练目标把 RD 损失、OLP 的正交损失、DaR 损失三项加权相加：

\[L=E\big[L_{RD}+\lambda_{OLP}L_{OLP}+\lambda_{DaR}L_{DaR}\big]\]

其中 \(\lambda_{OLP}=0.1\)、\(\lambda_{DaR}=0.01\)。训练数据取 OpenImages 前 30 万张（短边 ≥256），随机裁 \(256\times256\)、batch 16、100 epoch，初始学习率 \(10^{-4}\)、第 80 epoch 衰减到 \(10^{-5}\)，用 MSE 做失真项，通过 6 个不同的 \(\lambda\)（0.05~0.0018）训出覆盖不同码率的 6 个模型。

实验关键数据¶

主实验¶

在 Kodak、CLIC、Tecnick 三个标准数据集上以 VTM-9.1 为锚点比 BD-rate（越负越好），并测延迟/FLOPs/参数量（在 Kodak 上）。

方法	会议	BD-rate Kodak↓	BD-rate CLIC↓	BD-rate Tecnick↓	延迟(ms)↓	参数(M)
MLIC++	ICML'23 NCW	-15.07	-14.46	-17.19	211	116
AuxT	ICLR'25	-10.17	-9.38	-9.98	82	46
DCAE	CVPR'25	-17.00	-16.98	-20.11	74	119
LALIC	CVPR'25	-15.30	-15.42	-17.61	-	-
SAAF（本文）	-	-17.40	-17.35	-20.57	67	123

SAAF 三个数据集上 BD-rate 全部最优，同时延迟最低（67 ms，对比 MLIC++ 的 211 ms），且 FLOPs/参数量与最强基线 DCAE 相当——说明它的优势不是靠堆算力换来的。

消融实验¶

以 BASE（用 WMSA、无附加模块）为基准，逐个加模块看 Kodak/CLIC/Tecnick 的 BD-rate（相对 VTM-9.1）和 Kodak 延迟。

配置	BD-rate Kodak↓	BD-rate CLIC↓	BD-rate Tecnick↓	延迟(ms)↓
BASE	-0.64	-1.86	-3.52	61
BASE + SAB (\(N_g{=}2\))	-1.86	-2.53	-4.16	52
BASE + AFB	-3.42	-4.35	-5.81	65
BASE + DaR	-1.56	-2.63	-4.29	61
BASE + ALL（SAAF）	-3.99	-4.59	-6.04	56

模块级效率对比（Tab. 3）显示，CSWA 相比 WMSA 在同一特征图上延迟 0.33 ms（WMSA 0.44）、FLOPs 231M（WMSA 264M）、显存 21.82MB（WMSA 22.70），只是参数略增（0.22M vs 0.15M）。

关键发现¶

AFB 单模块贡献 RD 最大（Kodak 从 -0.64 提到 -3.42），但带来轻微延迟上升；SAB 则同时改善 RD 又把延迟从 61ms 降到 52ms——一个主攻效果、一个主攻效率，互补。
DaR 真正零延迟：单加它延迟仍是 61ms，BD-rate 却从 -0.64 提到 -1.56，验证"训练期正则、推理期关掉"的设计成立。
全局 token 极稀疏即可：\(N_g\) 从 1→2→3 中 \(N_g=2\) 最优（Kodak -1.86 vs -1.32/-1.64），说明长程建模不需要稠密注意力。
CSWA 在潜变量可视化里能把能量集中到更少的通道、更清晰地保留图像轮廓，从而对后续熵模型更友好。

亮点与洞察¶

"稀疏全局 token"是个可复用的注意力提速思路：用极少量（2 个）窗口条件化的可学习 token 当跨窗中转站，把 \(M^2\times M^2\) 的注意力压到 \(M^2\times N_g\)，又快又不丢长程信息——可迁移到任何窗口注意力受效率困扰的稠密预测任务。
把扩散去噪当"正则器"而非"生成器"：DaR 只借去噪分数匹配的目标去结构化潜空间，推理时整个丢掉，等于"白嫖"了扩散先验却不付推理代价，这个"训练期模块"范式很巧。
相对位置偏置查表化：把 Swin 里动态 MLP 生成的 \(B\) 预计算成静态查找表，是个小而实在的工程提速点。
内容自适应频率重加权取代固定小波，提示频率域方法的下一步是"让网络自己决定频带响应"。

局限与展望¶

DaR 的去噪只是单步、且依赖超潜变量 \(\hat{z}\) 做条件，论文未充分探讨多步去噪或更强条件是否能进一步提升，正则强度 \(\lambda_{DaR}=0.01\) 也较保守。
评测都在 MSE 优化下做 PSNR/BD-rate，没有报告感知质量指标（如 LPIPS/MS-SSIM）下的表现，"视觉质量提升"主要靠定性图说明。
CSWA 的融合权重 \(\alpha=0.25\) 和全局 token 数 \(N_g=2\) 是固定/经验选的，是否需要随分辨率或码率自适应未讨论。
频带数固定为 4（模拟 LL/LH/HL/HH），是否对所有内容都最优、能否动态选频带数留待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 稀疏全局 token + 训练期去噪正则两个点都有想法，但都建立在成熟 LIC 骨架上。
实验充分度: ⭐⭐⭐⭐ 三数据集 + 完整模块/全局 token 消融 + 效率分析扎实，缺感知指标。
写作质量: ⭐⭐⭐⭐ 结构清晰、公式完整，部分模块（DaR 条件化）细节略简。
价值: ⭐⭐⭐⭐ 同时拿下最优 RD 和最低延迟，对工程落地的 LIC 有直接参考价值。