CVPR 2025 模型压缩 learned image compression state space model Mamba entropy model context modeling 注意力机制

MambaIC: State Space Models for High-Performance Learned Image Compression¶

会议: CVPR 2025
arXiv: 2503.12461
代码: GitHub
领域: 模型压缩
关键词: learned image compression, state space model, Mamba, entropy model, context modeling, window-based local attention

一句话总结¶

首次将 SSM 同时整合到学习型图像压缩的非线性变换和上下文模型中，通过 VSS block 增强通道-空间上下文建模 + 窗口局部注意力消除空间冗余，在 Kodak 上比 VVC 节省 12.52% BD-rate，且高分辨率图像压缩优势更加显著。

研究背景与动机¶

领域现状: 学习型图像压缩（LIC）发展迅速，CNN 和 Transformer 方法已超越传统编码标准（BPG/VVC），但高分辨率场景下效率问题突出。

现有痛点: 1. Transformer 方法（如 Contextformer）性能优于 CNN 但计算复杂度随像素数二次增长，高分辨率延迟大 2. CNN 方法（如 ELIC）效率较高但全局建模能力不足 3. 现有 SSM 尝试（MambaVC）仅简单替换基础 block，未针对压缩特性做适配，性能不佳 4. 上下文模型是压缩性能的关键，但现有方法的上下文建模效率和效果仍有提升空间

核心矛盾: 如何在保持全局感受野的同时实现线性复杂度？如何让 SSM 的优势在图像压缩中充分发挥？

本文切入角度: 为 SSM 量身设计上下文建模机制 + 局部注意力补充，实现效率-性能双赢。

方法详解¶

整体框架¶

标准 LIC 框架：编码器 \(g_a\) 将图像压缩为潜在表示 \(\mathbf{y}\)，超先验编/解码器 \(h_a/h_s\) 学习分布参数，算术编/解码器（AE/AD）完成实际编解码。核心组件为基于 VSS block 的非线性变换、上下文熵模型和窗口局部注意力。

关键设计¶

1. SSM 上下文熵模型 - 功能: 在通道-空间上下文建模中嵌入 VSS (Visual State Space) block，增强侧信息表达 - 核心思路: - 通道上下文 \(\Psi_k\)：用 VSS block + Conv 从已编码通道 \(\hat{\mathbf{y}}^{<k}\) 提取通道特征 \(\mathcal{F}_c\) - 空间上下文 \(\Phi\)：用 VSS block + Conv 从已编码空间邻域 \(\hat{\mathbf{y}}^k_{<i}\) 提取空间特征 \(\mathcal{F}_s\) - VSS block 内部：2D Selective Scan（SS2D）沿 4 个遍历路径扫描 → 分别过 SSM → 合并回 2D，有效构建全局感受野 - 采用 checkerboard mask 并行空间建模（anchor/non-anchor 分组） - 设计动机: SSM 在上下文模型中比 CNN/Transformer 更好地平衡效率和全局信息捕获（消融表明 SSM 比 CNN 提升 8.71% BD-rate，比 Transformer 提升 5.33% BD-rate）

2. 窗口局部注意力（Window-based Local Attention, WLA） - 功能: 在参数聚合之后添加窗口内局部注意力，补充 SSM 的全局建模 - 核心思路: 将 patch 划分为 \(w \times w\) 小窗口 → 窗口内计算注意力 → 恢复原始排列 - 最优窗口大小: \(8 \times 8\)（实验对比 \(6 \times 6\), \(8 \times 8\), \(10 \times 10\)） - 设计动机: SSM 擅长全局感受野，但局部空间冗余需要局部注意力来消除；两者互补使得 bitstream 更紧凑

3. SSM 非线性变换 - 功能: 用 VSS block 替换编解码器中的基础 block（含残差瓶颈结构） - 核心思路: VSS block = LayerNorm + Linear + DW Conv + SiLU + SS2D，通过 cross-scan 和 merge 集成 2D 空间信息 - 设计动机: 在编解码阶段就建立全局依赖，提升潜在表示质量

损失函数 / 训练策略¶

Rate-distortion 优化：\(\mathcal{L} = \lambda \mathcal{D}(\mathbf{x}, \hat{\mathbf{x}}) + \mathcal{R}(\hat{\mathbf{y}}) + \mathcal{R}(\hat{\mathbf{z}})\)
失真度量：MSE
\(\lambda \in \{0.0035, 0.0067, 0.013, 0.025, 0.05\}\) 控制不同码率
训练 250 epochs，Flickr30k 数据集（31783 张图）
通道数 \(N=128\)（\(\mathbf{z}\)）和 \(M=320\)（\(\mathbf{y}\)），通道分块 \(K=5\)

实验关键数据¶

主实验 — BD-Rate（对标 VVC，越低越好）¶

方法	BD-Rate	编码延迟(ms)	解码延迟(ms)
ELIC (CNN)	-3.95%	40.76	45.34
Contextformer (Trans.)	-5.05%	40.00	44.00
MambaVC (SSM)	-7.31%	60.45	41.67
Mixed (Trans.+CNN)	-7.39%	127.36	91.44
MambaIC (Ours)	-12.52%	60.73	39.42

消融实验¶

配置	解码延迟(ms)	BD-Rate
w/o CAM（通道自回归）	16.72	-6.73%
w/o spatial context	32.73	-8.54%
w/o WLA（窗口注意力）	35.14	-9.17%
Full MambaIC	39.42	-12.52%

基础 block 对比¶

Block	解码延迟(ms)	BD-Rate
CNN	35.53	-3.81%
Transformer	48.74	-7.19%
SSM (Ours)	39.42	-12.52%

Bitstream 对比（PSNR ≈ 34.2 dB on Kodak）¶

方法	感受野	Bpp	ΔBpp
ELIC	局部	0.4683	-
Contextformer	全局	0.4596	1.86%
MambaVC	全局	0.4482	4.29%
Ours (8×8)	全局+局部	0.4404	5.95%

关键发现¶

高分辨率优势显著: 从 Kodak(768×512) 到 Tecnick(1200×1200) 到 CLIC(2048×1440)，MambaIC 的优势逐步扩大，其他方法出现不同程度退化
SSM 在压缩中比 CNN/Transformer 更优: 同样框架下 SSM block 比 CNN 提升 8.71% BD-rate，比 Transformer 提升 5.33%
上下文建模和局部注意力互补: 每个组件贡献显著（5.79% + 3.98% + 3.35%），且额外延迟可控
与 Mixed (SOTA Trans.+CNN) 对比：BD-rate 高 5.13%，编码时间仅 47.7%，解码时间仅 43.1%

亮点与洞察¶

首次系统地将 SSM 引入 LIC 的上下文模型，不是简单替换而是针对性设计
"全局 SSM + 局部注意力"的互补策略在注意力图可视化中得到直观验证
高分辨率场景下的稳定性是工业应用的关键卖点
注意力图可视化清晰展示了 WLA 如何帮助关注语义相关的局部区域

局限与展望¶

训练数据仅用 Flickr30k（31K 张），数据规模有限
编码延迟（60.73ms）高于 ELIC（40.76ms），编码端效率有提升空间
只使用了 MSE 作为失真度量，感知质量（LPIPS 等）未考虑
未探索可变码率（单模型多码率）方案
SSM 在压缩中的理论优势分析不够深入

评分¶

⭐⭐⭐⭐