ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation¶
会议: CVPR 2026
arXiv: 2603.10188
代码: GitHub
领域: 学习式图像压缩
关键词: 自回归熵模型, 超先验, Squeeze-and-Excitation, 残差预测, 率失真优化
一句话总结¶
在全卷积架构内统一层级超先验、Masked PixelCNN 空间自回归、通道条件建模和 SE 通道激励,不依赖 Transformer 或循环组件,以 95M 参数和 222ms 解码时间实现相对 Ballé 基线 48% BD-Rate 降低并超越 VVC Intra 5.6%。
研究背景与动机¶
领域现状:端到端学习式图像压缩已超越传统编解码器(JPEG/JPEG2000),通过联合优化分析变换、量化和熵模型实现更优的率失真权衡。近年来 Transformer/注意力架构和混合熵模型不断刷新性能上限。
现有痛点:(1) Transformer/注意力型压缩模型计算量大、推理慢,部署困难;(2) ConvLSTM 上下文模型需跨大区域维护隐状态,严格串行解码延迟高;(3) 纯通道自回归(Minnen & Singh)丢失空间局部相关性,纯空间自回归有解码瓶颈。
核心矛盾:建模精度与计算效率之间的权衡——更复杂的模型能更好地估计潜在表示的概率分布,但推理成本和参数量也随之暴涨。
本文目标 在不依赖 Transformer 或循环组件的前提下,通过纯卷积架构达到 SOTA 率失真效率,同时保持参数量和推理速度可控。
切入角度:将层级超先验、掩码空间自回归、通道条件建模和 SE 激励四种互补的概率建模组件统一到单一 VAE 框架中,各组件分工协作而非互相替代。
核心 idea:与其追求更大更深的模型,不如在卷积框架内更精细地建模全局/空间/通道三个维度的依赖关系。
方法详解¶
整体框架¶
ARCHE 基于 VAE 框架:分析变换 \(g_a\) 将输入映射为潜在表示 \(y\),合成变换 \(g_s\) 从量化表示 \(\hat{y}\) 重建图像。核心在于熵模型的层级设计:超先验提供全局统计 → Masked PixelCNN 上下文精化局部概率 → 通道条件捕获跨通道依赖 → SE 激励自适应加权通道 → LRP 修正量化误差。潜在表示 \(y\) 沿通道维被分为 10 个切片顺序解码,每个切片有独立的条件变换和 LRP 子模块。
关键设计¶
- 自回归超先验 + Masked PixelCNN 上下文
- 超分析变换 \(h_a\) 将 \(y\) 映射为侧信息 \(z\),量化后传输;超合成变换 \(h_s\) 从 \(\hat{z}\) 重建条件先验参数(均值 \(\mu\) 和尺度 \(\sigma\))
- 空间自回归先验用 Masked PixelCNN 在光栅扫描顺序下建模 \(p(\hat{y}_i|\hat{y}_{<i}, \hat{z})\),Type A 掩码排除中心及之后位置确保因果性,Type B 包含中心位置
- 多层掩码卷积堆叠配 sigmoid 非线性扩展感受野,相比 ConvLSTM 训练更稳定、推理可部分并行化
- 超先验与上下文特征拼接后经参数网络(逐点卷积+小卷积核+非线性激活)产出最终高斯参数
- 通道条件 + SE 激励
- 解码第 \(c\) 通道时利用前 \(c-1\) 通道的特征做轻量卷积建模,将联合概率 \(p(\hat{y}_{i,c}|\hat{y}_{<i,c}, \hat{y}_{<c}, \hat{z})\) 的依赖空间从纯空间扩展到空间+通道
- 切片变换内嵌 Squeeze-and-Excitation 块:global avg pooling 生成通道描述子 → FC(缩减比 16) → ReLU → FC → sigmoid 门控,自适应放大信息量大的通道、抑制冗余通道
- 跨通道依赖通常比空间依赖更平滑,因此通道条件模块可保持轻量而不影响效果
- 潜在残差预测 (LRP)
- 对量化后每切片预测修正:\(\hat{y}'_m = \hat{y}_m + \lambda_{LRP} \cdot \text{softsign}(r_m)\)
- softsign 替代 tanh 提供更平滑梯度和有界输出,\(\lambda_{LRP}\) 为可学习缩放因子
- 显式补偿量化噪声,超先验和上下文模型无法完全消除的残差误差
损失函数 / 训练策略¶
\(L = R + \lambda D\),其中 \(R\) 为交叉熵码率(含 \(z\) 的先验贡献和 \(y|z\) 的条件贡献),\(D\) 为 MSE。CLIC 数据集训练,随机 256×256 裁剪归一化至 [0,1]。8 组 \(\lambda \in \{0.001, 0.005, 0.007, 0.01, 0.03, 0.05, 0.07, 0.1\}\) 覆盖不同码率点。Adam \(lr=10^{-4}\),400 epochs,batch=8。训练时量化用均匀加性噪声近似以保持梯度可传播。潜在深度 320,10 切片,超先验深度 192,SE 缩减比 16。TensorFlow 2.11 + TFC 实现,RTX 3080 训练和测试。
实验关键数据¶
主实验¶
| 方法 | BD-Rate vs Ballé (Kodak) | BD-Rate vs VVC (Kodak) | 参数量 | 解码时间 |
|---|---|---|---|---|
| Minnen et al. | -8.00% | +90.61% | 95.8M | 591ms |
| Minnen & Singh | -16.28% | +63.55% | 121.7M | 249ms |
| WeConvene | -6.92% | +92.47% | — | — |
| Iliopoulou et al. | -24.22% | +30.19% | 124.3M | 265ms |
| ARCHE | -48.01% | -5.61% | 95.4M | 222ms |
Tecnick 数据集:ARCHE -44.89% vs Ballé,-10.28% vs VVC Intra,趋势一致。
消融实验¶
| 变体 | 效果 |
|---|---|
| 去掉全部 AR 组件 | 退化为纯超先验模型,性能损失最大 |
| 去掉 Masked Context Model | 显著劣化,空间上下文对局部概率估计至关重要 |
| 去掉 SE | 低比特率下中等下降,通道加权对细粒度结构保留重要 |
| 切片数 2→10 | BD-Rate 增益从 ~5% 升至 >11%,再增加边际递减 |
| GMM 替代单高斯 | 无显著提升,说明条件建模已充分捕获潜在统计 |
| Checkerboard 替代 PixelCNN | 训练快 58% 但率失真劣化(尤其低比特率),推理反慢 15% |
关键发现¶
- 各组件贡献互补而非冗余,同时去除造成累积性能下降
- 10 切片为最佳平衡点:进一步切分增益边际递减但计算开销线性增长
- ARCHE 在 Kodak 和 Tecnick 两个数据集上均一致超越 VVC Intra
亮点与洞察¶
- 纯卷积架构超越 VVC Intra 且参数/速度优于多数学习式方法,有力证明精心设计的 CNN 仍有竞争力
- 各组件在概率框架内协同工作(消融证实),体现"分工建模"优于"单一复杂模块"的设计哲学
- 视觉对比在低比特率下展现更锐利边缘和更自然色彩过渡,纹理细节保留优于 VVC
- 从 LSTM 上下文升级到 Masked PixelCNN 的设计选择带来训练稳定性和速度的双重提升
局限与展望¶
- 222ms 解码时间对实时视频仍显不足,可探索 block-wise 半并行解码策略
- 仅优化 MSE,引入感知指标(LPIPS/DISTS 等)可进一步提升视觉真实感
- 未探索任务导向压缩(压缩后直接用于分类/分割等下游任务)
- 更高分辨率图像上的扩展性和内存效率未验证
- 仅在自然图像数据集上评估,医学/遥感等领域的泛化性未知
相关工作与启发¶
- vs Iliopoulou et al. [2025] 前作:ARCHE 用 Masked PixelCNN 替换 LSTM 上下文 + 增加 SE 激励,BD-Rate 再降 ~24pp,参数减少 29M,解码快 43ms
- vs Minnen et al. [2018]:在联合 AR + 超先验基础上加入通道条件/SE/LRP,BD-Rate 多降 40pp,解码从 591ms → 222ms
- vs WeConvene [ECCV24]:小波域方案性能较弱(-6.92% vs Ballé),ARCHE 的空域联合建模更有效
- 设计哲学启发:"不追求更大模型而追求更好的依赖建模",多层级先验(全局/空间/通道)的互补组合方式可迁移到其他概率建模任务
评分¶
- 新颖性: ⭐⭐⭐ 各组件已有前人工作,贡献在于精心融合与工程优化
- 实验充分度: ⭐⭐⭐⭐⭐ 双数据集 + 6 基线 + 完整消融 + 视觉对比 + 计算分析 + 附录变体分析
- 写作质量: ⭐⭐⭐⭐ 方法推导详尽,表格图表丰富,附录透明
- 价值: ⭐⭐⭐ 证明精心设计的 CNN 压缩仍有竞争力,对实际部署有参考价值