Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion¶

会议: CVPR 2025
arXiv: 2412.00505
代码: 无（提供了重建结果数据下载）
领域: 模型压缩
关键词: 图像压缩, Wasserstein失真, 感知质量, 过拟合编解码器, 纹理重建

一句话总结¶

本文将Wasserstein Distortion（WD）作为优化目标应用于过拟合图像编解码器C3，结合公共随机性实现纹理再采样，在保持极低解码复杂度（<1% MACs of HiFiC）的同时达到与生成式压缩方法相当的视觉质量-码率权衡。

研究背景与动机¶

领域现状：近年来学习型图像压缩受生成模型（GAN、扩散模型）启发，通过更好的自然图像分布建模获得了出色的图像质量。代表方法如HiFiC利用对抗损失，CDC基于扩散模型，都能生成视觉上令人信服的重建图像。

现有痛点：这些生成式压缩方法的计算复杂度比商用编解码器高出数个数量级，对移动设备等实际应用场景来说完全不可行。在"好（质量）、便宜（码率）、快（速度）"三者中似乎只能选其二。

核心矛盾：生成式方法追求的是精确建模自然图像分布来获得高质量，但精确建模分布本身就需要极高的复杂度。问题在于——高视觉质量是否真的需要精确的分布建模？

本文目标：证明通过建模人类视觉感知（而非数据分布），可以在低解码复杂度下实现与生成式压缩可比的视觉质量。

切入角度：人类视觉系统的外围视觉只能感知纹理统计特征而非精确像素值。Wasserstein Distortion（WD）正是建模了这一特性——在显著性低的区域允许纹理再采样，从而大幅节省比特。

核心 idea：用WD替代MSE作为C3过拟合编解码器的优化目标，并引入公共随机性（Common Randomness, CR）辅助纹理重建，实现"好、便宜又快"的图像压缩。

方法详解¶

整体框架¶

方法基于C3过拟合编解码器架构：每张图像独立优化一组多分辨率隐变量、合成网络和熵模型。输入为原始图像，隐变量经过双线性上采样和拼接后通过小型CNN合成网络输出RGB像素，熵网络为每个隐变量元素建模条件概率。本文只做两个改动：(1) 引入公共随机性噪声作为解码端额外输入；(2) 将MSE损失替换为Wasserstein Distortion。

关键设计¶

Wasserstein Distortion (WD) 作为优化目标:
- 功能：度量原图与重建图在感知空间中的距离，同时考虑中央凹视觉和外围视觉的差异
- 核心思路：从VGG网络提取多层特征图，在不同的空间位置根据 \(\sigma\) 值决定池化区域大小，计算局部均值和标准差的2-Wasserstein散度。\(\sigma\) 小时趋近于逐点比较（中央凹），\(\sigma\) 大时允许纹理统计匹配（外围视觉）。作者提出了一种高效的近似计算方式：将 \(\sigma\) 离散化为2的幂次，构建类高斯金字塔的多尺度级联来预计算局部统计量，再通过线性插值得到任意 \(\sigma\) 对应的WD值
- 设计动机：相比LPIPS等逐点特征距离，WD显式建模了视觉系统的注视-外围二元性，在外围区域容许纹理再采样，有效降低编码成本
基于显著性的自适应 \(\sigma\) 映射:
- 功能：根据图像区域的视觉重要性自适应调节WD的容许程度
- 核心思路：利用EML-net预测显著性图 \(s\)，转换为密度 \(p = p_{min} + (1-p_{min}) \cdot s/\bar{s}\)，再映射为 \(\sigma = \sigma_{max} \cdot p_{min}/p\)。显著区域 \(\sigma\) 小（要求精确重建），非显著区域 \(\sigma\) 大（允许纹理再采样）
- 设计动机：统一的常数 \(\sigma\) 会导致语义重要内容（如文字）被当作可替换纹理处理。例如相机上的"ZENITAR-M"文字在常数 \(\sigma\) 下变得不可读，但基于显著性的 \(\sigma\) 能保护这些区域
公共随机性 (Common Randomness, CR):
- 功能：为解码端提供与编码端相同的伪随机噪声，使编解码器能协同重建随机纹理
- 核心思路：在多个分辨率上生成i.i.d.标准高斯噪声（固定种子的伪随机数发生器），上采样后与隐变量拼接作为合成网络的额外输入。由于种子固定，不需要额外传输比特
- 设计动机：没有CR时，编解码器只能用确定性结构（如直线）来近似随机纹理，效果有限。有了CR，编解码器可以对噪声进行"噪声整形"来高效重建随机纹理（如草地），从而将更多比特分配给结构性内容

损失函数 / 训练策略¶

优化目标为率失真损失，其中失真项为WD（替代原C3的MSE），率项为隐变量在熵模型下的交叉熵。两种WD变体：WD8使用常数 \(\sigma=8\)，WDs使用显著性驱动的 \(\sigma\) 映射（\(\sigma_{max}=16\)）。编码复杂度因WD计算约增加6倍。

实验关键数据¶

主实验¶

在CLIC2020 professional验证集（41张图像）上，通过大规模人工评测研究（16659次成对比较）评估10种压缩方法。目标码率为0.075、0.15和0.3 bits/pixel。

方法	解码MACs/pixel	Elo评分趋势	说明
C3/WDs (本文)	~10³	与HiFiC相当	公共随机性+显著性WD
C3/WD8 (本文)	~10³	略低于WDs	常数σ的WD
HiFiC	~10⁵	最优	基于GAN的生成式压缩
VVC	~10²	中等偏低	商用编解码器
MLIC+	~10⁵	中等偏低	MSE最优的学习型方法
CDC	~10⁶	中等偏低	基于扩散的压缩
C3/MSE	~10³	最低	原始C3

感知指标预测人类评分¶

指标	二元评分预测准确率	Elo PCC	Elo SRCC
WDs (本文)	72.87%	0.942	0.913
LPIPS	~67%	~0.7	~0.7
DISTS	~67%	~0.8	~0.8
MS-SSIM	~66%	~0.7	~0.7
PSNR	~64%	~0.5	~0.5

关键发现¶

WD优化后，最高分辨率隐变量（编码细节）的比特分配显著减少，说明WD允许纹理再采样从而释放了比特预算给其他层
CR进一步增强了这一效果：提供CR后，编解码器更少地"硬编码"纹理细节
作为感知指标，WD与人类Elo评分的Pearson相关性达到94%，远超LPIPS等现有指标
基于显著性的σ映射能有效保护语义重要区域（如文字），视觉改善显著

亮点与洞察¶

感知建模替代分布建模的思路非常巧妙：不需要生成式模型的复杂度就能获得相当的感知质量，关键在于利用了人类视觉的"外围盲区"
公共随机性是一个优雅的设计：零额外比特成本就能让编解码器协同重建随机纹理，本质上是把确定性编码问题转化为了随机编码问题
WD作为IQA指标意外地表现极好（94% PCC），这个副产品可能比压缩方法本身更有价值，可迁移到任何需要感知质量评估的场景

局限与展望¶

编码复杂度增加约6倍（因WD比MSE计算更贵），对实时编码场景是瓶颈
特征空间和σ映射的选择完全是ad-hoc的，缺少系统性优化
人工评测规模有限（41张图×3个码率），需要更大规模验证
显著性模型的质量直接影响σ映射的效果，针对压缩任务的专用显著性模型可能更优

评分¶

新颖性: ⭐⭐⭐⭐ WD在压缩中的应用新颖，但核心组件（C3架构、WD指标）均为已有工作
实验充分度: ⭐⭐⭐⭐⭐ 大规模人工评测研究是金标准，对比全面，分析深入
写作质量: ⭐⭐⭐⭐⭐ 论文逻辑清晰，图表精美，motivation阐述非常到位
价值: ⭐⭐⭐⭐ 实际意义大（低复杂度高质量压缩），WD作为IQA指标的副发现也有独立价值