Cross-Domain Lossy Compression via Rate- and Classification-Constrained Optimal Transport¶
会议: ICLR 2026 (Oral)
OpenReview: mUIGdUTtk2
代码: 有
领域: 信息论 / 有损压缩
关键词: optimal transport, rate-distortion theory, lossy compression, cross-domain, DRC tradeoff, DRPC
一句话总结¶
将跨域有损压缩(编码器观测退化源、解码器重建不同目标分布)形式化为带压缩率和分类损失双重约束的最优传输问题,推导Bernoulli源(Hamming失真)和Gaussian源(MSE)的闭式DRC/RDC及DRPC权衡函数,通过深度端到端压缩模型在超分/去噪/修复任务上验证理论预测与实验行为一致。
研究背景与动机¶
领域现状:经典率失真理论(Shannon 1959)假设编码器和解码器在同一分布域,但实际场景中编码器观测的是退化输入(噪声图像、低分辨率图像、缺损图像),解码器需要重建干净目标分布的样本。
现有痛点: - 经典RD理论不处理跨域设置——源和目标分布不同时的率失真特性缺乏理论基础 - Rate-Distortion-Perception (RDP) 框架(Blau & Michaeli 2019)只考虑感知约束,不显式建模下游分类任务 - 跨域压缩的熵约束最优传输(Liu et al. 2022)未纳入分类或感知约束,也无闭式解 - 现有task-aware压缩方法(Zhang 2023)仅在单域设置下分析RDC
核心矛盾:压缩表示需要同时服务多个目标——(1) 保持低失真重建、(2) 满足率约束、(3) 保留下游分类信息、(4) 维持感知质量——但这些目标存在基本权衡,缺乏统一的理论分析框架。
本文目标 建立跨域有损压缩的理论框架,推导率、失真、分类和感知之间的基本权衡关系的闭式表达。
切入角度:将问题形式化为带双重约束(率+分类)的最优传输问题,利用shared common randomness消除one-shot设置中的随机性,在经典可解分布族上推导闭式解。
核心 idea:最优传输 + 率约束 + 分类约束的统一框架,首次给出跨域设置下DRC/DRPC权衡的解析表达。
方法详解¶
整体框架¶
给定退化源 \(X\)、目标分布 \(Y\)、类标签 \(S\),通过Markov链 \(S \to X \to Z \to Y\)(\(Z\) 为压缩表示),同时最小化失真 \(E[d(X,Y)]\),约束率 \(H(Z) \leq R\) 和分类损失 \(H(S|Y) \leq C\)。在shared common randomness下,one-shot设置退化为确定性传输计划(deterministic transport plan)。
关键设计¶
-
Rate- and Classification-Constrained Optimal Transport:
- 功能:将跨域有损压缩形式化为约束最优传输问题
- 核心思路:最小化失真 \(D(R,C) = \min_{P_{Z|X}, P_{Y|Z}} E[d(X,Y)]\),约束 \(I(X;Z) \leq R\)(率约束)和 \(H(S|Y) \leq C\)(分类约束),\(H(S|Y)\) 通过Fano不等式 \(\Pr(S \neq \hat{S}) \geq \frac{H(S|Y)-1}{\log(M-1)}\) 直接关联分类性能下界
- 设计动机:\(H(S|Y)\) 是分类信息的信息论自然度量——小的 \(H(S|Y)\) 保证存在高精度分类器;率约束限制压缩表示的信息量;两者与失真形成三方权衡
-
Bernoulli源和Gaussian源的闭式解:
- 功能:在两类经典可解分布上推导DRC/RDC的解析表达
- 核心思路:Bernoulli源+Hamming失真→利用二进制对称信道结构和共享随机性simplify传输计划;Gaussian源+MSE→利用正交分解将率-失真-分类分离为独立优化,推导 \(D(R,C) = \sigma_X^2 \cdot 2^{-2R} + f(C)\)形式的表达式
- 设计动机:Bernoulli和Gaussian是率失真理论中"氢原子"级的模型——闭式解揭示权衡的定性结构,指导实际复杂分布的算法设计
-
DRPC扩展(加入感知约束):
- 功能:在DRC基础上加入感知散度约束(KL散度或Wasserstein距离),得到四维权衡函数DRPC
- 核心思路:额外约束 \(D_\text{perc}(P_Y || P_{Y^*}) \leq P\),其中 \(P_{Y^*}\) 为目标感知分布,得到 \(D(R,C,P) = \min_{P_{Z|X},P_{Y|Z}} E[d(X,Y)]\) s.t. 率、分类、感知三重约束
- 设计动机:实际应用中感知质量与逐像素失真存在权衡(低失真不等于高感知质量)——DRPC框架统一处理
损失函数 / 训练策略¶
深度实现使用Lagrangian目标:\(L = \text{MSE} + \lambda_r R + \lambda_p \text{Perception} + \lambda_c \text{CE}(S, \hat{S})\),其中 \(R\) 来自entropy model估计,Perception用WGAN-GP判别器实现,CE为分类损失。通过sweep \((\lambda_r, \lambda_p, \lambda_c)\) 网格,在validation set上实测 \((R, C)\) 对,追踪经验DRC曲面。架构:卷积自编码器 + entropy model + WGAN-GP判别器 + 分类器,在两块RTX 3090上训练。
实验关键数据¶
主实验:KODAK去噪对比(\(\sigma=25\)高斯噪声)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | DISTS↓ | PI↓ |
|---|---|---|---|---|---|
| JPEG-2K (non-learning) | 26.44 | 0.736 | 0.402 | 0.242 | 7.479 |
| BM3D (non-learning) | 31.88 | 0.869 | 0.224 | 0.164 | 2.650 |
| DeCompress (unsupervised) | 27.83 | 0.752 | 0.263 | 0.197 | 2.798 |
| OTDenoising (unsupervised) | 31.29 | 0.868 | 0.115 | 0.103 | 2.010 |
| Ours (unsupervised) | 27.90 | 0.804 | 0.199 | 0.164 | 2.167 |
消融实验:多任务多数据集验证¶
| 任务 | 数据集 | 关键指标 | 说明 |
|---|---|---|---|
| 超分辨(4×) | MNIST | DRC曲线 | 理论预测与实验定性一致 |
| 去噪(\(\sigma\)=10) | Mouse Nuclei | PSNR=33.03, SSIM=0.81 | 显微镜图像验证 |
| 去噪(real) | SIDD | PSNR=33.61, SSIM=0.90 | 真实手机噪声 |
| 去噪(\(\sigma\)=20) | SVHN/CIFAR-10/ImageNet | DRC/RDC曲面 | 跨数据集一致性 |
| 修复 | SVHN | 有监督+无监督 | 验证框架通用性 |
关键发现¶
- 理论与实验一致:所有数据集上经验DRC曲线都展示预测的定性行为——失真随率增加单调递减,分类精度随率增加单调提升
- 感知-失真权衡实证:WGAN-GP判别器使模型在LPIPS和PI等感知指标上优于BM3D和DeCompress,但PSNR不及BM3D——符合理论预测的感知-失真权衡
- 分类约束的作用:固定率下收紧分类约束(要求更高精度)→可达失真增加——理论和实验都验证了这一点
- 共享随机性在实践中可行:通过公共PRNG种子实现,兼容广播、单次写入等场景
亮点与洞察¶
- 信息论 + 最优传输 + 分类的优美统一:三个不同领域的理论在一个框架下融合,闭式解不仅有理论美感,更提供基本性能极限
- 跨域设置的自然性:几乎所有实际图像处理任务(去噪、超分、修复)本质上都是跨域的——源分布和目标分布不同——本框架首次给出了这些任务的统一率失真理论
- Reviewer F3r6给出10分:Soundness 4/Presentation 4/Contribution 4 全Excellent,推荐accept as highlight
- Fano不等式的桥接作用:\(H(S|Y)\) 通过Fano不等式直接下界化分类误差——信息论量和分类性能之间的优雅联系
局限与展望¶
- 闭式解限于Bernoulli/Gaussian两种典型分布,自然图像远比这两种复杂——理论与实践的gap需要更多数值方法填补
- PSNR指标不及BM3D等专用去噪方法——因为本框架同时优化率和感知等多重目标
- Reviewer AfGP初始给2分(最终改为6分),核心concern是\(H(S|Y)\)与CE loss的关系——虽然最终通过实验解决,但\(H(S|Y)\)在某些退化corner case下的行为仍值得进一步澄清
- 缺少与最新learned compression方法的系统比较
相关工作与启发¶
- vs Blau & Michaeli (2019):他们的RDP框架考虑率-失真-感知权衡但不含分类约束,且在单域设置——本文扩展到跨域+分类+感知四维权衡
- vs Liu et al. (2022):跨域压缩的熵约束OT但无分类/感知约束,无闭式解
- vs Zhang (2023):单域RDC分析,未处理跨域+shared randomness+感知散度
- vs OTDenoising (Wang et al. 2023):他们用OT做非监督去噪但不含率约束和分类约束——本文提供了统一的理论框架
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 跨域率失真理论的首个系统化闭式框架,最优传输+率+分类+感知的四维统一
- 实验充分度: ⭐⭐⭐⭐ 理论+5个数据集+3种任务(超分/去噪/修复)+ 与基线定量对比 + rebuttal中补充显微镜和SIDD数据
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨,但密度高、accessibility一般
- 价值: ⭐⭐⭐⭐⭐ 信息论领域的重要理论贡献,为跨域压缩和图像恢复提供了基本性能极限