Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior¶

基本信息¶

arXiv: 2511.22549
会议: NeurIPS 2025
作者: Ruoyu Feng, Yunpeng Qi, Jinming Liu, Yixin Gao, Xin Li, Xin Jin, Zhibo Chen
机构: USTC, Eastern Institute of Technology (Ningbo)
代码: https://github.com/RuoyuFeng/Diff-ICMH

一句话总结¶

提出 Diff-ICMH，一种基于扩散模型的生成式图像压缩框架，通过语义一致性损失（SC loss）保持语义完整性，通过标签引导模块（TGM）激活生成先验，以单一编解码器和码流同时服务 10+ 种智能任务和人类视觉感知，无需任何任务特定适配。

背景与动机¶

图像压缩面临两种优化目标的割裂：

面向人类的压缩：优化像素保真度（PSNR）或感知质量（LPIPS/FID），但对机器视觉任务支持差
面向机器的压缩（ICM）：
- 传统编解码器方法：通过量化参数调优/比特分配适配，受限于非可微的保真度导向设计
- 任务驱动端到端方法：特定任务性能好但跨任务泛化差
- 特征压缩方法：直接压缩中间特征，与特定模型耦合，无法支持人类查看

关键洞察：语义完整性和感知真实性是机器智能和人类感知共同需要的——两者并非对立。

核心问题¶

如何设计一个通用图像编解码器，以单一码流同时高效服务多种下游智能任务和人类视觉感知？

方法详解¶

1. 设计哲学¶

传统保真度导向压缩的两大信息损失： - 语义失真：核心语义信息丢失→直接损害任务分析 - 感知失配：纹理/细节偏离自然分布→域偏移导致特征提取误差累积

实验验证（图3）：在 ResNet50 深层（layer4），保真度导向编解码器（VTM, ELIC）的特征偏差远大于生成式编解码器（MS-ILLM），说明真实纹理能有效缓解深层误差累积。

2. 整体框架¶

编码侧：输入图像 $\mathbf{x}$ 压缩为潜在特征 $\hat{\mathbf{z}}$，目标空间为 Stable Diffusion 的 VAE 潜在空间（$8\times$ 空间下采样）
标签提取：Recognize Anything 提取词级别语义标签 $\mathbf{c}$
码流：压缩潜变量 + 标签 ID（无损编码，约 100 bits/图）
解码侧：$\hat{\mathbf{z}}$ 作为条件输入 ControlNet 式控制模块，联合冻结的 Stable Diffusion 执行生成式重建

3. 语义一致性损失（SC Loss）¶

利用预训练扩散模型的特征提取能力作为语义空间： $$\mathcal{L}_\text{sem} = -\mathbb{E}_{\mathbf{z}, \hat{\mathbf{z}}} \left[ \frac{1}{N} \sum_{n=1}^N \text{sim}(f(\mathbf{z})_n, f(\hat{\mathbf{z}})_n) \right]$$

其中 $f(\cdot)$ 为冻结扩散模型的前向传播，$\text{sim}$ 为余弦相似度： $$\text{sim}(\mathbf{z}, \hat{\mathbf{z}}) = \frac{\mathbf{z}^T \hat{\mathbf{z}}}{|\mathbf{z}|_2 |\hat{\mathbf{z}}|_2}$$

关键设计选择： - 在 U-Net 中间块（middle block）应用效果最佳——深层特征更好地捕获抽象语义 - 使用无噪声输入（$t=0$）——扩散模型的语义特征提取在干净信号上最优

4. 标签引导模块（TGM）¶

预训练标签提取器 $\mathcal{E}_t$（Recognize Anything）生成图像级标签
标签映射为预定义字典中的数值索引，无损编码
解码端转回文本字符串，作为条件输入扩散模型和控制模块
推理时使用 Classifier-Free Guidance（CFG scale = 5.0）增强语义清晰度
开销极低：约 100 bits/图

5. 完整损失函数¶

\[\mathcal{L}_\text{final} = \lambda_\text{rate} \mathcal{L}_\text{rate} + \lambda_\text{dist} \mathcal{L}_\text{dist} + \lambda_\text{diff} \mathcal{L}_\text{diff} + \lambda_\text{sem} \mathcal{L}_\text{sem}\]

各项： - $\mathcal{L}_\text{rate}$：码率损失（量化潜变量 + 超先验的估计熵） - $\mathcal{L}_\text{dist} = \|\mathcal{E}_\text{VAE}(\mathbf{x}) - \mathcal{D}_c(\hat{\mathbf{y}})\|_2^2$：潜在空间重建损失 - $\mathcal{L}_\text{diff} = \mathbb{E}[\|\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{z}_t, \hat{\mathbf{z}}, \mathbf{c}, t)\|_2^2]$：扩散噪声预测损失 - 权重：$\lambda_\text{dist} = \lambda_\text{diff} = 1, \lambda_\text{sem} = 2, \lambda_\text{rate} \in \{2, 4, 8, 16, 32\}$

6. 训练策略¶

数据集：LSDIR，随机裁切 $512\times512$
基础模型：Stable Diffusion 2.1（冻结）
两阶段训练：200K 步高比特率 → 200K 步多比特率微调
DDIM 采样 50 步用于推理

实验关键数据¶

智能任务性能（10+ 任务，单一编解码器/码流）¶

COCO 目标检测/实例分割/全景分割：全面优于 VTM、ELIC 和多数感知导向方法
Flickr30K 跨模态检索：在超低比特率（0.01-0.05 bpp）优势显著
ADE20K 开放词汇分割：在 0.02-0.1 bpp 大幅领先
所有结果无需任务特定微调

感知质量（Kodak / Tecnick / CLIC2020）¶

指标类型	Diff-ICMH vs. 竞品
PSNR/MS-SSIM（保真度）	低于 VTM/ELIC（生成式方法的固有特点），与 DiffEIC 持平
LPIPS ↓	优于所有方法
FID ↓	SOTA
DISTS ↓	SOTA

在超低比特率下感知优势最显著

消融实验（COCO 目标检测 mAP）¶

SC loss + TGM 组合：约 0.025 bpp 处比 baseline 提升 ~4 mAP
SC loss 最佳配置：$\lambda_\text{sem}=2.0$，中间块位置，无噪声输入

亮点¶

一码多用：同一编解码器 + 同一码流支持 10+ 种下游任务 + 人类视觉，无需适配
语义 + 感知双保障：SC loss 保语义完整性，生成式框架保感知真实性
TGM 极低开销：仅 ~100 bits 的标签信息即可显著激活生成先验
潜在空间压缩设计：解码到 VAE 潜在空间而非像素空间，天然过滤语义无关冗余
超低比特率优势：在 0.01-0.05 bpp 极端条件下优势最显著

局限性¶

解码速度：扩散去噪需 50 步迭代前向传播，解码耗时远高于传统编解码器
保真度损失：PSNR/MS-SSIM 低于保真度导向方法，不适合需要像素精确还原的场景
VAE 瓶颈：$8\times$ 下采样的潜在空间可能丢失精细空间细节（如姿态估计）
训练成本：需要 Stable Diffusion 的 GPU 资源进行两阶段训练

与相关工作的对比¶

vs. VTM/ELIC（保真度导向）：Diff-ICMH 在 PSNR 上低但在智能任务和感知质量上大幅领先
vs. DiffEIC（扩散压缩）：在智能任务上全面超越，感知质量持平或更优
vs. TransTIC/Adapter-ICMH（任务适配型）：Diff-ICMH 无需任何适配即达到更好性能
vs. 特征压缩方法：Diff-ICMH 在图像域工作，同时支持人类查看

启发与关联¶

语义保持是通用压缩的关键：SC loss 的成功说明语义信息是机器任务和人类理解的共同基础
生成式压缩的新定位：不只是追求感知质量，更是通向通用智能编解码的路径
CFG 在压缩中的应用：Classifier-Free Guidance 从生成扩展到了压缩条件增强

评分¶

新颖性：⭐⭐⭐⭐⭐ — 首次从语义+感知统一视角设计面向机器和人类的通用编解码器
技术深度：⭐⭐⭐⭐⭐ — SC loss 设计有理有据，消融实验验证了每个设计选择
实验完整度：⭐⭐⭐⭐⭐ — 10 种任务 + 3 个感知数据集 + 完整消融
写作质量：⭐⭐⭐⭐☆ — 框架清晰，但引用列表过长影响可读性