Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eIF1QvC94Z
代码: 见论文项目主页(有)
领域: 扩散模型 / 图像压缩
关键词: 零样本压缩, 扩散模型, DDCM, 稀疏最小二乘, 优先级感知
一句话总结¶
本文把零样本扩散压缩方法 DDCM 的逐步"贪心匹配追踪"换成一个闭式的稀疏最小二乘选择规则,每一步一次性组合上百个噪声原子,从而把扩散步数砍掉 92%,单图往返压缩-解压时间从 65 秒降到 1.8 秒,质量与 SOTA 持平,并顺带支持区域优先和按目标 PSNR 压缩两种灵活变体。
研究背景与动机¶
领域现状:图像压缩近年从神经网络方法转向扩散模型,其中"零样本"路线最有吸引力——它直接复用一个预训练扩散骨干,不为压缩单独训练或微调,同一个模型还能顺便做生成、修复、编辑,骨干一升级所有任务同时受益。代表方法 DDCM(Denoising Diffusion Codebook Models)把标准 DDPM 反扩散里的"随机采样高斯噪声"改成"从可复现的码本里挑一个最匹配目标图的噪声原子",于是只要存下每步选中的原子索引就能重建图像,机制极其简洁。
现有痛点:零样本扩散压缩"慢得离谱"。DDCM 要几百步去噪才能达到够用的重建质量,单图往返要 65 秒;PSC 要几分钟;即便是上了定制 CUDA kernel 的 DiffC 也要约 10 秒,且依赖硬件特化、不同图像/不同码率下码率和耗时都漂得厉害。相比之下训练型方法一次前向就出结果,零样本路线在实用性上完全不占优。
核心矛盾:DDCM 想提高码率有两条路,但都被卡死——加大去噪步数 \(T\) 会成倍增加昂贵的去噪器调用;加大码本 \(K\) 只能让码率对数增长却让搜索急剧变慢。作者提出过用匹配追踪(MP)在每步组合 \(M\) 个原子来拓宽码率,但 MP 是贪心迭代+穷举搜索,一次就要 0.1 秒还要乘以 \(T\) 步,且因为只能取非负凸组合系数,单独增大 \(M\) 收益有限、必须同时增大系数比特 \(C\),而运行时随 \(C\) 指数膨胀。本质矛盾是:每步想组合更多原子来减少步数,但现有组合方式(MP)的代价随原子数爆炸。
本文目标:找到一种"每步能廉价地组合任意多个噪声原子"的选择规则,让少数几步强估计替代几百步弱估计,同时配一套不浪费比特的编码协议,并把方法扩展到区域优先和失真可控两种实用场景。
切入角度:作者抓住一个高维几何事实——高斯随机码本的原子在高维空间里近似正交。在近似正交假设下,"用 \(M\) 个原子线性逼近残差"这个稀疏最小二乘问题不需要迭代搜索,存在闭式解。
核心 idea:用闭式的阈值化稀疏最小二乘(thresholding)替代 DDCM 的贪心匹配追踪,一次性选出并组合上百个原子,使每步残差估计大幅增强、扩散步数锐减;再配一套消除排列冗余的组合编码协议。
方法详解¶
整体框架¶
Turbo-DDCM 站在 DDCM 的肩膀上:DDCM 的反扩散每步把随机高斯噪声替换成"从可复现码本 \(C_t=[z_t^{(1)},\dots,z_t^{(K)}]\) 里选一个原子",压缩时选与残差 \(x_0-\hat x_{0|t}\) 内积最大的那个,存下索引序列即可重建。Turbo-DDCM 改两处:第一,把"每步选 1 个原子"升级为"每步闭式组合 \(M\) 个原子",用阈值化稀疏最小二乘求解,代价几乎与 \(M\) 无关,于是每步残差估计强很多,总步数能从几百步降到几十步(\(T=30\));第二,针对大 \(M\) 组合设计了一套去除排列冗余的比特协议,把这些索引高效编码成比特流。解码端则跑同一套生成式扩散,按解码出的索引重新选码本噪声、复现重建图。两个灵活变体在选择规则上加权或换目标,分别支持区域优先与按 PSNR 压缩。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["目标图 x0 + 可复现高斯码本 Ct"] --> B["逐步去噪<br/>计算残差 x0 − x̂0|t"]
B --> C["1. 高效多原子选择<br/>闭式阈值化稀疏最小二乘<br/>每步组合 M 个原子"]
C -->|步数 T 降到几十| D["2. 大M组合比特协议<br/>传组合的字典序索引<br/>消除 M! 排列冗余"]
D --> E["比特流"]
E --> F["解码端重跑扩散<br/>按索引重选噪声 → 重建图"]
C -.->|加权残差/换目标| G["3. 两个变体<br/>优先级感知 + 失真控制"]
关键设计¶
1. 高效多原子选择:用闭式阈值化替代贪心匹配追踪
这一步直击"每步组合更多原子代价爆炸"的核心矛盾。作者把每一步的噪声构造写成一个带稀疏与量化约束的最小二乘:用恰好 \(M\) 个非零量化系数的原子线性组合去逼近残差,\(s_t^*=\arg\min_{s_t}\|C_t s_t-(x_0-\hat x_{0|t})\|_2^2\),约束 \(\|s_t\|_0=M\) 且系数取自量化集 \(V\cup\{0\}\)。关键洞察是高斯码本在高维近似正交,于是稀疏最小二乘有闭式解(thresholding 算法):先算每个原子与残差的归一化内积 \((u_t)_i=\langle z_t^{(i)},x_0-\hat x_{0|t}\rangle/\|z_t^{(i)}\|_2\),取绝对值最大的 \(M\) 个,系数就是对应内积。作者进一步把量化约束并进来,并针对论文统一采用的 \(V=[-1,+1]\) 简化为:选中原子的系数直接取内积符号 \((s_t^*)_i=\mathrm{sign}((u_t)_i)\),其余置零。
这套规则与 DDCM 的 MP 有四点本质不同,正是它的威力来源:(1) 构造效率——闭式 TopM 选取,比 MP 的迭代穷举快几个数量级;(2) 所需步数——运行时几乎不随 \(M\) 增长,于是 \(M\) 可放大到上百,每步残差估计更强,扩散步数砍掉 92%;(3) 量化取值——MP 因依赖凸组合只能取非负系数,本文允许正负系数,等于让组合方向能指向相反方向,表示能力翻倍,更好逼近残差;(4) 超参——只需调 \(M\) 单个超参就能细粒度控码率且运行时稳定,而 DDCM 单调 \(M\) 没用、必须连带调 \(C/K/T\) 导致码率间耗时剧烈波动。此外由于 \(T\) 大幅减少,作者在最后几步用 DDIM 采样替换合成噪声 \(z_t^*\) 来提升低码率下的感知质量,DDIM 步数 \(N\) 随码率启发式递减。
2. 大 M 组合的高效比特协议:消除排列冗余逼近信息下界
当 \(M\) 很大时,沿用 DDCM 的比特协议会严重浪费。DDCM 每步用 \(\lceil\log_2 K\rceil M\) 比特并保留原子被选中的顺序(它的解码噪声构造依赖顺序)。但在本文的阈值化方案里,原子顺序毫无语义、只有身份重要,于是朴素地编码 \(M\) 个索引会产生 \(M!\) 种等价表示,整段序列就有 \((M!)^{T-1}\) 个完全等价的压缩结果——哪怕 \(M=5,T=30\) 这种保守参数也约有 \(2^{200}\) 个等价表示,纯属浪费。
作者据此重新计费:每步真正要传的是"从 \(K\) 个原子里无序无重复选 \(M\) 个的组合"加上 \(M\) 个量化系数,可能数为 \(\binom{K}{M}\cdot(2^C)^M\),对应下界 \(\lceil\log_2\binom{K}{M}\rceil+MC\) 比特。他们提出一个达到该下界的协议:传选中组合在 \(\{1,\dots,\binom{K}{M}\}\) 里的字典序索引,再按规范顺序传 \(M\) 个量化系数——既消除了阶乘冗余,又传了完全等价的信息。最终码率 \(\mathrm{BPP}=(T-N-1)(\lceil\log_2\binom{K}{M}\rceil+MC)/\text{像素数}\),相比 DDCM 协议为典型配置省约 40% 比特。
3. 两个灵活变体:把同一选择规则改成区域优先与失真可控
作者展示这套选择规则的可塑性。优先级感知(priority-aware)变体面向医学影像、视频会议等"重点区域要清晰"的场景:引入一个隐空间优先级掩码 \(w\)(由像素级优先图下采样得到),把最小二乘目标改成对残差加权 \(\|C_t s_t-w\odot(x_0-\hat x_{0|t})\|_2^2\),于是原子选择会优先压低高权重像素的误差,把比特倾斜给重点区域。妙在 \(w\) 不需要传给解码端,编码协议和 BPP 都不变,运行时几乎无影响,且这套加权思路能自然推广到 DDCM 和 DiffC。失真控制变体则针对"固定码率下不同图像失真波动很大"的问题,改为针对每张图给定一个目标 PSNR 来压缩(而非固定 BPP),大幅压缩失真的图间方差。这两个变体据作者所知是零样本扩散压缩里首次具备的能力。
实验关键数据¶
主实验¶
在 Kodak24 与 DIV2K(中心裁剪到 \(512\times512\))上评测,骨干统一用 SD 2.1 Base,Turbo-DDCM 固定 \(T=30,K=16384,C=1\),靠 \(M\in[45,300]\) 调码率;失真用 PSNR/LPIPS,感知用 FID,耗时为 A40 上往返压缩-解压的 process time。
| 对比维度 | Turbo-DDCM | DDCM | DiffC (CUDA) | PSC |
|---|---|---|---|---|
| 往返耗时 | 1.8 秒(最快) | 65 秒 | ~10 秒 | >300 秒 |
| 相对加速 | — | >34× (高码率) | 3×~近 10× | 极慢 |
| 失真/感知 | 持平或更好 | 持平 | 低码率感知略优 | 全面落后 |
| 硬件特化 | 不需要 | 不需要 | 需定制 kernel | 不需要 |
在率-失真-感知平面上,Turbo-DDCM 超过 PSC,且对 DDCM 达到相等或更好的失真与感知质量;相比非神经/微调/训练型方法,除了为每个码率单独特化的 StableCodec 外,它在该平面上优于所有先前方法。低码率下即便对比 PerCo (SD)、DiffEIC 这类感知导向方法也有更好失真;高码率下因 SD 2.1 编解码器自身的失真上界(latent 空间压缩天然受限)在失真上略逊。
速度与消融分析¶
| 配置 / 维度 | 效果 | 说明 |
|---|---|---|
| 闭式选择替代 MP | 步数 −92% | 每步组合上百原子,强估计替代弱估计 |
| 允许正负系数 | 表示能力翻倍 | MP 只能非负凸组合 |
| 新比特协议 | BPP −~40% | 消除 \(M!\) 排列冗余、逼近信息下界 |
| 仅调 \(M\) 控码率 | 跨码率耗时近恒定 | DDCM 必须连调 \(C/K/T\) 致耗时漂移 |
关键发现¶
- 速度提升的根本来源是"每步更强的残差估计"——闭式多原子选择让少数几十步替代几百步,这是 92% 步数削减的真正杠杆,而非单纯工程加速。
- 运行时优势在高码率尤为明显(对 DDCM >34×、对带 CUDA kernel 的 DiffC 也接近一个数量级),且 Turbo-DDCM 跨码率耗时近乎恒定、同一目标码率下不同图像码率恒定,这是其它零样本方法做不到的实用性优势。
- 高码率失真受限于 SD 2.1 编解码器的固有失真上界,是 latent 扩散压缩的共性天花板,非本方法独有缺陷。
亮点与洞察¶
- 高维近似正交把迭代搜索变成闭式解:这是全文最漂亮的一招——MP 之所以慢是因为原子相关需要贪心去耦,而高维高斯码本近似正交后,稀疏最小二乘退化成"取 TopM 内积 + 取符号",把每步代价从 \(O(\text{穷举})\) 降到一次内积排序。
- 顺序无关 → 用组合的字典序索引计费:识别出"阈值化选原子时顺序无意义"这一冗余,并精确算到 \(\binom{K}{M}\) 信息下界再用字典序枚举编码,是把信息论计费落到实处的范例,可迁移到任何"无序集合选择"的编码场景。
- 同一选择规则的两次轻量改写就长出两个实用能力:优先级感知只是给残差加权、失真控制只是换目标量,且优先级掩码无需传输不增码率——说明这套框架的接口很"干净",扩展成本极低。
局限与展望¶
- 作者承认:训练型方法已能一次前向达到相近重建质量,本文虽快但仍是多步;理想的"一步零样本"方法能进一步提速并保留零样本灵活性。
- 部分非零样本方法在率-失真-感知权衡上仍优于本方法,说明零样本路线在质量上限上还有差距。
- 高码率失真受 SD 2.1 编解码器上界限制——这是 latent 扩散压缩的结构性瓶颈,换更强骨干或在像素空间操作才可能突破,但会牺牲零样本的通用性。
- 作者指出 DDCM 类压缩缺一套完整理论,近似正交假设在不同码本规模/维度下的影响边界仍待系统刻画。
相关工作与启发¶
- vs DDCM:同一可复现码本+残差匹配的思路,但 DDCM 每步选 1 原子、靠 MP 才能升码率而代价爆炸;本文用闭式阈值化每步组合上百原子、允许正负系数、并重做比特协议,质量持平而快一个数量级以上。
- vs DiffC:DiffC 走反向信道编码(RCC)路线并靠定制 CUDA kernel 提速到约 10 秒,但依赖硬件特化、码率/耗时随图像和码率大幅漂移;Turbo-DDCM 无需特制硬件就更快,且码率与耗时跨图像/跨码率都稳定。
- vs ROI/优先级压缩(如 Xu et al. 2025):已有 ROI 压缩多在训练型框架里实现;本文首次把按像素优先级的区域优先能力引入零样本扩散压缩,且优先级掩码无需传输、不增码率。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用高维近似正交把贪心 MP 换成闭式稀疏最小二乘,配信息下界编码协议,切入点扎实漂亮。
- 实验充分度: ⭐⭐⭐⭐ 两数据集、多类基线、率-失真-感知-耗时全维度对比,并有两个变体的定性验证。
- 写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法逻辑清晰,四点对比 MP 讲得透彻。
- 价值: ⭐⭐⭐⭐ 把零样本扩散压缩耗时压到 1.8 秒并保持竞争力,显著推进了该路线的实用性。