Taming Hierarchical Image Coding Optimization: A Spectral Regularization Perspective¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=lO6I66lweK
代码: 无
领域: 图像压缩 / 低层视觉
关键词: 学习式图像压缩, 分层 VAE, 频率原则, 谱正则化, 训练动力学

一句话总结¶

针对分层学习式图像压缩"理论很美、实测打不过单尺度模型"的反差，本文从训练动力学的谱分析切入，定位到根因是跨尺度能量色散与谱混叠，进而提出两个只在训练期生效、推理零开销的谱正则——intra-scale 频率截断（让每个尺度低到高频逐步专精）与 inter-scale 隐变量相似度惩罚（压制尺度间频谱重叠），使训练加速 2.3×、相对 VTM-22.0 平均节省 20.65% 码率，刷新学习式图像压缩 SOTA。

研究背景与动机¶

领域现状：学习式图像压缩（LIC）近年已全面超越 JPEG/HEVC/VVC 等手工编解码器，主流路线是单尺度 VAE：分析变换 \(y=g_a(x)\) 把图像编码成单一尺度隐变量、超先验/上下文模型估计码率、合成变换 \(\hat{x}=g_s(\hat{y})\) 重建，整体用率失真损失 \(L=R(y)+R(z)+\lambda\, D(x,\hat{x})\) 端到端优化。但单尺度路线在高码率、高分辨率场景下性能已逼近饱和。为突破瓶颈，分层 VAE（HVAE）把单尺度处理扩展到多尺度，理论上天然契合"频率原则"——高尺度（大感受野）该负责低频全局结构、低尺度该负责高频细节，还能支持尺度级自回归与质量可伸缩。

现有痛点：然而分层编码的实测表现迟迟没追上理论优势。代表性方法 QARV 在单张 RTX 3090 上要训近 10 天，某些码率区间还打不过更轻量的单尺度模型 ELIC。也就是说，分层架构的潜力远没被榨干。

核心矛盾：作者认为问题不在架构而在"朴素优化"——式 \(L_{hier}=\sum_l R(z_l)+\lambda D(x,\hat{x})\) 让所有尺度在整个频谱上一起竞争，完全没有显式约束尺度该管哪段频率。通过对训练动力学做谱分析，作者观察到两类违反频率原则的现象：① intra-scale 干扰——单个尺度的谱能量在各频段色散，混入高频噪声与低频干扰，并沿层级传播，使最末尺度的频谱严重弥散；② inter-scale 混叠——相邻尺度频段重叠（如第 2 尺度出现本该属于第 1 尺度的异常低频带，最末尺度几乎覆盖了第 3 尺度），导致冗余频率成分被重复编码、白白浪费码率。

本文目标：在不增加任何推理复杂度的前提下，把分层模型显式地"训"成频率分层表示，让每个尺度专精自己该负责的频段。

切入角度：借用前人的"频率原则"——网络不同层对不同频段敏感度不同，训练良好的模型里每层会自然聚焦于一段特征频率。既然分层架构本就是频率原则的结构化体现，那就用显式的频率引导去促进谱收敛与解耦。

核心 idea：设计两个即插即用、仅训练期生效的谱正则化策略——早期用 DCT 频率截断引导各尺度低到高频依次专精，后期用隐空间相似度惩罚压制尺度间谱混叠，二者互补地把分层优化纠回频率原则的轨道上。

方法详解¶

整体框架¶

方法建立在一个自研的轻量 4 尺度分层编解码器 DHIC（Deep Hierarchical Image Coding） 之上——每个尺度只放单个隐变量块、用简单 CNN 替换 Transformer/Mamba 等重骨干，目的是剥离复杂架构带来的性能干扰，把变量纯粹聚焦在"加不加正则"。不加正则训练得到的是 DHIC-Base，加上本文两个正则后的是 DHIC-Regu。

整条思路是"先诊断、再分阶段开药"。先对训练过程做谱分析，确认朴素优化下存在 intra-scale 色散和 inter-scale 混叠两类病；然后顺着训练时间轴分两段下药：训练早期（如前 100 epoch）开 intra-scale 频率正则，用一个随 epoch 逐渐放宽的 DCT 软径向掩码把高频成分挡在外面，逼高尺度先把低频吃透、再让低尺度逐步接管高频；当各尺度的大致频段稳定下来后，训练后期切换到 inter-scale 隐变量正则，在相邻尺度之间插一个 DWT 下采样 + \(1\times1\) 卷积对齐模块，用 L2 距离惩罚相邻隐变量过于相似，逼后一尺度只为前面没编码的频率分量花码率。关键在于：两个正则都只在训练时挂上，推理时全部摘掉，所以 DHIC-Regu 与 DHIC-Base 的参数量、KMACs、编解码时间完全一致。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x<br/>+ DHIC 4 尺度分层编解码器"] --> B["谱分析诊断<br/>定位色散与混叠"]
    B -->|训练早期| C["Intra-scale 频率正则<br/>DCT 软径向掩码截断<br/>低频→高频逐步放宽"]
    C -->|训练后期| D["Inter-scale 隐变量正则<br/>DWT+Conv1×1 对齐<br/>相邻尺度 L2 惩罚"]
    D --> E["DHIC-Regu<br/>推理摘掉正则·零额外开销"]

关键设计¶

1. 训练动力学的谱分析：把"分层为何打不过单尺度"诊断成色散与混叠

这一步是后面两味药的依据。作者量化各尺度对最终重建的贡献、计算它与输入图像的谱重叠，并把这个重叠随训练 epoch 的演化画成热力图。结果呈现两阶段规律：早期不同尺度以不同速率收敛到各自频段（高尺度对低频更敏感、收敛更快，低尺度负责高频、收敛更慢），后期各尺度稳定在某个谱范围内、彼此分离形成解耦的低到高频分布——整体大致遵循频率原则。但放大看仍有两处局部病灶：intra-scale 干扰让谱能量与高频噪声、低频干扰纠缠，并沿层级传播使末尺度频谱严重色散；inter-scale 混叠让相邻尺度频段重叠、重复编码冗余频率。作者进一步用 scale-wise 的 BPP 与 MSE 曲线佐证（Fig. 8）：朴素训练下模型持续在各尺度间反复重分配码率，尺度级码率无法稳定上升，伴随剧烈震荡和突变，越深的尺度震荡越凶，最终既多花码率又抬高失真。正是这套诊断把"优化低效"翻译成了可被频率工具处理的具体病症，两个正则才有了明确靶点。

2. Intra-scale 频率正则：用随训练放宽的 DCT 软掩码逼各尺度低到高频依次专精

针对色散病——朴素训练里每个尺度都想在整个频谱上抓信息，高尺度甚至去硬啃不擅长的高频细节，误差还反向传播污染全局。本文的解法是一个基于 DCT 的渐进频率截断：训练初期只把输入的低频成分喂进整个模型，再随 epoch 逐步加入更高频。实现上先对训练图 \(x\in\mathbb{R}^{B\times C\times H\times W}\) 做 2D-DCT 得到频谱 \(F=P_H x P_W^{\top}\)（\(P_H,P_W\) 是正交基），再用一个随时间变化的软径向掩码做截断：

\[M(u,v;t)=\max\!\left(0,\ \frac{\tau(t)-\sqrt{(u/H)^2+(v/W)^2}}{\tau(t)}\right)\]

其中 \(\sqrt{(u/H)^2+(v/W)^2}\) 是归一化频率半径，\(\tau(t)\) 是控制截止半径的调度函数，从一个很小的初值（本文 \(\tau(0)=0.05\)）线性增长到 1。截断后的频谱 \(\tilde{F}=F\cdot M(u,v;t)\) 再经 2D-IDCT 变回像素域 \(\tilde{x}=P_H^{\top}\tilde{F}P_W\) 用于训练。这样在最大感受野的顶层尺度 \(z_1\) 能在早期就把低频信息充分捕获、不把低频责任甩给后续尺度；低尺度则在低频表示的基础上逐步纳入各自该管的高频，避免高频噪声跨尺度乱窜。本质是用"低到高频"的课程式输入，迎合各尺度收敛速率与频段敏感度的差异，把频率原则从"碰运气涌现"变成"被显式引导"。

3. Inter-scale 隐变量正则：用 DWT+卷积对齐 + L2 惩罚压制尺度间谱混叠

当各尺度的大致频段稳定后，剩下的病是相邻尺度频段重叠、重复花码率。本文在相邻隐变量之间（仅训练期，推理时禁用）插一个基于离散小波变换（DWT）的卷积下采样模块：把低尺度隐变量 \(z_l\) 经 DWT 分解成频率子带，再用 \(1\times1\) 卷积跨通道线性重组，使其频率通道对齐到高尺度隐变量 \(z_{l-1}\)；然后用 L2 度量两者距离并加权进损失，逼相邻尺度的特征尽量"拉远"。最顶层尺度则与一个训练得到的初始可学习偏置先验对比。损失因此从式 \(L_{hier}\) 改写为：

\[L_{hier\_regu}=\sum_{l=1}^{L} R(z_l)+\lambda\, D(x,\hat{x})-\delta\sum_{l=1}^{L} L2\big(z_{l-1},\ \mathrm{Conv}_{1\times1}(\mathrm{DWT}(z_l))\big)\]

其中权重 \(\delta\) 固定为 0.1，注意惩罚项前是减号——它鼓励对齐后的低尺度隐变量不要去预测高尺度里已有的低频内容。这样后一尺度只会为前面尺度没表示的频率分量分配码率，从而省下重复编码冗余频谱的开销，引导模型走向更解耦、更高效的跨尺度信息分布。

损失函数 / 训练策略¶

训练分两阶段串行：前约 100 epoch 用 intra-scale DCT 截断（\(\tau\) 由 0.05 线性升到 1）稳定各尺度频段收敛；之后切到 inter-scale 隐变量正则（\(\delta=0.1\)，DWT+Conv1×1+L2）压混叠。基础率失真目标沿用式 \(L_{hier}=\sum_l R(z_l)+\lambda D(x,\hat{x})\)，支持可变码率（\(\lambda\in[64,4096]\)）。数据用 Flickr20K/DIV2K/COCO2017/ImageNet 混合集，先在 \(256\times256\) 块（batch 32）预训、再在 \(512\times512\) 块（batch 4）微调；单张 RTX 4090、Adam，学习率经 ReduceLROnPlateau 从 1e-4 降到 1e-5（微调再到 1e-6）。

实验关键数据¶

主实验¶

以 VTM-22.0 为锚点的 BD-Rate（越负越好），DHIC-Regu 在三个数据集上全面领先，且推理复杂度与 DHIC-Base 完全一致（同参数量、同 KMACs、同编解码时间）。

模型	Kodak (%)	CLIC Pro (%)	Tecnick (%)	平均 (%)
ELIC (CVPR'22)	-3.22	-3.89	-4.57	-3.89
TCM-Large (CVPR'23)	-9.97	-9.65	-13.24	-10.95
MLIC++ (ICML'23 NCW)	-11.83	-12.18	-17.25	-13.75
MambaIC (CVPR'25)	-15.12	-9.98	-13.65	-12.92
HPCM-Large (ICCV'25)	-19.19	-18.37	-22.20	-19.92
QARV (TPAMI'24, 分层)	-5.81	-6.91	-8.88	-7.20
DHIC-Base (本文, 无正则)	-9.62	-10.79	-13.06	-11.16
DHIC-Regu (本文)	-19.73	-18.13	-24.09	-20.65

相比无正则的 DHIC-Base，DHIC-Regu 相对 VTM-22.0 多省 9.49% 码率，却没引入任何额外测试复杂度；训练上 DHIC-Regu 约 3.8 天收敛，而 TCM、QARV 等通常要近 10 天，提速约 2.3×。

消融实验¶

两个正则的单独效果（Baseline 为朴素优化模型，BD-Rate 越负越好）：

配置	训练加速	BD-Rate (%)	说明
仅 Intra-Scale	1.84×	-1.07	主要加速收敛，对最终率失真提升有限
仅 Inter-Scale	0.91×	-7.66	略微拖慢收敛，但带来显著性能增益
Both（完整）	2.30×	-10.11	两者协同：又快又好

实现细节消融：intra-scale 的 DCT 调度里，\(0.05\to1.0\) 线性最佳（1.84×, -1.07%），优于不同初值与指数增长；inter-scale 里 DWT+Conv 优于普通带步长卷积（-7.66% vs -5.49%），对齐损失用 L2 优于 L1（-7.07%）与余弦相似度（-6.55%）。

关键发现¶

两个正则分工互补：intra-scale 主要管"训得快"（加速 1.84× 但单独只 -1.07%），inter-scale 主要管"压得好"（单独 -7.66% 但会略慢 0.91×），合起来产生协同——既加速 2.3× 又把增益叠到 -10.11%。
正则只在训练期挂载：DHIC-Regu 与 DHIC-Base 的参数量（106.93M）、KMACs（977.73/pixel）、编解码时间（102.46/68.48 ms）逐项相同，证明性能提升完全来自更优的训练动力学而非更大的模型。
可视化佐证解耦：朴素训练下各尺度隐变量纠缠不清、120 epoch 后才勉强出结构且有网格伪影；加正则后 40 epoch 就涌现出清晰、逐步精化、自然解耦的粗到细层级。
可迁移性：把两个正则套到代表性分层方法 QARV 上也得到类似结论（详见原文附录），说明这是分层架构的通用优化方案而非 DHIC 专属。

亮点与洞察¶

把"优化低效"翻译成可操作的频率病灶：最妙的是诊断环节——用谱重叠热力图 + scale-wise 率失真曲线，把抽象的"分层模型训不好"具体化成色散与混叠两类频率问题，于是才能对症下两味频域药。这种"先把模糊的训练问题谱分析化"的思路，可迁移到其他多尺度/分层生成模型。
训练期正则、推理零开销：两个正则都是"训练脚手架"，推理时整块摘除，因此拿到性能的同时不牺牲任何部署复杂度——这是相比"靠堆更重骨干换性能"的路线最实用的差异点。
课程式频率输入：用随 epoch 放宽的 DCT 软掩码做"低到高频"的输入课程，本质是把频率原则从"被动涌现"改成"主动调度"，这个 DCT 截断调度器很轻、几乎可即插到任意分层 codec。

局限与展望¶

两个正则切换的时机（如前 100 epoch 用 intra-scale）目前是经验设定的硬切换，并非自适应，换数据集/架构时这个时间点可能需要重调。
谱分析与正则都建立在"高尺度→低频、低尺度→高频"的频率原则假设上；若某些内容（强纹理/特定频率分布图像）不符合该假设，引导方向是否仍最优值得验证。
验证主要在自然图像基准（Kodak/CLIC/Tecnick）与自研轻量 DHIC 上；在更重的 SOTA 骨干、或医学/遥感等非自然图像域上的增益幅度尚需更多实验。
inter-scale 正则的 \(\delta=0.1\) 为固定权重，未探索随训练或随尺度自适应调权是否能进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从谱分析视角重新诊断分层压缩的优化病灶，并给出对症的频域训练期正则，角度新颖且自洽。
实验充分度: ⭐⭐⭐⭐ 三数据集主实验 + 单独/实现两套消融 + QARV 迁移验证较完整，但缺重骨干与非自然图像域的检验。
写作质量: ⭐⭐⭐⭐⭐ "诊断→分阶段下药"的叙事清晰，谱热力图与 scale-wise 曲线把动机讲得很有画面。
价值: ⭐⭐⭐⭐⭐ 训练期零推理开销即拿 2.3× 提速 + SOTA 码率，且方法可迁移到现有分层 codec，实用价值高。