Autoregressive-based Progressive Coding for Ultra-Low Bitrate Image Compression¶

会议: ICLR 2026
OpenReview: FXu4G5T5QZ
代码: https://github.com/Joanna-0421/ARPC
领域: 图像压缩 / 图像恢复 / 视觉自回归
关键词: 超低比特率压缩, 视觉自回归(VAR), 渐进式编码, 残差量化, 无损熵编码

一句话总结¶

ARPC 把视觉自回归模型 VAR 的「下一尺度预测」拿来做超低比特率图像压缩：编码端用多尺度残差量化器把图像拆成 K 套从粗到细的离散 token，只传前 k 套、其余由 VAR 自回归生成补齐，从而单模型就能连续调码率；再用 VAR 当概率估计器做无损算术编码、用分组掩码量化器进一步省比特，在 <0.05 bpp 下感知质量超过 13 个扩散/token 基线，解码还快 2∼6×。

研究背景与动机¶

领域现状：超低比特率（ultra-low bitrate，常 <0.05 bpp）图像压缩这两年被生成模型主导。GAN 和扩散模型靠强大的内容生成与纹理补全能力，在码率-失真-感知（rate-distortion-perception）目标下保住人眼可感的细节，其中扩散方案（PerCo、DiffEIC、DiffPC 等）感知质量已全面压过 GAN。

现有痛点：扩散类方法有三个老大难。其一码率适应性差：绝大多数走「一个码率训一个模型」（one-model-per-rate），真实动态传输环境里没法平滑切码率。其二编解码复杂度高：即便近期用预训练扩散 + 反向信道编码（reverse channel coding）做渐进编码，扩散固有的多步迭代去噪仍带来不可避免的高延迟。其三依赖共享随机性：反向信道编码要求收发双方共享同一份随机数，这在现实里并不总能满足。

核心矛盾：扩散模型天然是「一次性从噪声还原整张图」的连续生成器，它既不是天生的分层渐进结构，又因连续隐空间而依赖共享随机性。要的是「先传关键、后补细节」的可分层、可截断、且不依赖随机性的离散表示——这正是扩散范式不擅长的。

本文目标：用单个模型支持任意码率（渐进可截断）、解码要快、且不需要共享随机性。

切入角度：作者注意到视觉自回归模型 VAR 的「下一尺度预测」用多尺度残差量化器把图像编成离散的、层级化的视觉 token，再从粗到细自回归地逐尺度预测。第一关键洞察是：这种 coarse-to-fine 范式天然就等于完美的码率适应——先传布局这类粗但关键的信息，再逐步叠加细纹理。相比扩散，VAR 还多两个好处：生成更快、收发双方无需共享随机性（因为隐空间已离散化）。

核心 idea：把图像压缩重写成 VAR 的自回归生成过程——「只传前 k 个尺度的 token、剩下 K−k 个尺度让 VAR 自己生成」，截断 k 的位置就是码率旋钮；再把 VAR 复用成熵编码的概率估计器、并用分组掩码压紧早期尺度，把压缩比榨到极致。

方法详解¶

整体框架¶

ARPC 是一个建立在「下一尺度预测」VAR 之上的渐进式图像压缩框架。编码端把输入图像 \(x\) 经图像编码器得到特征图 \(F\in\mathbb{R}^{h\times w\times c}\)，再用按位多尺度残差量化器（bitwise multi-scale residual quantizer）量化成 \(K\) 个分辨率由小到大的残差 token 图 \((R_1,\dots,R_K)\)；其中按位量化把每个 \(c\) 维向量映射成 \(c\) 位二进制码（正为 1、否则为 0），\(r_{i,j}=\frac{1}{\sqrt c}\,\mathrm{sign}(r_{i,j})\)，于是 token 天然就是比特流。早期尺度承载布局、颜色等结构信息，越往后越补细节，累积重建 \(F_k=\sum_{i=1}^k \mathrm{upsample}(R_i)\) 随 \(k\) 增大逐渐逼近 \(F\)。

发送时只传前 \(k\) 个尺度的 token（外加一句 BLIP2 生成的图像 caption 作全局语义上下文），码率由 \(k\) 决定；接收端拿到 \(R_{\le k}\) 当前缀，用 VAR 经 \(K-k\) 步自回归把缺的 \(\hat R_{>k}\) 生成出来，全部尺度上采样到同分辨率拼接后送图像解码器 \(D\) 得重建 \(x_k=D(R_1,\dots,R_k,\hat R_{k+1},\dots,\hat R_K)\)。在这条主干上再叠两层提压缩比的设计：用 VAR 当概率估计器对传输的 token 做无损算术编码（LRE），以及用分组掩码量化器（GM-BMSRQ）把早期尺度压进更小的特征空间；训练时还用尺度随机丢弃（SRD）增强早期尺度的语义承载力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x<br/>+ BLIP2 caption"] --> B["分组掩码多尺度残差量化器<br/>GM-BMSRQ：编成 K 套残差 token"]
    B -->|"只传前 k 尺度<br/>(k 决定码率)"| C["VAR 概率估计 + 无损算术重编码<br/>LRE：再压约 30%"]
    C -->|"信道传输 比特流 + caption"| D["接收端：算术解码还原前 k 尺度"]
    D --> E["渐进式自回归生成<br/>VAR 补出 K−k 个尺度"]
    E --> F["图像解码器 D<br/>拼接全尺度 → 重建 x_k"]

关键设计¶

1. 渐进式自回归编解码框架：把「传前 k 尺度、生成剩余尺度」当码率旋钮

这一设计直接打掉扩散类「一码率一模型」和「依赖共享随机性」两大痛点。机制上，按位多尺度残差量化器把图像编成 \(K\) 套从粗到细的离散 token，发送端只挑前 \(k\) 套传输，接收端把它们当前缀、由 VAR 做 \(K-k\) 步自回归预测补全 \(\hat R_{>k}\)——解压被自然地写成了 VAR 的生成过程。截断点 \(k\) 越大码率越高、质量越好，所以单个模型靠改 \(k\) 就能覆盖连续码率，无需重训。为何有效：作者给出失真上界定理 3.1，证明只传前 \(k\) 尺度的重建失真 \(\mathbb E[D_k]\) 被两项控制——\(\mathbb E[D_k]\le \mathbb E[D_K]+C\cdot\mathbb E_{R_{\le k}}\big[D_{\mathrm{KL}}(p(R_{>k}|R_{\le k})\,\|\,p_\theta(R_{>k}|R_{\le k}))\big]\)，即「全 token 重建误差」加「VAR 预测分布与真实分布的 KL」。这把训练干净地拆成两阶段：先训编/解码器+量化器压第一项，再训 VAR 压 KL 项。又因隐空间已离散化，收发双方不必共享随机数。

2. 分组掩码多尺度残差量化器（GM-BMSRQ）：按尺度内容自适应砍通道

这一设计针对「早期尺度本就低频、却仍占满 \(c\) 比特」的浪费。作者先观察到 \(K\) 个尺度有清晰层级、可粗分三组：前 4 个尺度是大色块（确定宏观配色），中间 5 个尺度勾出物体轮廓但边缘还糊，最后 4 个尺度才补精细纹理。既然早期尺度是低频、信息可压进更小空间，受乘积量化（product quantization）启发，GM-BMSRQ 对早期组按通道维度上掩码：第一组掩掉后 \(c/2\) 个通道（置 -1 设为 inactive bit）、第二组掩掉后 \(c/4\) 个通道，从而同时在分辨率和通道两个维度压紧前两组，只在该承载细节的后期尺度才放开全部比特。实现上三组通道维分别配成 8、12、16。这等于按每个尺度的内容量自适应分配比特，超低码率下进一步省下传输量而几乎不掉质量。

3. VAR 概率估计 + 无损算术重编码（LRE）：把生成模型复用成熵编码器

这一设计冲着「按位 token 的比特并非均匀分布、可再压」去。以往（如 PerCo）假设 token 索引服从均匀分布做熵编码，但按位量化的索引 \(y_k(i,j)=\sum_{n=0}^{c-1}\mathbb 1_{R_k(i,j,n)>0}\,2^n\) 每一位都承载语义、依赖上文，并不是 0/1 各半。关键观察是：VAR 的训练目标本就是「在给定前序尺度条件下精确预测这个分布」——它的 \(c\) 个二元分类器给出 \(p_k(i,j)\in\mathbb R^{c\times 2}\)，恰好是高精度的概率估计。于是把 VAR 当概率估计器，按自回归顺序（从 <SOS> 预测 \(p_1\) 编 \(y_1\)，再条件于前序尺度逐尺度编下去）配算术编码做无损重压。解压分两段：先复现同样的概率预测 + 算术解码无损还原前 \(k\) 尺度，再用 classifier-free guidance 生成后 \(K-k\) 尺度。实测仅此一项就再降约 30% 码率而画质几乎无损。

4. 尺度随机丢弃（SRD）：逼早期尺度多扛语义

这一设计补的是超低码率下的致命问题：已有工作指出图像语义集中在最后几个尺度，若只传前几个尺度，接收端拿到的有效信息太少、重建质量崩。SRD 在第一阶段训练时以概率 0.2、从第 4 个尺度起随机丢弃后续尺度，强迫网络把更多语义压进早期尺度的 token。这样在只传前几尺度的超低码率下，仍能保住基本结构、配色乃至屋顶花纹这类细节——是个纯训练侧、零推理开销的鲁棒性增强。

损失函数 / 训练策略¶

两阶段训练对应定理 3.1 的两项。第一阶段训图像编码器、解码器与 GM-BMSRQ 量化器，最小化全 token 重建失真：\(\mathcal L_{\text{first}}=\mathcal L_{\text{rec}}+\mathcal L_{\text{per}}+\mathcal L_{\text{dis}}+\mathcal L_{\text{commit}}+\mathcal L_{\text{entropy}}\)（\(L1\) 重建 + 感知 + 判别器 + 隐空间 commit + 按位量化熵损失），先在 256×256 上训 500k 步，再在 256/512/1024 混分辨率上训 300k 步，SRD 概率 0.2、从第 4 尺度起。第二阶段冻结编/解码器，用 Infinity-2B 当 VAR，以最小化 \(\mathcal L_{\text{VAR}}=-\sum_{i=1}^K \log p_\theta(R_i|R_{<i})\) 微调 20k 步（AdamW，batch 64，lr \(6\times10^{-5}\)，1024×1024，InternVL 2.0 重写 caption），全程 8× H20。

实验关键数据¶

主实验¶

数据：训练用 Coyo-700M 经多级清洗（>1024² 分辨率、OCR 去字、InternVL 2.0 重写 caption）得 5M 高质图；评测在 DIV2K-val（100 张）与 CLIC2020（428 张），中心裁到 1024×1024，caption 由 BLIP2 生成。
基线/指标：对比 13 个 SOTA（VAE 类 ELIC/MS-ILLM、扩散类 DiffEIC/DiffPC/RDEIC/ResULIC/StableCodec/OSCAR、渐进扩散 DiffC、token 类 VQGAN/GLC/DLF），6 个感知指标（LPIPS、DISTS、PIEAPP、CLIP Score、FID、KID）。
结论：在所有数据集、几乎所有码率下感知指标领先，FID/KID 上对全部基线优势尤其明显（统计保真度强）；对渐进式扩散 DiffC 全码率胜出且无需共享随机性。

下表为 CLIC2020（1024×1024）上的推理效率与 BD-rate（以 ARPC 为参照 0）：

方法	步数	编码(s)	解码(s)	BD-rate(%)	FID	DISTS	PIEAPP
PerCo	20	0.20	10.25	1167.35	882.09	2744.75	—
DiffEIC	50	0.65	15.98	681.76	139.64	100.75	—
DiffPC	50	0.17	23.66	93.90	20.49	16.52	—
RDEIC	6	0.31	4.18	523.52	1469.67	761.27	—
StableCodec	1	0.42	1.11	0.1547	6.99	254.42	—
DiffC	—	3.63∼45.22	13.63∼37.25	674.37	59.62	117.11	—
ARPC	13	1.8∼6.2	5.39	0	0	0	—
ARPC (w/o LRE)	13	0.20	5.39	34.64	34.58	34.38	—

表中 FID/DISTS 等列为按对应指标算的 BD-rate（相对 ARPC 的百分比，越大越差）。解码上 ARPC 仅 5.39s，比 PerCo 快约一倍、比 DiffC 快 2∼6×；解码步数固定 13，时延确定（不像 DiffC 是一段可变区间）。编码时延随码率上升（要为前 k 尺度预测概率做算术编码），但低码率下 token 少、开销极小。

消融实验¶

配置	影响	说明
Full ARPC	—	完整模型
w/o LRE	码率 ↑ ~30%	去掉算术编码、直接传 GM-BMSRQ 二进制码；画质几乎不变，但编码时间从变长降到仅 0.2s（无需自回归概率预测）
w/o SRD	低码率感知指标显著变差	去掉尺度随机丢弃后，<0.01 bpp 下结构/配色都难保，高码率细节也变糊
w/o GM-BMSRQ	码率明显 ↑	把 BMSRQ 通道固定 16 不做分组掩码，超低码率下比特数明显上升

关键发现¶

LRE 是「免费午餐」：仅靠把 VAR 当概率估计器做无损算术编码就再省约 30% 码率且不掉画质；代价是编码时延（低码率下仍很小）。
SRD 决定超低码率下限：语义本集中在末尾尺度，不靠 SRD 把语义往前压，只传前几尺度时接收端几乎拿不到有用信息。
GM-BMSRQ 在 ultra-low bitrate 段收益最大：早期尺度是低频信息，掩通道几乎不损质量却显著降比特。
优于 token 类基线的根因：ARPC 用更大的码本覆盖更全图像特征、靠传不同数量的尺度（而非缩小码本词表）来控码率，再加 VAR 精确预测索引分布提压缩比。

亮点与洞察¶

范式迁移很漂亮：把「下一尺度预测」的 coarse-to-fine 直接等价成「渐进可截断的码率旋钮」，一个 idea 同时解掉码率适应、解码慢、依赖共享随机性三件事——这种「重述任务而非堆模块」的视角值得借鉴。
一物三用的 VAR：同一个 VAR 既是缺失尺度的生成器、又是熵编码的概率估计器，把生成先验和熵建模统一在一个模型里，省掉了独立熵模型。
可迁移 trick：GM-BMSRQ 的「按内容/频率分组掩通道」可搬到其他多尺度离散表示压缩；SRD 这种「随机丢后段、逼前段扛语义」的训练法对任何分层渐进表示都可能涨低码率鲁棒性。
理论兜底：定理 3.1 把失真上界拆成「重建误差 + KL」，干净地解释了为什么要两阶段训练，而不是经验式拼损失。

局限与展望¶

依赖大体量 VAR 先验：第二阶段直接用 Infinity-2B，解码 5.39s 虽快过多数扩散法，但相对一步扩散（StableCodec 1.11s）仍慢，且 2B 模型对端侧部署不友好。
编码时延随码率变动：高码率下要为更多尺度做自回归概率预测，编码可达 6.2s，对实时/对称编解码场景不算理想。
评测偏感知质量：6 个指标都偏感知/统计保真，没系统报 PSNR 等失真指标，对「保真优先」场景的适用性需进一步看。
caption 依赖外部模型：需 BLIP2/InternVL 生成 caption 当语义条件，caption 质量与额外比特开销对极端低码率的影响值得单独评估。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把「下一尺度预测」VAR 系统用于超低码率压缩，并一举解掉码率适应/解码慢/共享随机性三难。
实验充分度: ⭐⭐⭐⭐⭐ 13 基线 ×6 感知指标 ×2 数据集，含效率/BD-rate 与三项消融，证据链完整。
写作质量: ⭐⭐⭐⭐ 框架与失真上界讲得清楚；个别符号/图注（如 BD-rate 列含义）需对照原文。
价值: ⭐⭐⭐⭐⭐ 给生成式压缩开了一条「自回归 + 渐进可截断」的新路线，单模型多码率且解码更快，实用性强。