Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models¶
会议: ICML 2026
arXiv: 2603.07615
代码: 有 (官方)
领域: 图像生成/视觉压缩
关键词: 隐式表示, 扩散模型, 视觉压缩, LoRA, 推理时缩放
一句话总结¶
将视觉信号编码为冻结扩散基础模型上的低秩适配参数(LoRA),并通过哈希映射压缩为单个紧凑向量,在极低码率下实现强感知质量的视频压缩,同时支持推理时缩放和生成式编辑。
研究背景与动机¶
领域现状:大规模视觉生成模型(如 Wan-2.1、Qwen)通过海量数据训练获得了丰富的视觉知识,但视觉信号本身仍以像素、潜变量或 token 等外部显式表示存在,无法直接利用模型内部学到的先验知识。传统视频压缩(H.265/H.266)和神经编解码器通过 VAE 将信号编码为显式潜码,信号特定信息完全存储在潜码中,解码器跨信号共享但不包含信号信息。
现有痛点:隐式神经表示(INR)虽然能将信号参数化为小型 MLP,但这些网络从零训练,与大规模预训练模型的视觉知识完全脱耦,压缩能力受限。即使近期有将 INR 与扩散过程结合的工作,仍无法真正利用基础模型中编码的高层语义先验。
核心矛盾:显式表示将"信号是什么"和"模型知道什么"割裂开来,导致表示冗余——模型已经"知道"自然图像/视频长什么样,但压缩时无法利用这些知识。
本文目标:不再压缩"视觉信号是什么",而是压缩"如何生成该视觉信号"——将视觉信号表示为扩散模型的生成函数,用最少的参数偏差描述从预训练模型到目标信号的适配过程。
核心 idea:用 LoRA 对冻结扩散模型做单样本微调,将适配参数通过伪随机哈希映射到单个向量 \(\mathbf{v} \in \mathbb{R}^{1 \times k}\),再施加熵约束量化,实现 81 帧视频压缩为一个紧凑向量。
方法详解¶
整体框架¶
输入一个视觉信号 \(x\)(如 81 帧 480p 视频),先用 VLM(如 GPT-5.1)生成详细描述 \(c\) 作为条件。然后在冻结的视频扩散模型上,以 flow-matching 目标 \(\mathcal{L}_{\text{FM}}(\theta) = \mathbb{E}_{t,\epsilon}[\|v_\theta(x_t, t) - (\epsilon - x)\|^2]\) 对 LoRA 参数做单样本过拟合。优化后的 LoRA 参数通过 PRNG 驱动的哈希映射压缩为单向量 \(\mathbf{v}\),再经量化 + 熵编码得到最终码流。解码端用同一基础模型 + 解码后的 \(\mathbf{v}\) 恢复 LoRA 权重,通过 ODE/SDE 采样重建视频。
关键设计¶
-
单向量适配(One-Vector Adaptation):
- 功能:将所有层的 LoRA 参数压缩为一个共享向量,大幅降低参数量
- 核心思路:对每个预训练权重矩阵 \(\mathbf{W}_0 \in \mathbb{R}^{m \times n}\),LoRA 引入 \(\Delta\mathbf{W} = \mathbf{AB}\)(\(r \ll \min(m,n)\))。但大模型层数多,总 LoRA 参数仍然可观。借鉴哈希技巧(Chen et al., 2015),用 PRNG 生成固定随机投影,将所有层的 LoRA 参数映射到单个共享向量 \(\mathbf{v} \in \mathbb{R}^{1 \times k}\),强制跨层参数共享。再引入可学习缩放参数 \(s\) 归一化后做均匀量化(训练时用加性均匀噪声替代取整),用分解熵模型估计码率,约束至每参数 1-3 bit
- 设计动机:实现极低码率压缩——一个 81 帧视频仅需一个向量表示,标题/熵模型参数开销不到总码率的 1%
-
推理时缩放(Inference-Time Scaling):
- 功能:在不改变压缩表示的前提下,利用额外解码计算提升重建质量
- 核心思路:编码端使用 SDE 公式做去噪,每步通过共享 PRNG 生成 \(M\) 个候选粒子。编码端拥有原始信号 \(x\),可计算最优去噪核 \(p^*(x_{t_{n-1}}|x_{t_n})\),以此为目标对模型预测核 \(p(x_{t_{n-1}}|x_{t_n})\) 做重要性采样,选择权重 \(w^{(m)} \propto p^*(x_{t_{n-1}}^{(m)})/p(x_{t_{n-1}}^{(m)})\) 最大的粒子。只需传输每步的选择索引(少量侧信息),解码端用相同 PRNG 即可复现。沿两个轴缩放:每步候选数(仅影响编码)和去噪步数(影响编解码)
- 设计动机:函数式表示的独特优势——表示本身是生成过程的一部分,编码后仍可控制和优化,这是传统显式编解码器做不到的。缩放等价于相对熵编码(Diff-C),用适配后的扩散模型作为更强先验降低编码复杂度
-
最小描述长度(MDL)训练目标解释:
- 功能:从信息论角度证明训练目标自然寻找最简生成函数
- 核心思路:预训练模型在 SDE 轨迹空间上定义路径测度 \(\mathbb{P}\),适配模型定义 \(\mathbb{P}'\)。压缩的最优目标是 \(\min_{\mathbb{P}'} D_{\text{KL}}[\mathbb{P}' \| \mathbb{P}]\) 使得终态 \(x_0 = x\),其最优解是 \(\mathbb{P}\) 在终态条件下的 Doob's-\(h\) 变换。当预训练模型完美时,flow-matching 目标的最小化恰好恢复该解
- 设计动机:为"压缩即适配"提供理论支撑——隐式表示只需编码与预训练模型的最小偏差,天然利用模型先验
实验关键数据¶
主实验:UVG 感知视频压缩¶
| 方法 | 码率 (bpp) | DISTS ↓ | FVD ↓ | PSNR ↑ |
|---|---|---|---|---|
| H.265/HM | ~0.015 | 较高 | 较高 | ~30 |
| H.266/VTM | ~0.015 | 中等 | 中等 | ~32 |
| DCVC-RT (MSE) | ~0.012 | 中等 | 中等 | ~31 |
| GLC-Video (感知) | ~0.012 | 中等 | 中等 | ~28 |
| VOV (本文) | ~0.011 | 最优 | 最优 | ~24 |
| VOV + Scaling | ~0.011 | 更优 | 更优 | ~26 |
VOV 在 DISTS 和 FVD 感知指标上显著优于所有基线,尤其在极低码率下视觉质量远超传统编解码器。PSNR 偏低是因为生成式重建优先保证感知质量而非像素精确对齐。
消融实验:推理时缩放策略¶
| 缩放配置 | 去噪步数 | 每步候选数 | DISTS ↓ | 效果 |
|---|---|---|---|---|
| 无缩放 (ODE) | 50 | 1 | 基线 | 无改善 |
| 仅增步数 | 100 | 1 | ≈基线 | 几乎无效 |
| 多候选 + 少步 | 100 | \(2^{18}\) | 显著提升 | 仅编码端增加计算 |
| 多候选 + 多步 | 1000 | \(2^{10}\) | 显著提升 | 编解码端均增加计算 |
关键发现¶
- 单向量维度 \(k\) 与 LoRA 秩的非直觉交互:固定向量大小时,增大 LoRA 秩反而导致重建质量下降——高秩适配引入更密集纠缠的参数更新,在固定大小哈希方案下难以保留
- 推理时缩放的两条路径可互换:将每步候选数从 \(2^{10}\) 增到 \(2^{18}\) 的增益,与简单地将去噪步数翻倍的增益相当,但后者需更多网络评估
- 纯缩放(无适配)也可压缩:直接用原始预训练模型做推理时缩放也能实现强压缩,但编解码成本高得多;LoRA 适配使解码轻量化
- 压缩与生成的统一:适配后的模型可通过修改文本提示实现个性化编辑(改颜色、合并图像、改分辨率),但可能引入训练数据偏差(如改发色时面部特征也变化)
亮点与洞察¶
- "压缩即适配"的范式转换:将压缩问题重新定义为在预训练模型上的最小偏差适配,天然利用基础模型的视觉先验。这个思路可迁移到任何有强预训练模型的模态(音频、3D 等)
- 函数式表示的可控性:与固定码流不同,隐式表示编码后仍可通过推理时缩放、早停等手段调控输出质量——这为"编码一次,多种质量解码"提供了可能
- 哈希映射实现极致压缩:用 PRNG 生成的固定随机投影将数千维 LoRA 参数映射到单个向量,概念简洁但效果惊人——81 帧视频变成一个向量
局限与展望¶
- 受限于基础模型能力:重建时偶尔出现语义不匹配(特别是视频中的文字),模型容量直接决定压缩上限
- 编码速度慢:单样本过拟合 + 推理时缩放使编码成本较高,与 INR 类方法有相同痛点
- 哈希映射的局限:随机投影可能无法有效捕获适配参数间的相关性,学习式的均摊编码器/解码器(向量↔LoRA)是明确的改进方向
- 个性化编辑存在偏差:修改提示词时可能引入训练数据中的统计偏差(如种族关联),需要更好的解耦方法
相关工作与启发¶
- 隐式神经表示(INR)压缩:NVRC 等用小型 MLP 参数化信号,本文将"网络"替换为大模型上的适配参数,继承 INR 的函数式优势同时引入预训练先验
- LoRA 个性化生成:DreamBooth/Custom Diffusion 用 LoRA 做概念定制,本文发现同一机制也是有效的压缩手段,揭示了生成与压缩的深层统一
- Diff-C / 相对熵编码:推理时缩放算法与 Diff-C 等价,用适配后的扩散模型作为更强先验减少编码代价
- 均摊推断:学习从向量到 LoRA 的均摊解码器是关键未来方向,可同时加速编码和提升压缩率