Latent-Compressed Variational Autoencoder for Video Diffusion Models¶

会议: CVPR 2026
arXiv: 2604.16479
代码: https://1mather.github.io/LC-VAE/ (项目主页)
领域: 视频生成 / 扩散模型 / VAE
关键词: 视频VAE, 隐空间压缩, 3D小波变换, 频域分析, 隐扩散模型

一句话总结¶

针对视频 VAE「隐空间通道一多就拖慢扩散收敛、又不能直接砍通道（会掉重建质量）」的两难，LC-VAE 在隐空间做多级 3D 小波变换、只保留低频子带、把高频子带直接置零，在同等压缩比下重建质量超过强基线 WF-VAE（WebVid-10M 上 PSNR 提升 0.81~1.82 dB），且让下游扩散模型生成更好。

研究背景与动机¶

领域现状：隐扩散模型（LDM）的成功范式是先用一个自编码器（VAE）把图像/视频压进紧凑的隐空间，扩散过程在隐空间里跑以降低计算量。视频生成（Sora、CogVideoX、Open-Sora、MovieGen 等）沿用这一范式，隐空间的设计因此成了核心研究点。

现有痛点：视频 VAE 通常需要「足够多」的隐通道才能保证高质量重建。但近期研究发现，隐通道一多会带来两个坏处——一是扩散模型的隐搜索空间变大、训练更难收敛、生成质量反而下降（即便重建质量还很高）；二是高通道的隐表示里塞了大量杂乱无章的高频成分，这与扩散「由粗到细」的合成本性相冲突。作者还观察到（Fig. 2）：把 WF-VAE 的通道数从 4 加到 32，重建 PSNR 的增益越来越小，说明隐表示里有大量冗余可以再压。

核心矛盾：「想压缩隐空间降低扩散难度」与「直接砍隐通道会显著掉重建保真度」之间存在 trade-off。直接减通道是最朴素的压缩手段，但它一刀切地损失信息。

本文目标：在不减少隐通道数的前提下进一步压缩视频隐表示，既降维去冗余、又不牺牲重建质量，还能让下游扩散训练更稳。

切入角度：作者不去改 VAE 架构或拆 content/motion，而是直接分析 VAE 自己学出来的隐表示的频率结构。对 WF-VAE 隐表示做 3D Haar 小波分解后（Fig. 3）发现：低频子带能量高、帧间时序自相关强（承载视频的结构信息），高频子带则能量低、杂乱无序（主要是纹理/噪声）。更关键的是，从隐空间里去掉高频会让重建严重恶化（Fig. 8），说明基线隐表示对高频「过度敏感」、不够鲁棒——这本身就是隐表示没学好的信号。

核心 idea：用「在隐空间里做小波分解、只留低频子带、把高频子带置零」来代替「直接砍通道」实现隐压缩，强迫编码器只专注于扩散友好、压缩高效的低频结构信息，把高频细节的恢复甩给解码器。

方法详解¶

整体框架¶

LC-VAE（Latent-Compressed VAE）的骨架完全沿用主基线 WF-VAE（同样的 3D 因果卷积编解码器），只在隐空间里插入一对「压缩—重建」算子。输入视频 \(v \in \mathbb{R}^{C\times T\times H\times W}\) 先经编码器得到隐表示 \(z=E(v)\)；接着对 \(z\) 做多级 3D Haar 小波变换（Multi-WT），把隐表示分解成不同频率的子带；只保留低频子带 \(\{LLL, LLH, LHL, HLL\}\)、把其余高频子带直接置零——这样只需存非零子带，得到约「原尺寸 50%、却保留约 85% 能量」的压缩隐表示，扩散过程就在这个压缩子空间里跑。生成（或重建）时，把采样到的低频隐表示用零填充补齐高频位置，经多级逆小波变换（Multi-IWT）还原回 \(\tilde z\)，再送进解码器 \(\tilde v=D(\tilde z)\) 重建视频。整个压缩—重建是和 VAE 一起端到端训练的，这点是它区别于「事后压缩」的关键。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入视频 v"] --> B["编码器 E<br/>得到隐表示 z"]
    B --> C["频域分析动机<br/>低频=结构 / 高频=噪声冗余"]
    C --> D["隐空间小波压缩<br/>Multi-WT → 留低频<br/>高频子带置零"]
    D -->|压缩子空间 内| E["扩散模型<br/>在低频隐空间去噪"]
    E --> F["零填充 + Multi-IWT<br/>还原 z~"]
    F --> G["解码器 D<br/>重建视频 v~"]
    C -.端到端联合训练.-> G

关键设计¶

1. 频域分析：先证明「低频承载结构、高频是冗余噪声」

这是全文的立论根基，回答「凭什么能扔掉高频」。作者对 WF-VAE 编码出的视频隐表示 \(z=E_\theta(v)\) 做一级 3D Haar 小波变换，得到 8 个频率子带，再用两把尺子量它们：能量分布、以及帧间 lag-1 时序自相关（衡量相邻帧间信号的线性依赖、即时序连续程度）。结果（Fig. 3）很干脆——低频子带（\(B_{LLL}, B_{LLH}, B_{LHL}\)）能量显著更高、时序自相关也明显更强，说明它们装的是随时间平滑演化的视频结构信息；高频子带则能量低、跨通道分布杂乱无序，装的是纹理和噪声这类细节。由此作者提出假设：结构信息可以高效压进隐表示，而细节纹理的恢复可以「外包」给解码器（以低频内容为条件去补）。这一假设直接决定了后面「只留低频」的合法性。

2. 隐空间小波压缩：在 latent 上做小波、置零高频，而不是砍通道

针对「直接减通道会掉保真度」的痛点，LC-VAE 改为对隐表示 \(z\) 施加多级 3D Haar 小波变换 \(B^{(\ell)}_{abc}=B^{(\ell-1)}\circledast(\xi_a\otimes\xi_b\otimes\xi_c)\)（\(\xi\in\{\phi,\psi\}\) 为低/高通滤波器，\(B^{(0)}=z\)），然后做一个固定的硬置零：

\[\tilde B^{(\ell)}_{abc}=\begin{cases}B^{(\ell)}_{abc}, & abc\in\{LLL,LLH,LHL,HLL\}\\ 0, & \text{其余（高频）}\end{cases}\]

只留 4 个低频子带、其余高频全置零。解码前再零填充高频位置、逆变换回 \(\tilde z=W^{-1}(\{\tilde B^{(\ell)}_{abc}\})\) 给解码器。这个「固定置零」是经典压缩思想（类似 JPEG 丢高频系数）的直接搬用，作者在附录里验证它已逼近数据驱动的自适应选择策略，所以不需要额外可学习参数或超参。它和「砍通道」的本质区别在于：砍通道是在所有频率上一刀切地损失信息，而这里是有选择地只丢掉「能量低、对重建贡献小、且对扩散有害」的高频，从而在同等压缩比下保住重建质量、同时给扩散一个更干净的低频隐空间——因为扩散本性偏好低频数据。

3. 联合训练：让压缩在训练时就发生，逼编码器学鲁棒低频表示

光有压缩算子还不够——如果把压缩硬套到一个已训练好的 VAE 上，效果会很差。作者用 PTLC（post-training latent compression）做对照实验证实了这一点：对预训练 WF-VAE 的隐表示同样做三级小波、置零高频，重建质量大幅崩坏（Fig. 8 出现明显伪影）。原因是预训练隐表示里高频是杂乱非结构化的、解码器也从没被训练去补这些细节。LC-VAE 因此把小波压缩—重建嵌进 VAE 的训练全程：编码器在训练时就被强迫「只能把信息塞进低频子带」，解码器则学会以低频为条件去恢复高频纹理。这样编码器学到的低频表示更鲁棒、泛化更好（论文观察到 zero-shot 跨数据集 PSNR 掉得更少）。损失函数完全沿用 WF-VAE，无需为此新增项。

损失函数 / 训练策略¶

损失沿用现有工作与 WF-VAE 的设置：\(L=L_{recon}+\lambda_{adv}L_{adv}+\lambda_{KL}L_{KL}\)，分别为 L1 重建损失、对抗损失、KL 正则。训练上比 WF-VAE 更简单：WF-VAE 用三阶段训练，LC-VAE 只用单阶段、固定损失与超参；AdamW（\(\beta_1=0.9,\beta_2=0.999\)）、固定学习率 \(1\times10^{-5}\)，在 Kinetics-400 上训 200,000 步，8 张 H200 约 5 天。去噪模型用 Latte-L 训 100,000 步。

实验关键数据¶

主实验：重建质量（Table 1，节选 WebVid-10M / Panda-70M）¶

所有方法 token 压缩率（TCPR）同为 256（4×8×8），对比同通道数下 LC-VAE 与 WF-VAE。

数据集	通道	方法	PSNR↑	SSIM↑	LPIPS↓	rFVD↓
WebVid-10M	4	WF-VAE	30.68	0.9071	0.0344	179.13
WebVid-10M	4	LC-VAE	31.49	0.9207	0.0249	165.88
WebVid-10M	8	WF-VAE	31.96	0.9281	0.0242	101.06
WebVid-10M	8	LC-VAE	33.78	0.9208	0.0211	135.99
WebVid-10M	16	WF-VAE	34.62	0.9301	0.0193	68.72
WebVid-10M	16	LC-VAE	35.59	0.9439	0.0152	73.66
Panda-70M	8	WF-VAE	32.41	0.8982	0.0348	156.95
Panda-70M	8	LC-VAE	33.64	0.9447	0.0165	93.89

LC-VAE 在 PSNR 上一致领先：WebVid-10M 上对 4/8/16 通道分别高出 0.81 / 1.82 / 0.97 dB。少数指标（如 16 通道的 rFVD）略逊，但主线 PSNR/LPIPS 普遍更优。

零样本泛化（Table 2，节选 OpenVid-1M）¶

在训练时没见过的数据集上做 zero-shot 重建，验证「低频表示更鲁棒」的假设。

数据集	通道	方法	PSNR↑	SSIM↑	LPIPS↓
OpenVid-1M	8	WF-VAE	34.20	0.9066	0.0311
OpenVid-1M	8	LC-VAE	35.27	0.9253	0.0172
OpenVid-1M	16	WF-VAE	36.28	0.9332	0.0167
OpenVid-1M	16	LC-VAE	37.06	0.9463	0.0123

论文指出 WF-VAE 在未见数据集上 PSNR 会掉 0.5–1.5 dB，而 LC-VAE 掉得更少、跨数据集更稳。

消融：联合训练 vs 事后压缩（Table 4，WebVid-10M）¶

PTLC = 对预训练 WF-VAE 做事后小波压缩（16/8 通道压成等效 8/4 通道）。

方法	通道	PSNR↑	SSIM↑	LPIPS↓
WF-VAE (PTLC)	8	29.24	0.8393	0.0675
LC-VAE	8	31.49	0.9207	0.0249
WF-VAE (PTLC)	16	30.49	0.8725	0.0545
LC-VAE	16	33.78	0.9208	0.0211

事后压缩 PSNR 比联合训练低 2~3 dB 以上，证明「压缩必须在训练时就纳入」是质量关键。

视频生成（Table 3，Latte 去噪，FVD16↓ / IS↑）¶

方法	通道	SkyTimelapse FVD16↓	UCF-101 FVD16↓	UCF-101 IS↑
WF-VAE	4	198.87	565.80	61.19
LC-VAE	4	240.56	509.76	70.71
WF-VAE	8	213.23	687.60	60.57
LC-VAE	8	201.24	654.96	66.72
WF-VAE	16	195.94	721.43	52.66
LC-VAE	16	187.68	735.04	54.89

关键发现¶

8 通道是甜点：WebVid-10M 上 8 通道 PSNR 提升最大（+1.82 dB），说明 LC-VAE 在中等通道数下「去高频冗余」的收益最显著。
联合训练不可省：PTLC 消融显示，同样的小波置零操作，事后套到预训练模型上会掉 2~3 dB，必须端到端一起训。
SkyTimelapse 4 通道反例：该数据集多为静态视频、本身高频就少，基线用更紧凑隐空间已够用，LC-VAE 在此场景无优势（FVD 反而更高）——一个诚实的失败案例。

亮点与洞察¶

「压缩不等于砍通道」这一视角很巧：把隐压缩从「减维度」重新表述成「减频率」，绕开了砍通道掉保真度的死结，是可复用的思路——任何「通道冗余」问题都可考虑先做频域分解再选择性丢弃。
频域分析做立论非常扎实：用能量 + 时序自相关两把尺子证明「低频=结构、高频=噪声」，再用「从隐空间去高频会崩、从像素去高频不崩」的对照实验反证「基线隐表示对高频过度敏感」，论证链条干净。
方法极简、无新增超参：固定置零 + 沿用 WF-VAE 损失，单阶段训练就超过三阶段训练的基线，工程上极易复现和迁移（论文还验证可套到 WanVAE-2.1 + 2.1B 扩散模型）。
诚实标注反例：主动指出 SkyTimelapse 4 通道上输给基线并给出解释（静态视频高频少），比一味报喜更可信。

局限与展望¶

固定置零、不调压缩比（作者承认）：作为首个压视频隐空间的尝试，只是一刀切地把高频子带置零，没有针对不同视频内容/数据集自适应调整保留哪些频率、保留多少；静态视频上的反例正暴露了这点。
不追生成 SOTA：刻意不优化下游扩散架构，FVD 提升幅度有限、个别设置还略逊，无法直接说明对大规模文生视频的增益。
小波是固定 Haar 基：用的是最简单的 Haar 小波，是否换更高阶小波或可学习滤波器能进一步提升，未探索。
改进方向：把「保留哪些子带 / 保留比例」做成数据驱动可学习的自适应选择（附录已验证固定置零逼近自适应，但可更进一步）；在大模型大数据上验证对生成质量的端到端收益。

评分¶

新颖性: ⭐⭐⭐⭐ 「在隐空间选频压缩代替砍通道」视角新颖，但小波 + 置零的技术组件本身较经典
实验充分度: ⭐⭐⭐⭐ 多数据集、多通道、重建/泛化/生成/消融齐全，且诚实报告反例；但生成实验规模偏小
写作质量: ⭐⭐⭐⭐⭐ 频域分析立论扎实、动机到方法链条清晰、figure 解释到位
价值: ⭐⭐⭐⭐ 简单即插即用、可迁移到其他视频 VAE，对「隐空间该如何为扩散设计」有启发