跳转至

NeRV-Diffusion: Diffuse Implicit Neural Representation for Video Synthesis

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tX0cSOvBnS
项目主页: https://nerv-diffusion.github.io/
代码: 待确认
领域: 视频生成 / 隐式神经表示 / 扩散模型
关键词: NeRV, INR, 视频扩散, 权重生成, 隐式 tokenizer, DiT

一句话总结

把一段视频压缩成一个"小型卷积网络的权重"(即 NeRV 这种隐式神经表示 INR),再让扩散 Transformer 直接在这组高斯分布的权重 token 上去噪生成新视频——从而绕开传统视频 tokenizer 的逐帧特征图与跨帧注意力,得到更紧凑、解码更快、且分辨率/时长开销次线性增长的视频生成框架。

研究背景与动机

领域现状:视频隐式扩散模型(LDM)效果惊艳,但它们的 tokenizer 大多直接沿用图像模型,把视频编码成一帧一帧独立的特征图,忽视了帧间天然的连贯性,表示冗余。为了约束时序一致性,模型不得不堆叠跨帧注意力,导致参数量膨胀、计算量爆炸。

现有痛点:传统 tokenizer 的下采样因子是固定的,分辨率翻倍时 latent 大小会二次方增长;1D tokenization 虽然能得到整体性 latent,但离散 token 又牺牲了时空粒度。另一边,INR(如 NeRV)在压缩、快速解码、平滑插值上优势明显,但既有的 hypernetwork-INR 编码器只为"重建"优化,产出的权重不服从任何分布约束,根本无法被扩散模型生成。

核心矛盾:要让"生成 INR 权重"这条路走通,必须同时满足两个相互拉扯的目标——权重既要接近高斯分布(方便扩散平滑去噪),又要保持高表达力(能忠实重建多样的真实视频)。此前没有任何视频扩散模型在权重空间上成功过,因为视频比图像携带更多动态信息,扩散对去噪空间的要求也更苛刻。

本文目标:构建一个把视频整体表示为一组 INR 权重 token 的隐式潜空间扩散框架,既享受 LDM 的生成力,又享受 INR 的紧凑、快速解码与可插值性。

核心 idea「视频即一个专属神经网络」——第一阶段用 hypernetwork tokenizer 把视频编成服从 N(0,1) 的权重 token,这些 token 就是一个 NeRV 解码器的卷积核,输入帧索引即可解码出整段视频;第二阶段用一个 vanilla DiT 在这组无时空结构的权重 token 上做扩散,从噪声生成新权重,再由 NeRV 渲染成视频。

方法详解

整体框架

NeRV-Diffusion 是两阶段框架:Tokenization 阶段训练一个隐式自编码器(NeRV-VAE),把视频从像素压成权重 token,这些 token 实例化成一个 NeRV 解码器自解码重建;Generation 阶段训练一个隐式扩散 Transformer,在权重 token 空间里从噪声去噪生成。整套设计的核心在于让权重 token 同时"可重建"且"可扩散"。

flowchart LR
    A[RGB 视频] --> B[NeRV Encoder<br/>ViT hypernetwork]
    B --> C[权重 token latent<br/>KL 约束 ~ N&#40;0,1&#41;]
    C -->|Multi-head Affine| D[NeRV Decoder<br/>实例专属卷积核]
    E[帧索引 + 时空 PE] --> D
    D --> F[重建视频]
    C -.加噪/去噪.-> G[Implicit DiT]
    G -.采样.-> C
    G --> H[生成的权重 token] --> D2[NeRV Decoder] --> I[生成视频]

关键设计

1. NeRV-VAE:把视频编成高斯权重 token 的非对称隐式自编码器 —— 编码器 \(E\) 是一个基于 ViT/FastNeRV 的 hypernetwork,给定像素输入 \(x\) 产出 INR 参数 \(\theta=E(x)\);解码器则是一个实例专属的 INR \(D_\theta(\cdot)\),输入坐标即输出像素。由于输出权重 token 与输入 patch 没有时空对应关系,作者不直接映射,而是引入专门的 query token 与视频 patch 拼接后送入编码器,只保留 query 对应的输出。关键在于在编码器输出后接两层 FC 形成信息瓶颈,并施加 KL 散度损失把 latent 分布对齐到标准高斯,使权重 token 既紧凑又可被扩散。整体训练目标融合重建、感知与对抗损失:\(L_{\mathrm{VAE}}=\|x-\tilde{x}\|^2+L_{\mathrm{LPIPS}}+L_{\mathrm{GAN}}+D_{\mathrm{KL}}(N(0,1),\tilde\theta)\)。这里对抗判别器特意选卷积而非 Transformer,因为后者会引入跨帧闪烁伪影。

2. Multi-head Affine + Channel-wise 权重参数化:用紧凑 latent 撑起强表达力 —— FastNeRV 原本只用 latent 去"调制"少数 INR 层的参数,在加了 KL 约束后表达力被严重限制。本文把瓶颈后的 FC 扩展成多头仿射映射:同一组权重 token 被复用,每个 NeRV 层配一个专属仿射头,把全部 token 映射成该层的调制参数,从而独立填充所有层——既扩大表达力又让 latent 保持紧凑(紧凑 latent 直接降低后续扩散的复杂度)。更进一步,作者抛弃"调制共享基权重"的做法,直接把仿射后的实例专属 token 设为某组 INR 通道的卷积核本身,其余参数 \(\theta_s\) 在所有数据间共享并可训练;所有核值沿除输出通道外的维度归一化(借鉴 StyleGAN 的 demodulation)。这让生成的权重以最大自由度直接参与解码,也支持解码器之间的平滑参数插值。消融显示该参数化把 gFVD 从 Repeat 的 741 降到 570,再叠加多头仿射复用降到 283

3. 生成式 NeRV 解码器:为生成质量重塑上采样结构 —— 原版时序-query 的 NeRV 从 \(R^{T\times D\times1\times1}\) 上采样到 \(R^{T\times3\times H\times W}\),运动清晰但空间内容糊。作者把时间嵌入扩展成 3D 时空位置嵌入(时间仍是唯一 query 轴),补充几何先验并省掉原 NeRV 用于变换 1D 时间嵌入的首层 FC,使全卷积结构与多头仿射调制最佳契合。借助权重复用,解码器能在不增加权重 token的前提下大幅 scale up:把上采样层扩成 block(每个 block 做一次 2× 上采样并附加不改变形状的卷积),周期性结构把信息从低分辨率均匀铺到高分辨率。上采样算子选转置卷积(比 pixelshuffle 质量更好且只用 1/4 参数与计算),并加 residual 侧连接融合多尺度特征(gFVD 248→219),侧连接的额外层仍由同一组 token 调制、零新增可训练参数。

4. Implicit DiT + 两个稳训练技巧:在无结构权重空间上去噪 —— 权重 token 没有任何时空结构,因此 Transformer 比 U-Net 更合适,且无需时序注意力。扩散过程为 \(\theta_t=\alpha_t\theta_0+\sigma_t\epsilon\),去噪网络 \(\phi\) 优化 \(L_{\mathrm{IDM}}=\mathbb{E}[\|\epsilon_0-\epsilon(\epsilon_t,t)\|^2]\)。作者发现隐式扩散在早期(高噪声)时间步收敛更慢,于是引入 Min-SNR-γ 损失加权 \(w_t=\min\{\mathrm{SNR}(t),\gamma\}\)\(\mathrm{SNR}(t)=\alpha_t^2/\sigma_t^2\)),避免训练过度偏向低噪声层、让各时间步均匀下降。同时引入 scheduled sampling 缓解曝光偏差:训练中第一次前向后,以一定概率用模型自身预测 \(\tilde\theta_{t-1}=\theta_\phi(\theta_t,t)\) 作为下一次前向输入再算总损失,对齐训练与推理模式、抑制采样时的误差累积。

实验关键数据

主实验:UCF / K600 生成质量(gFVD↓)

数据集/设置 方法 gFVD↓
UCF 16f@128² LARP-L (SOTA 非隐式) 102
UCF 16f@128² MAGVITv2-AR 109
UCF 16f@128² DIGAN (隐式) 465
UCF 16f@128² NeRV-Diffusion-L (Ours) 97
UCF 16f@256² HPDM-M 143
UCF 16f@256² NeRV-Diffusion-L 140
UCF 128f@128² CoordTok 369
UCF 128f@128² NeRV-Diffusion-L 366
K600 16f@128² LARP-L 17
K600 16f@128² NeRV-Diffusion-L 22

NeRV-Diffusion 在 UCF 上超越所有此前隐式模型并优于多数最新非隐式模型(含 GAN/扩散/自回归各机制),在长视频(128 帧)与高分辨率(256²)设置下同样领先或持平。

效率对比(A6000, bf16, batch=1)

模块 方法 #Tokens Latency↓ (128²/256²) VRAM↓ (256²)
Decoder SD-VAE 4096/16384 0.048s/0.260s 4.3G
Decoder NeRV-VAE-L 128/160 0.032s/0.133s 2.6G
Generator OmniTokenizer 1280/5120 -/139s 4.5G
Generator LARP-L 1024 20s/- 1.6G
Generator NeRV-Diffusion-L 128/160 6.8s/8.2s 2.1G

token 数仅 128~160(比 SD-VAE 少两个数量级),解码与生成延迟显著更低,且分辨率从 128²→256² 时开销次线性增长。

消融实验(NeRV-Diffusion-S on UCF, gFVD↓)

设计维度 配置 gFVD↓
权重参数化 Repeat / FMM / Channel 741 / 636 / 570
Token 复用 No reuse / Direct / Multi-head affines 570 / 562 / 283
空间 PE h=w=1 / 8 / 16 283 / 254 / 277
上采样 PixelShuffle / Transposed / Bilinear 254 / 248 / 287
侧连接 Vanilla / Residual / Skips 248 / 219 / 235

关键发现

  • 多头仿射复用是最大增益点:单它一项就把 gFVD 从 570 砍到 283,几乎腰斩。
  • 重建-生成 gap 很小,说明隐式 latent 设计高效、利用充分。
  • 通过插值帧索引即可做时序插值/长视频外推,无需跨帧注意力。

亮点与洞察

  • 范式转换:把"生成像素/特征图"换成"生成一个网络的权重",让整段视频成为一个紧凑专属网络,从根上消除逐帧表示与跨帧注意力。
  • 次线性扩展:latent 形状正比于 INR 解码器大小、对分辨率上采样次线性——分辨率翻倍只需追加一个上采样 block,而非传统 tokenizer 的二次方增长。
  • "高斯 + 高表达力"的张力被工程化解决:KL 瓶颈 + 多头仿射 + channel-wise 参数化三者配合,让权重既能扩散又能重建,这是此前 INR 生成卡住的核心难点。
  • 可插值性免费获得:因为所有帧共享同一组参数解码,天然具备 keyframe-residue 式的时序关联与平滑插值。

局限与展望

  • 实验仅在 UCF-101 与 Kinetics-600 两个相对受限的 benchmark 上验证,未涉及大规模开放域文生视频,泛化性与文本条件生成能力尚待检验。
  • 第一阶段 NeRV-VAE 仍依赖对抗训练(含感知/GAN 损失),训练稳定性与调参成本可能较高。
  • 隐式扩散在高噪声步收敛慢,虽用 Min-SNR-γ 与 scheduled sampling 缓解,但属于"补丁式"修正,权重空间扩散的本质难点(无结构、分布拟合)仍有提升空间。
  • 长视频(128 帧)通过帧索引插值实现而非原生密集建模,极端长程动态的一致性有待进一步评估。

相关工作与启发

  • INR 与视频压缩:NeRV / FastNeRV 提供了卷积视频 INR 与 hypernetwork 编码器的基础,本文把"只为重建"的编码器改造成"可生成"。
  • INR 生成:此前工作多在 3D NeRF 或图像 INR 上做扩散/流匹配(如 G.pt 用 Transformer 演化权重、各类 NeRF 扩散),但视频 INR 扩散此前空白,本文填补该空白。
  • StyleGAN 思想迁移:多头仿射、demodulation 归一化、residual 侧连接均借鉴 StyleGAN2/3,显示生成器架构经验可有效迁移到"权重生成"任务。
  • 训练技巧复用:Min-SNR-γ 加权与 scheduled sampling 来自图像扩散/自回归领域,被成功适配到权重空间扩散,提示这类稳训练技巧具有跨空间通用性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个在 NeRV 权重空间上做视频扩散的框架,把"视频即网络权重"这一思路真正落地,范式上有突破。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多分辨率/多时长/重建-生成-效率多维对比,消融扎实;但 benchmark 偏受限、缺开放域与文本条件验证。
  • 写作质量: ⭐⭐⭐⭐ 动机与设计动机讲得清楚,图 1/2 框架直观;细节稠密,部分模块需对照 NeRV/StyleGAN 背景才好懂。
  • 价值: ⭐⭐⭐⭐ token 数与解码/生成效率优势明显(次线性扩展、百级 token),为高分辨率长视频的高效生成提供了有竞争力的新方向。