NeRV-Diffusion: Diffuse Implicit Neural Representation for Video Synthesis¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tX0cSOvBnS
项目主页: https://nerv-diffusion.github.io/
代码: 待确认
领域: 视频生成 / 隐式神经表示 / 扩散模型
关键词: NeRV, INR, 视频扩散, 权重生成, 隐式 tokenizer, DiT

一句话总结¶

把一段视频压缩成一个"小型卷积网络的权重"（即 NeRV 这种隐式神经表示 INR），再让扩散 Transformer 直接在这组高斯分布的权重 token 上去噪生成新视频——从而绕开传统视频 tokenizer 的逐帧特征图与跨帧注意力，得到更紧凑、解码更快、且分辨率/时长开销次线性增长的视频生成框架。

研究背景与动机¶

领域现状：视频隐式扩散模型（LDM）效果惊艳，但它们的 tokenizer 大多直接沿用图像模型，把视频编码成一帧一帧独立的特征图，忽视了帧间天然的连贯性，表示冗余。为了约束时序一致性，模型不得不堆叠跨帧注意力，导致参数量膨胀、计算量爆炸。

现有痛点：传统 tokenizer 的下采样因子是固定的，分辨率翻倍时 latent 大小会二次方增长；1D tokenization 虽然能得到整体性 latent，但离散 token 又牺牲了时空粒度。另一边，INR（如 NeRV）在压缩、快速解码、平滑插值上优势明显，但既有的 hypernetwork-INR 编码器只为"重建"优化，产出的权重不服从任何分布约束，根本无法被扩散模型生成。

核心矛盾：要让"生成 INR 权重"这条路走通，必须同时满足两个相互拉扯的目标——权重既要接近高斯分布（方便扩散平滑去噪），又要保持高表达力（能忠实重建多样的真实视频）。此前没有任何视频扩散模型在权重空间上成功过，因为视频比图像携带更多动态信息，扩散对去噪空间的要求也更苛刻。

本文目标：构建一个把视频整体表示为一组 INR 权重 token 的隐式潜空间扩散框架，既享受 LDM 的生成力，又享受 INR 的紧凑、快速解码与可插值性。

核心 idea：「视频即一个专属神经网络」——第一阶段用 hypernetwork tokenizer 把视频编成服从 N(0,1) 的权重 token，这些 token 就是一个 NeRV 解码器的卷积核，输入帧索引即可解码出整段视频；第二阶段用一个 vanilla DiT 在这组无时空结构的权重 token 上做扩散，从噪声生成新权重，再由 NeRV 渲染成视频。

方法详解¶

整体框架¶

NeRV-Diffusion 是两阶段框架：Tokenization 阶段训练一个隐式自编码器（NeRV-VAE），把视频从像素压成权重 token，这些 token 实例化成一个 NeRV 解码器自解码重建；Generation 阶段训练一个隐式扩散 Transformer，在权重 token 空间里从噪声去噪生成。整套设计的核心在于让权重 token 同时"可重建"且"可扩散"。

flowchart LR
    A[RGB 视频] --> B[NeRV Encoder<br/>ViT hypernetwork]
    B --> C[权重 token latent<br/>KL 约束 ~ N&#40;0,1&#41;]
    C -->|Multi-head Affine| D[NeRV Decoder<br/>实例专属卷积核]
    E[帧索引 + 时空 PE] --> D
    D --> F[重建视频]
    C -.加噪/去噪.-> G[Implicit DiT]
    G -.采样.-> C
    G --> H[生成的权重 token] --> D2[NeRV Decoder] --> I[生成视频]

关键设计¶

1. NeRV-VAE：把视频编成高斯权重 token 的非对称隐式自编码器 —— 编码器 \(E\) 是一个基于 ViT/FastNeRV 的 hypernetwork，给定像素输入 \(x\) 产出 INR 参数 \(\theta=E(x)\)；解码器则是一个实例专属的 INR \(D_\theta(\cdot)\)，输入坐标即输出像素。由于输出权重 token 与输入 patch 没有时空对应关系，作者不直接映射，而是引入专门的 query token 与视频 patch 拼接后送入编码器，只保留 query 对应的输出。关键在于在编码器输出后接两层 FC 形成信息瓶颈，并施加 KL 散度损失把 latent 分布对齐到标准高斯，使权重 token 既紧凑又可被扩散。整体训练目标融合重建、感知与对抗损失：\(L_{\mathrm{VAE}}=\|x-\tilde{x}\|^2+L_{\mathrm{LPIPS}}+L_{\mathrm{GAN}}+D_{\mathrm{KL}}(N(0,1),\tilde\theta)\)。这里对抗判别器特意选卷积而非 Transformer，因为后者会引入跨帧闪烁伪影。

2. Multi-head Affine + Channel-wise 权重参数化：用紧凑 latent 撑起强表达力 —— FastNeRV 原本只用 latent 去"调制"少数 INR 层的参数，在加了 KL 约束后表达力被严重限制。本文把瓶颈后的 FC 扩展成多头仿射映射：同一组权重 token 被复用，每个 NeRV 层配一个专属仿射头，把全部 token 映射成该层的调制参数，从而独立填充所有层——既扩大表达力又让 latent 保持紧凑（紧凑 latent 直接降低后续扩散的复杂度）。更进一步，作者抛弃"调制共享基权重"的做法，直接把仿射后的实例专属 token 设为某组 INR 通道的卷积核本身，其余参数 \(\theta_s\) 在所有数据间共享并可训练；所有核值沿除输出通道外的维度归一化（借鉴 StyleGAN 的 demodulation）。这让生成的权重以最大自由度直接参与解码，也支持解码器之间的平滑参数插值。消融显示该参数化把 gFVD 从 Repeat 的 741 降到 570，再叠加多头仿射复用降到 283。

3. 生成式 NeRV 解码器：为生成质量重塑上采样结构 —— 原版时序-query 的 NeRV 从 \(R^{T\times D\times1\times1}\) 上采样到 \(R^{T\times3\times H\times W}\)，运动清晰但空间内容糊。作者把时间嵌入扩展成 3D 时空位置嵌入（时间仍是唯一 query 轴），补充几何先验并省掉原 NeRV 用于变换 1D 时间嵌入的首层 FC，使全卷积结构与多头仿射调制最佳契合。借助权重复用，解码器能在不增加权重 token的前提下大幅 scale up：把上采样层扩成 block（每个 block 做一次 2× 上采样并附加不改变形状的卷积），周期性结构把信息从低分辨率均匀铺到高分辨率。上采样算子选转置卷积（比 pixelshuffle 质量更好且只用 1/4 参数与计算），并加 residual 侧连接融合多尺度特征（gFVD 248→219），侧连接的额外层仍由同一组 token 调制、零新增可训练参数。

4. Implicit DiT + 两个稳训练技巧：在无结构权重空间上去噪 —— 权重 token 没有任何时空结构，因此 Transformer 比 U-Net 更合适，且无需时序注意力。扩散过程为 \(\theta_t=\alpha_t\theta_0+\sigma_t\epsilon\)，去噪网络 \(\phi\) 优化 \(L_{\mathrm{IDM}}=\mathbb{E}[\|\epsilon_0-\epsilon(\epsilon_t,t)\|^2]\)。作者发现隐式扩散在早期（高噪声）时间步收敛更慢，于是引入 Min-SNR-γ 损失加权 \(w_t=\min\{\mathrm{SNR}(t),\gamma\}\)（\(\mathrm{SNR}(t)=\alpha_t^2/\sigma_t^2\)），避免训练过度偏向低噪声层、让各时间步均匀下降。同时引入 scheduled sampling 缓解曝光偏差：训练中第一次前向后，以一定概率用模型自身预测 \(\tilde\theta_{t-1}=\theta_\phi(\theta_t,t)\) 作为下一次前向输入再算总损失，对齐训练与推理模式、抑制采样时的误差累积。

实验关键数据¶

主实验：UCF / K600 生成质量（gFVD↓）¶

数据集/设置	方法	gFVD↓
UCF 16f@128²	LARP-L (SOTA 非隐式)	102
UCF 16f@128²	MAGVITv2-AR	109
UCF 16f@128²	DIGAN (隐式)	465
UCF 16f@128²	NeRV-Diffusion-L (Ours)	97
UCF 16f@256²	HPDM-M	143
UCF 16f@256²	NeRV-Diffusion-L	140
UCF 128f@128²	CoordTok	369
UCF 128f@128²	NeRV-Diffusion-L	366
K600 16f@128²	LARP-L	17
K600 16f@128²	NeRV-Diffusion-L	22

NeRV-Diffusion 在 UCF 上超越所有此前隐式模型并优于多数最新非隐式模型（含 GAN/扩散/自回归各机制），在长视频（128 帧）与高分辨率（256²）设置下同样领先或持平。

效率对比（A6000, bf16, batch=1）¶

模块	方法	#Tokens	Latency↓ (128²/256²)	VRAM↓ (256²)
Decoder	SD-VAE	4096/16384	0.048s/0.260s	4.3G
Decoder	NeRV-VAE-L	128/160	0.032s/0.133s	2.6G
Generator	OmniTokenizer	1280/5120	-/139s	4.5G
Generator	LARP-L	1024	20s/-	1.6G
Generator	NeRV-Diffusion-L	128/160	6.8s/8.2s	2.1G

token 数仅 128~160（比 SD-VAE 少两个数量级），解码与生成延迟显著更低，且分辨率从 128²→256² 时开销次线性增长。

消融实验（NeRV-Diffusion-S on UCF, gFVD↓）¶

设计维度	配置	gFVD↓
权重参数化	Repeat / FMM / Channel	741 / 636 / 570
Token 复用	No reuse / Direct / Multi-head affines	570 / 562 / 283
空间 PE	h=w=1 / 8 / 16	283 / 254 / 277
上采样	PixelShuffle / Transposed / Bilinear	254 / 248 / 287
侧连接	Vanilla / Residual / Skips	248 / 219 / 235

关键发现¶

多头仿射复用是最大增益点：单它一项就把 gFVD 从 570 砍到 283，几乎腰斩。
重建-生成 gap 很小，说明隐式 latent 设计高效、利用充分。
通过插值帧索引即可做时序插值/长视频外推，无需跨帧注意力。

亮点与洞察¶

范式转换：把"生成像素/特征图"换成"生成一个网络的权重"，让整段视频成为一个紧凑专属网络，从根上消除逐帧表示与跨帧注意力。
次线性扩展：latent 形状正比于 INR 解码器大小、对分辨率上采样次线性——分辨率翻倍只需追加一个上采样 block，而非传统 tokenizer 的二次方增长。
"高斯 + 高表达力"的张力被工程化解决：KL 瓶颈 + 多头仿射 + channel-wise 参数化三者配合，让权重既能扩散又能重建，这是此前 INR 生成卡住的核心难点。
可插值性免费获得：因为所有帧共享同一组参数解码，天然具备 keyframe-residue 式的时序关联与平滑插值。

局限与展望¶

实验仅在 UCF-101 与 Kinetics-600 两个相对受限的 benchmark 上验证，未涉及大规模开放域文生视频，泛化性与文本条件生成能力尚待检验。
第一阶段 NeRV-VAE 仍依赖对抗训练（含感知/GAN 损失），训练稳定性与调参成本可能较高。
隐式扩散在高噪声步收敛慢，虽用 Min-SNR-γ 与 scheduled sampling 缓解，但属于"补丁式"修正，权重空间扩散的本质难点（无结构、分布拟合）仍有提升空间。
长视频（128 帧）通过帧索引插值实现而非原生密集建模，极端长程动态的一致性有待进一步评估。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个在 NeRV 权重空间上做视频扩散的框架，把"视频即网络权重"这一思路真正落地，范式上有突破。
实验充分度: ⭐⭐⭐⭐ 覆盖多分辨率/多时长/重建-生成-效率多维对比，消融扎实；但 benchmark 偏受限、缺开放域与文本条件验证。
写作质量: ⭐⭐⭐⭐ 动机与设计动机讲得清楚，图 1/2 框架直观；细节稠密，部分模块需对照 NeRV/StyleGAN 背景才好懂。
价值: ⭐⭐⭐⭐ token 数与解码/生成效率优势明显（次线性扩展、百级 token），为高分辨率长视频的高效生成提供了有竞争力的新方向。