Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks¶

会议: ICCV 2025
arXiv: 2503.17539
代码: 无
领域: 视频生成
关键词: 视频生成, 扩散 Transformer, 并行推理, 时序一致性, 长视频

一句话总结¶

提出 Video Interface Networks (VINs)，一种类似"快思考"的抽象模块，在每个扩散步中将长视频编码为固定大小的全局 token，引导 DiT 并行生成多个视频 chunk，实现高效且时序一致的长视频生成。

Diffusion Transformers (DiTs) 可以生成高质量短视频，但扩展到长视频面临二次复杂度瓶颈
全注意力方式在长视频上导致运动停滞和重复
自回归方式（逐 chunk 生成）存在灾难性遗忘、主体不一致和时序不连贯性问题
现有并行方法（如 FreeNoise、FreeLong）使用预设模板（噪声重调度、频带滤波）作为一致性先验，只能捕捉浅层视觉特征，缺乏深层语义抽象
灵感来自人类认知中的双系统理论（Kahneman）：System 1（快速直觉）+ System 2（慢速推理），DiT 只有 System 2，缺乏 System 1 的全局抽象能力

在每个扩散时间步：(1) VIN 从噪声输入中编码全局语义到固定大小的 global tokens；(2) DiT 利用 global tokens 并行去噪各个视频 chunk；(3) 重叠区域通过 token fusion 保持一致性。VIN 和 DiT 端到端联合训练。

Video Interface Network (VIN): VIN 由三个组件构成：
- Global Tokens: 大小固定的可学习嵌入 \(Z_{init} \in \mathbb{R}^{N_{global} \times d}\)（512 个 token，维度 4096），与输入无关
- VIN Encoder: 对输入视频每 \(T_s=1.0\) 秒采样关键帧，通过交叉注意力（global tokens 作为 query，视频 token 作为 key-value）将视频信息编码到 global tokens 中
- VIN Processor: 4 个自注意力块（32头），迭代精炼 global tokens，同时融合文本 prompt 嵌入
- 核心优势：global tokens 大小固定不随视频长度增长，计算与输入解耦，可扩展到任意长视频
端到端联合训练目标: 将噪声分布分解为各 chunk 的条件分布的乘积：\(P_\theta(\epsilon_t|X_t,t,Z_t) = \prod_i P_\theta(\epsilon_t^i | X_t^i, t, Z_t)\)。损失函数 \(\mathcal{L}_{\alpha,\theta} = \mathbb{E}[\sum_i \|\epsilon_\theta([X_t^i, Z_t], t) - \epsilon_t^i\|^2]\)。每个 chunk 还接收前一个 chunk 最后 \(F_{local}=8\) 帧的 local context（stop gradient 防止 chunk 间梯度干扰）。
推理时 Token Fusion: 相邻 chunk 的重叠区域通过加权平均融合：\(\hat{\epsilon}_t^{fused}[k] = \frac{(\mathcal{F}_{local} - \mathcal{W}(k))\hat{\epsilon}_t^i[k] + \mathcal{W}(k)\hat{\epsilon}_t^{i+1}[k]}{\mathcal{F}_{local}}\)，其中 \(\mathcal{W}(k)\) 为相对时间位置。采用 early fusion 策略（\(t > t_\alpha = 20\)），在采样链前期融合效果最好。

训练数据：84 万标注视频，混合 64/128/256 帧（20/40/80 latent 帧）
Chunk 大小 \(F_{chunk}=20\) latent 帧，local context \(F_{local}=8\) latent 帧，全局 512 tokens
推理：50 步反向扩散，扩展 \(F_{local}=12\)，early fusion cutoff \(t_\alpha=20\)
基础模型：基于修改版 Open-Sora 的预训练 latent video DiT，3D VAE 将 16 帧编码为 5 latent 帧，分辨率 192×320，16 FPS

VBench Long 评估（数值越高越好，Dynamic Degree 除外需平衡）:

方法	Subject Consistency	Background Consistency	特点
Full Attention	随长度增加而下降	高但动态度急剧下降	运动停滞
AutoRegressive	低于 VIN	低于 VIN	灾难性遗忘
StreamingT2V	最低	最低	记忆模块不足
FreeNoise	中等	中等	浅层先验
Spectral Blending	中等	中等	频域滤波有限
VIN (Ours)	最高	最高	保持动态度

光流分析 (MAWE↓):