跳转至

Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks

会议: ICCV 2025
arXiv: 2503.17539
代码: 无
领域: 视频生成
关键词: 视频生成, 扩散 Transformer, 并行推理, 时序一致性, 长视频

一句话总结

提出 Video Interface Networks (VINs),一种类似"快思考"的抽象模块,在每个扩散步中将长视频编码为固定大小的全局 token,引导 DiT 并行生成多个视频 chunk,实现高效且时序一致的长视频生成。

研究背景与动机

  • Diffusion Transformers (DiTs) 可以生成高质量短视频,但扩展到长视频面临二次复杂度瓶颈
  • 全注意力方式在长视频上导致运动停滞和重复
  • 自回归方式(逐 chunk 生成)存在灾难性遗忘、主体不一致和时序不连贯性问题
  • 现有并行方法(如 FreeNoise、FreeLong)使用预设模板(噪声重调度、频带滤波)作为一致性先验,只能捕捉浅层视觉特征,缺乏深层语义抽象
  • 灵感来自人类认知中的双系统理论(Kahneman):System 1(快速直觉)+ System 2(慢速推理),DiT 只有 System 2,缺乏 System 1 的全局抽象能力

方法详解

整体框架

在每个扩散时间步:(1) VIN 从噪声输入中编码全局语义到固定大小的 global tokens;(2) DiT 利用 global tokens 并行去噪各个视频 chunk;(3) 重叠区域通过 token fusion 保持一致性。VIN 和 DiT 端到端联合训练。

关键设计

  1. Video Interface Network (VIN): VIN 由三个组件构成:

    • Global Tokens: 大小固定的可学习嵌入 \(Z_{init} \in \mathbb{R}^{N_{global} \times d}\)(512 个 token,维度 4096),与输入无关
    • VIN Encoder: 对输入视频每 \(T_s=1.0\) 秒采样关键帧,通过交叉注意力(global tokens 作为 query,视频 token 作为 key-value)将视频信息编码到 global tokens 中
    • VIN Processor: 4 个自注意力块(32头),迭代精炼 global tokens,同时融合文本 prompt 嵌入
    • 核心优势:global tokens 大小固定不随视频长度增长,计算与输入解耦,可扩展到任意长视频
  2. 端到端联合训练目标: 将噪声分布分解为各 chunk 的条件分布的乘积:\(P_\theta(\epsilon_t|X_t,t,Z_t) = \prod_i P_\theta(\epsilon_t^i | X_t^i, t, Z_t)\)。损失函数 \(\mathcal{L}_{\alpha,\theta} = \mathbb{E}[\sum_i \|\epsilon_\theta([X_t^i, Z_t], t) - \epsilon_t^i\|^2]\)。每个 chunk 还接收前一个 chunk 最后 \(F_{local}=8\) 帧的 local context(stop gradient 防止 chunk 间梯度干扰)。

  3. 推理时 Token Fusion: 相邻 chunk 的重叠区域通过加权平均融合:\(\hat{\epsilon}_t^{fused}[k] = \frac{(\mathcal{F}_{local} - \mathcal{W}(k))\hat{\epsilon}_t^i[k] + \mathcal{W}(k)\hat{\epsilon}_t^{i+1}[k]}{\mathcal{F}_{local}}\),其中 \(\mathcal{W}(k)\) 为相对时间位置。采用 early fusion 策略(\(t > t_\alpha = 20\)),在采样链前期融合效果最好。

损失函数 / 训练策略

  • 训练数据:84 万标注视频,混合 64/128/256 帧(20/40/80 latent 帧)
  • Chunk 大小 \(F_{chunk}=20\) latent 帧,local context \(F_{local}=8\) latent 帧,全局 512 tokens
  • 推理:50 步反向扩散,扩展 \(F_{local}=12\),early fusion cutoff \(t_\alpha=20\)
  • 基础模型:基于修改版 Open-Sora 的预训练 latent video DiT,3D VAE 将 16 帧编码为 5 latent 帧,分辨率 192×320,16 FPS

实验关键数据

主实验

VBench Long 评估(数值越高越好,Dynamic Degree 除外需平衡):

方法 Subject Consistency Background Consistency 特点
Full Attention 随长度增加而下降 高但动态度急剧下降 运动停滞
AutoRegressive 低于 VIN 低于 VIN 灾难性遗忘
StreamingT2V 最低 最低 记忆模块不足
FreeNoise 中等 中等 浅层先验
Spectral Blending 中等 中等 频域滤波有限
VIN (Ours) 最高 最高 保持动态度

光流分析 (MAWE↓):

方法 64帧 128帧 256帧 512帧
AutoRegressive ~2.5 ~3.0 ~3.5 ~4.5
FreeNoise ~2.0 ~2.5 ~3.0 ~4.0
Full Attention ~1.5 ~2.0 ~2.5 ~3.5
VIN ~1.0 ~1.1 ~1.5 <2.0

消融实验

配置 MAWE↓ Scene Cuts↓
Full Model 1.09 0.21
w/o Global Tokens 1.69 0.33
w/o fusion 1.13 1.00
Mid fusion 1.11 0.33
Late fusion 1.22 0.74
Local 8帧 / 10帧 1.51 / 1.17 0.24 / 0.22
Keyframe 0.5s / 0.2s 1.14 / 1.21 0.34 / 0.29

关键发现

  • Global tokens 是核心:去除后 MAWE 从 1.09 上升到 1.69,退化最严重
  • Early fusion 最有效:符合扩散模型在采样初期形成物体结构的直觉
  • 密集关键帧采样无益\(T_s = 0.2s\) 反而不如 \(T_s = 1.0s\),说明 VIN 的语义编码具有冗余抑制能力
  • VIN 相比全注意力减少 25-40% FLOPs,加速 40-75%,内存仅略增
  • 用户研究中,VIN 在整体外观和时序一致性上均获得人类评价者偏好(损失率 < 30%)
  • VIN 注意力头呈现语义聚焦:不同头分别关注人体、建筑、物体等

亮点与洞察

  • 双系统类比精妙:VIN 作为 System 1 的全局抽象 + DiT 作为 System 2 的局部精修,类比人类认知的画家工作流
  • 端到端训练:与预设模板方法(FreeNoise/FreeLong)相比,学习而非人工设计一致性先验,更自然
  • 动态万能表征:global tokens 每步重新计算,而非静态锚点,优雅降级
  • Stop Gradient 设计:共享 chunk 之间不传递梯度,避免 chunk 间干扰

局限与展望

  • VIN 仅通过生成任务学习表征,未利用下游任务(如分割、深度)的监督信号
  • 超出原始 patch 输入之外的模态(深度、3D 信息)尚未探索
  • 分辨率受限于 192×320,实际应用需扩展到更高分辨率
  • Token fusion 机制相对简单,可能存在更优的融合策略

相关工作与启发

  • 受 Recurrent Interface Networks (RINs) 启发,将语义编码与逐像素去噪解耦
  • 与 StreamingT2V 的长期记忆模块相比,VIN 的 global tokens 是动态的且覆盖全视频
  • 与 FreeNoise/Spectral Blending 的浅层先验不同,VIN 学习深层语义表征
  • 可与视频编辑、视频理解等任务结合,global tokens 具有通用特征表达潜力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 双系统式并行视频生成范式,global token + DiT 的组合极具原创性
  • 实验充分度: ⭐⭐⭐⭐⭐ VBench/光流/场景切换/用户研究/消融全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,双系统类比直观
  • 价值: ⭐⭐⭐⭐⭐ 为长视频生成提供了可扩展的新范式,具有很强的实用意义