跳转至

AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration

会议: ICML 2025
arXiv: 2412.11706
代码: https://github.com/wenhao728/AsymRnR
领域: 图像/视频恢复
关键词: 视频生成加速, 扩散 Transformer, token削减, 非对称策略, training-free

一句话总结

提出 AsymRnR——一种免训练的视频 DiT 加速方法,基于注意力中不同组件(Q/K/V)、不同层、不同去噪步骤的冗余程度不同的观察,非对称地削减 token 以实现无损加速。

研究背景与动机

领域现状:视频 Diffusion Transformer(DiT)如 HunyuanVideo、CogVideoX 生成质量优秀但计算成本极高(生成几秒视频需要数分钟甚至数小时)。

现有痛点:(a) 蒸馏方法需要大量训练; (b) 特征缓存方法针对特定架构; (c) Token Merging(ToMe)均匀削减所有组件导致视频出现扭曲和像素化。

核心矛盾:不同组件对 token 削减的敏感度差异巨大——但现有方法一视同仁。

本文目标:如何考虑组件的不同敏感度来高效削减 token?

切入角度:实验发现三条关键规律:(a) Q 扰动比 K/V 扰动影响大; (b) 浅层扰动比深层影响大; (c) 早期去噪步骤影响语义,晚期影响细节。

核心 idea:非对称削减——对 K/V 可大幅削减而保留全部 Q,不同层和步骤使用不同削减比例。

方法详解

整体框架

在注意力计算前: 1. 保留全部 Query token 2. 对 Key/Value 按相似性合并冗余 token 3. 用非对称调度器根据层深度和去噪步骤调整削减比例 4. 注意力计算后恢复到原始 token 数量

关键设计

  1. 非对称 Q-KV 削减:

    • 功能:仅削减 K/V 的 token,保留全部 Q
    • 核心思路:Q 的 token 直接影响输出每个位置的表示,K/V 提供上下文可容忍冗余
    • 设计动机:随机丢弃 30% Q token 导致严重降质,而丢弃 30% K/V 几乎无影响
  2. 自适应削减调度:

    • 功能:根据层深度和去噪步骤动态调整 K/V 削减比例
    • 核心思路:浅层削减少(对质量敏感),深层削减多(冗余更高);早期步骤削减少(影响语义),晚期步骤可多削减
    • 设计动机:符合 Liebig 最小定律——系统质量由最敏感组件决定
  3. 匹配缓存:

    • 功能:跨去噪步骤复用 token 匹配结果
    • 核心思路:相邻去噪步骤的 token 相似度变化缓慢,可复用匹配
    • 设计动机:减少匹配计算本身的开销

损失函数 / 训练策略

  • 完全免训练,即插即用
  • 适用于任何视频 DiT 架构

实验关键数据

主实验

模型 方法 加速比 VBench↑
HunyuanVideo 基线 1.0× 83.2
ToMe 1.4× 79.8 (-3.4)
AsymRnR 1.45× 83.5 (+0.3)
CogVideoX 基线 1.0× 81.5
AsymRnR 1.38× 81.8 (+0.3)

消融实验

配置 VBench 加速 说明
对称削减(Q+KV 同比例) 79.8 1.4× 扭曲严重
非对称(仅 KV) 83.5 1.45× 无损甚至提升
均匀调度 82.1 1.4× 不适应层/步差异
自适应调度 83.5 1.45× 更精细的控制

关键发现

  • 非对称策略不仅无损还可能提升质量(削减冗余 K/V 起到了正则化效果)
  • 自适应调度比均匀调度提升 +1.4 VBench 分
  • 跨 4 种 SOTA 视频 DiT 模型一致有效

亮点与洞察

  • Q 和 KV 角色不对称的发现具有普适性——不仅适用于视频 DiT,可能对所有 Transformer 架构的推理加速有启发
  • 免训练+模型无关使方法极其实用
  • 质量"提升"暗示原始模型中存在 KV 冗余的"噪声"

局限与展望

  • 加速比目前约 1.4-1.5×,不如蒸馏方法的加速幅度
  • 匹配缓存的复用频率需要手动调节
  • 未讨论与步骤蒸馏等方法的组合

相关工作与启发

  • vs ToMe: 对称削减导致降质,AsymRnR 非对称策略无损
  • vs 特征缓存: 架构相关,AsymRnR 架构无关
  • 对 Transformer 推理优化有广泛启发

评分

  • 新颖性: ⭐⭐⭐⭐ 非对称 token 削减视角新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 种 SOTA 模型,VBench 评估
  • 写作质量: ⭐⭐⭐⭐ 分析透彻,可视化清晰
  • 价值: ⭐⭐⭐⭐⭐ 实用的免训练视频生成加速方案