DFSAttn: Dynamic Fine-Grained Sparse Attention for Efficient Video Generation¶
会议: ICML 2026
arXiv: 2605.23445
代码: 待确认
领域: 视频生成 / 扩散模型 / 模型压缩
关键词: 稀疏注意力, 视频生成, Hilbert 曲线, 动态掩码
一句话总结¶
DFSAttn 通过 3D Hilbert 曲线重排序 + 分层块评分 + 自适应掩码缓存,实现了与全注意力相媲美的质量下 2.1× 端到端加速——解决了块稀疏注意力在高稀疏率(>80%)下质量下降的核心问题。
研究背景与动机¶
领域现状:视频扩散变换器(DiT)通过 3D 全注意力实现高保真视频生成,但二次复杂度导致严重计算瓶颈——HunyuanVideo 生成 129 帧 720p 视频需要 H100 GPU 上约 30 分钟。块稀疏注意力作为降低复杂度的常见方向,与 FlashAttention 等 GPU 高效内核天然契合。
现有痛点:当前块稀疏注意力方法(静态如径向稀疏,动态如 XAttention)在高稀疏率(80%)下质量严重下降,无法在显著加速的同时保持生成效果。根本原因是现有方法采用的粗粒度块级表示与 DiT 中存在的动态、细粒度的注意力稀疏模式不匹配。
核心矛盾:一方面 GPU 高效计算要求块级稀疏性(为了对齐 FlashAttention);另一方面 DiT 的注意力模式呈现动态且细粒度的稀疏特征,含有大量局部重要交互散布在注意力图中。直接将粗粒度块操作应用于细粒度稀疏模式必然丢失关键依赖。
本文目标:在保持 GPU 块级执行高效性的前提下,捕捉和利用 DiT 中的细粒度、动态稀疏模式。
切入角度:从两个关键观察出发——(1)DiT 中注意力图的稀疏模式跨层、跨头异质性强,静态或固定稀疏模式必然失效;(2)块稀疏注意力的有效性随扩散步骤演进而单调提升(早期噪声主导、晚期结构凸显),不同步骤应采用不同稀疏预算。
核心 idea:通过三层递进设计——全局 Hilbert 重排序放大块间相似度差异 + 分层块评分细化语义异质性 + 自适应掩码缓存动态适配扩散过程——既保留块级执行效率,又隐式诱导细粒度稀疏性。
方法详解¶
整体框架¶
(1)视频 3D 潜在表示编码为 1D 令牌序列 + 文本条件;(2)用 3D Hilbert 曲线重排序令牌使空间-时间相邻令牌在序列中靠近;(3)通过分层块评分估计块级重要性,计算稀疏掩码(固定间隔更新缓存复用);(4)将稀疏掩码应用于 SparseFlashAttention,恢复原始顺序后输出。
关键设计¶
-
3D Hilbert 曲线令牌重排序:
- 功能:将三维视频张量中空间-时间相邻的令牌映射到一维序列中的相邻位置,扩大块间相似度差异。
- 核心思路:利用 Hilbert 空间填充曲线的局部保持性质,将 \((f, h, w)\) 维令牌通过 Hilbert 映射 \(\mathcal{P}\) 投影到 1D。两个令牌在原三维空间相近时重排后在 1D 序列上距离也相近。这样同一块内令牌倾向于来自视频中的连贯区域,块间则捕捉不同视频区域,大幅增加块级表示的一致性。实验测得重排序将查询和键的块内方差分别降低约 20%。
- 设计动机:标准行优先展平破坏了 3D 局部性;Hilbert 曲线后块级稀疏性应用于重排序列会在原始空间诱导细粒度、互联的稀疏模式;开销极低(约 120K 令牌仅需 2% 运行时)。
-
分层块评分机制:
- 功能:用多粒度聚合替代单一块级表示,生成更准确的块重要性估计。
- 核心思路:先将块进一步分解为更小的子块(大小 \(B_s\)),对子块计算注意力分数矩阵 \(\hat{A}\),聚合为块级评分 \(\hat{S}_{uv} = \sum_{i' \in \mathcal{B}_u} \sum_{j' \in \mathcal{B}_v} \hat{A}_{i' j'}\)。通过这种分层聚合,每个块级分数不仅捕捉块的平均特征,还融合块内多个语义中心的贡献。对查询块 \(\mathcal{B}_u\) 选出评分最高的 \(\gamma M\) 个键块(\(\gamma\) 为稀疏率),构造稀疏掩码 \(\mathcal{M}\)。
- 设计动机:粗粒度块平均假设块内语义齐一,但 DiT 中块常包含多个语义簇;分层评分避免单一表示的瓶颈,子块大小为 16 时质量最优(PSNR 29.378)而开销不增加。
-
自适应稀疏掩码缓存 + 预算动态分配:
- 功能:跨扩散时步复用稀疏掩码并动态调整稀疏率。
- 核心思路:观察表明块稀疏注意力的有效性随扩散步骤单调上升——早期噪声占主导、注意力分散;晚期逼近数据流形、注意力集中。利用此特性,自适应稀疏预算:初始化 \(\gamma_0 = 0.3\),每 25% 步骤递减 0.1,在剩余 75% 步骤平均稀疏率约 80%。掩码在固定间隔(每 25% 步骤)重新计算一次期间复用;虽然掩码缓存但稀疏注意力输出每步重算保证令牌表示的动态演进。
- 设计动机:避免每步重算掩码的计算开销;通过预算动态分配确保早期步骤有足够稀疏范围;图 6 对比固定 vs 自适应方案,后者在相同延迟下 PSNR 高 3-4 点。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 标准 | RadialAttention | SVG | SVG2 | DFSAttn |
|---|---|---|---|---|---|---|
| Wan2.1 | PSNR ↑ | — | 17.405 | 17.393 | 18.034 | 22.370 |
| Wan2.1 | SSIM ↑ | — | 0.624 | 0.612 | 0.640 | 0.764 |
| Wan2.1 | LPIPS ↓ | — | 0.357 | 0.362 | 0.338 | 0.183 |
| Wan2.1 | 稀疏率 | 0% | 73.78% | 65.71% | 68.19% | 78.51% |
| Wan2.1 | 加速 ↑ | 1.00× | 1.72× | 1.75× | 1.90× | 1.79× |
| HunyuanVideo | PSNR ↑ | — | 20.897 | 26.825 | 28.577 | 29.381 |
| HunyuanVideo | SSIM ↑ | — | 0.750 | 0.853 | 0.864 | 0.898 |
| HunyuanVideo | 加速 ↑ | 1.00× | 1.74× | 1.92× | 2.20× | 2.10× |
在 Wan2.1 上超越 SVG 29%(PSNR 22.37 vs 17.39),HunyuanVideo 上超越 SVG2 3%(PSNR 29.38 vs 28.58)。
消融实验¶
| 配置 | PSNR ↑ | SSIM ↑ | LPIPS ↓ | 说明 |
|---|---|---|---|---|
| 行优先扫描(Raster) | 27.794 | 0.874 | 0.124 | 基线 |
| 2D Hilbert(每帧独立) | 29.265 | 0.893 | 0.090 | 忽略帧间连贯性 |
| 3D 块分解(Block3D) | 29.156 | 0.897 | 0.090 | 块级递归,破坏全局局部性 |
| 3D Hilbert(本文) | 29.378 | 0.901 | 0.087 | 全局空间-时间保持,最优 |
关键发现¶
- 全局 3D Hilbert 超越其他重排序策略,说明同时保持空间和时间局部性的必要性。
- DFSAttn 在高稀疏率(> 80%)下 PSNR / SSIM / LPIPS 均显著优于基线,保证质量前提下达 1.79× / 2.10× 加速。
- VBench 综合评分与全注意力相近,整体视频质量充分保留。
亮点与洞察¶
- 理论与实践结合:推导了块稀疏注意力有效性的理论下界(定理 4.4),将块级选择准确度与块间相似度差异、语义异质性明确关联,指导三个核心设计的具体形式。
- 巧妙的空间变换诀窍:利用 Hilbert 曲线的局部保持性进行全局重排序,不仅扩大块间差异、精化块级表示,还隐式地在原始空间诱导细粒度稀疏——块级稀疏在重排序列上应用,在原 2D/3D 空间呈现为互联的细粒度模式。
- 跨时步动态适配:观察和利用扩散过程中注意力结构的渐进演变设计自适应稀疏预算,对其他使用块稀疏性加速扩散模型的工作具有普遍参考价值。
局限与展望¶
- 块大小固定(128),对不同分辨率 / 帧数的视频无自适应调整;可探索按内容或分辨率动态调整。
- 跨头异质性虽然论文提到但掩码在所有注意力头上共用,可能丢失某些头独有的稀疏特性。
- 与其他加速技术的协同(与 AdaCache 的协同比例)未详述,值得深入探索。
相关工作与启发¶
- vs 静态稀疏(RadialAttention):模式固定难以适应动态注意力;DFSAttn 动态构建掩码 PSNR 高 4.5 点。
- vs 粗粒度动态方法(SVG2):粗粒度块平均受块内语义混杂影响;DFSAttn 分层聚合细化估计 PSNR 高 1.2 点;通过 Hilbert 重排序进一步增强一致性。
- vs 细粒度稀疏内核(FG-Attn):FG-Attn 设计细粒度稀疏 CUDA 内核;DFSAttn 采用无内核方案,迁移性更好、依赖更轻。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从理论下界出发指导三层递进设计,Hilbert 重排序与分层聚合的组合兼具创新性与实用性。
- 实验充分度: ⭐⭐⭐⭐⭐ 两个 SOTA 模型 + 多维度指标 + 详尽消融 + 与三个强基线对比,实验严谨全面。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰、理论与方法衔接紧凑、配图信息量大。
- 价值: ⭐⭐⭐⭐⭐ 解决视频生成实际瓶颈,2.1× 加速保持质量具有直接工程价值;理论下界对其他扩散模型加速工作参考意义重大。