SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution¶
会议: CVPR 2026
arXiv: 2603.08536
代码: GitHub
领域: 视频生成
关键词: 生成视频溯源, 3D VAE, 滑动窗口重建, 免训练, 时间一致性
一句话总结¶
SWIFT 首次定义了"少样本免训练生成视频溯源"任务,利用 3D VAE 中"多帧像素↔单帧潜变量"的时间映射特性,通过固定长度滑动窗口执行正常和损坏两次重建,用重叠帧的损失比值作为溯源信号,仅需 20 个样本即可达到 90%+ 平均溯源准确率,5 模型平均 94%。
研究背景与动机¶
- 领域现状:视频生成技术(HunyuanVideo、Wan2.1/2.2、EasyAnimate 等)飞速发展,均采用 3D VAE + DiT 架构。生成视频可能被滥用于传播虚假信息、侵犯知识产权。
- 现有痛点:现有溯源方法分两类——(1) 水印主动溯源需嵌入操作,可能降低视频质量;(2) 训练式被动溯源需大量训练样本,新模型出现需重新训练。图像溯源方法(RONAN/LatentTracer/AEDR)迁移到视频时准确率显著下降。
- 核心矛盾:图像溯源方法只关注空间一致性,忽略了视频数据固有的时间一致性约束,无法有效处理序列相关的扰动。
- 本文目标 如何在无需训练、仅需少量样本的条件下,利用视频的时间特性实现可靠的生成视频溯源?
- 切入角度:SOTA 视频生成模型的 3D VAE 在时间维度上进行上下采样(压缩比通常为 4 或 8),自然形成了"K 帧像素↔1 帧潜变量"的时间映射。属于某模型的视频在按 chunk 对齐时满足该模型 VAE 分布,而不属于的视频不满足。
- 核心 idea:通过滑动窗口打破时间对齐来"损坏"重建,属于目标模型的视频在正常/损坏重建间有显著损失差异,非属于视频无此差异。
方法详解¶
整体框架¶
给定一个测试视频和目标模型的 3D VAE,SWIFT 执行三步:(1) 确定固定长度滑动窗口,(2) 分别进行正常和损坏重建并计算重叠帧的损失比值作为归属信号,(3) 用 KDE 确定阈值并判定归属结果。整个过程仅需白盒访问目标模型的 VAE 编解码器,不需要训练任何模型。
关键设计¶
-
固定长度滑动窗口:
- 功能:定义两个窗口来执行对比重建——一个保持时间对齐(正常),一个打破时间对齐(损坏)
- 核心思路:设视频有 \(KN\) 帧(\(K\) 为时间压缩比,\(N\) 为 chunk 数),窗口大小为 \(K(N-1)\) 帧。正常窗口 \(W_0\) 从第 1 帧开始,其内每个 chunk 的帧组成和位置均满足 VAE 的时间映射。损坏窗口 \(W_{K-1}\) 向后偏移 \(K-1\) 帧,每帧都被错位到错误的 chunk 位置,最大程度破坏时间一致性。当 \(j \bmod K = 0\) 时为正常窗口,\(j \bmod K \neq 0\) 时为损坏窗口。
- 设计动机:选择 \(W_0\) 和 \(W_{K-1}\) 是因为 \(K-1\) 偏移可同时改变 chunk 内帧组成和帧位置映射,实现最大破坏效果。对于解码器含去噪步骤的 VAE(如 LTX),需定量计算最大差异窗口对。
-
正常与损坏差分重建:
- 功能:通过两次重建的损失比值生成归属信号
- 核心思路:对 \(W_0\) 重建得 \(W_0^* = \mathcal{R}(W_0)\),对 \(W_{K-1}\) 重建得 \(W_{K-1}^{**} = \mathcal{R}(W_{K-1})\)。归属信号 \(t\) 定义为重叠帧的损失比值均值:\(t = \frac{1}{K(N-1)-K+1} \sum_{i=K}^{K(N-1)} \frac{\mathcal{L}(F_i^*, F_i)}{\mathcal{L}(F_i^{**}, F_i)}\),损失用 MSE。对于属于目标模型的视频,正常重建损失小、损坏重建损失大,因此 \(t \ll 1\);对于不属于的视频,两次重建损失相近,\(t \approx 1\)。
- 设计动机:差分设计消除了不同视频内容本身重建难度的影响,使归属信号更鲁棒。
-
KDE 自适应阈值确定:
- 功能:为每个模型独立确定归属判定阈值
- 核心思路:用核密度估计(KDE)从少量归属视频的信号分布估计阈值 \(\tau\),选择累积分布函数达到 \(1-\alpha\)(\(\alpha=0.05\))的点。使用高斯核和 Scott 带宽,无需假设数据分布形式。
- 设计动机:归属信号在不同模型间不遵循一致概率分布且可能有离群值,KDE 是非参数方法,天然对分布假设和离群值鲁棒。
损失函数 / 训练策略¶
SWIFT 是完全免训练方法。核心度量使用 MSE 作为重建损失。消融实验表明 MSE 优于 MAE(98.4% vs 97.8%),远优于 PSNR(47.8%)和 SSIM(47.1%)。后两者因关注结构而非逐像素差异,无法有效捕捉 VAE 分布特征。
实验关键数据¶
主实验¶
在自建 S-Video 数据集(4000 视频:500 真实 + 3500 生成自 5 个 SOTA 模型)上评估:
| 目标模型 | SWIFT 平均准确率 | AEDR 平均准确率 | 提升 |
|---|---|---|---|
| HunyuanVideo | 90.7% | 60.5% | +30.2% |
| Wan2.1 | 98.4% | 89.3% | +9.1% |
| EasyAnimate | 97.8% | 63.1% | +34.7% |
| LTX-Video | 85.3% | 79.3% | +6.0% |
| Wan2.2 | 97.9% | 78.5% | +19.4% |
| 整体平均 | 94.0% | 73.6% | +20.4% |
消融实验¶
少样本能力(阈值所需样本数):
| 样本数 S | 平均准确率 | 说明 |
|---|---|---|
| 0 (零样本) | 85.1% | 直接设 \(\tau=1\) |
| 20 | 90.2% | 少样本即可达 90% |
| 50 | 92.5% | 性能趋于饱和 |
| 200 | 94.0% | 最优 |
窗口选择消融(HunyuanVideo, K=4):
| 正常窗口 | 损坏窗口 | 准确率 |
|---|---|---|
| \(W_0\) | \(W_1\) | 82.3% |
| \(W_0\) | \(W_2\) | 82.3% |
| \(W_0\) | \(W_3\) | 90.7% |
关键发现¶
- Wan2.1/EA/Wan2.2 上表现极其出色(97-98%),因为这些模型的 VAE 是纯粹的编解码器,VAE 分布特征保留完整。
- LTX-Video 上最低(85.3%),因其 VAE 解码时附加去噪步骤,削弱了重建差异信号。但依然远超基线。
- 零样本可行:对 HunyuanVideo、EasyAnimate、Wan2.2 直接设阈值为 1 即可实现约 90% 准确率。
- 效率优势:比 AEDR 快 4-32%,因 SWIFT 仅重建窗口而非完整视频。
- MSE 为最佳损失度量:MSE 比 MAE 更有效放大差异(98.4% vs 97.8%)。
亮点与洞察¶
- 巧妙利用 3D VAE 时间压缩特性:将 3D VAE 的固有时间映射关系转化为溯源信号源,思路极为巧妙。这种"利用模型结构特性做取证"的范式可推广到其他利用特定架构组件的检测任务。
- 差分重建消除内容偏差:不是看绝对重建误差(会受视频内容影响),而是看正常/损坏的比值,使得信号仅依赖于 VAE 分布匹配程度,大幅提升鲁棒性。
- 少样本+免训练的实用性:仅需 20 个归属视频样本就能达到 90% 准确率,无需训练任何模型,在新模型不断涌现的当下非常实用。
局限与展望¶
- LTX-Video 因解码器去噪步骤导致准确率下降至 85.3%,对于采用更复杂 VAE 设计的未来模型,方法可能需要适配
- 当前仅支持白盒访问 VAE 的场景,模型所有者之外的第三方难以使用
- 未讨论视频经过压缩(如 H.264/H.265)后的鲁棒性
- 当多个模型共享同一 VAE 时(如基于同一基础模型微调),溯源可能失效
- 改进方向:可探索黑盒设置下的溯源、结合频域分析增强对复杂 VAE 的检测
相关工作与启发¶
- vs AEDR: 图像溯源方法,通过 VAE 重建一致性做归属。SWIFT 将其扩展到视频,关键创新是利用时间维度的差分重建而非单纯空间重建,准确率从 73.6% 提升到 94.0%。
- vs RONAN/LatentTracer: 基于梯度优化的图像溯源方法,计算开销大。SWIFT 无需梯度优化,仅需前向编解码即可。
- vs 水印方法: 水印需修改生成管线,SWIFT 完全被动、对生成过程透明。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次定义该任务,巧妙利用 3D VAE 时间特性,差分重建思路独特
- 实验充分度: ⭐⭐⭐⭐ 5 个模型评测充分,消融详尽,但缺少视频压缩鲁棒性测试
- 写作质量: ⭐⭐⭐⭐ 形式化定义清晰,但部分符号较冗余
- 价值: ⭐⭐⭐⭐⭐ 高度实用,少样本免训练范式在 AI 安全领域有重要应用前景