FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://ffp-300k.github.io (项目页)
领域: 视频生成 / 视频编辑
关键词: 首帧传播、视频编辑、数据集构造、旋转位置编码、自蒸馏
一句话总结¶
针对"首帧传播(FFP)视频编辑离不开运行时引导"这一痛点,本文先用两轨流水线造出 29 万对 720p、81 帧的高保真视频编辑数据集 FFP-300K,再提出无需运行时引导的 FreeProp 框架——用 AST-RoPE 动态解耦"首帧外观"与"源视频运动"、用自蒸馏把模型自己对源视频的理想表征当作正则,在 EditVerseBench 上全面超过包括商用 Aleph 在内的所有方法。
研究背景与动机¶
领域现状:高保真视频编辑主要有两条路。一是指令式(instruction-based),用户给一句文字、模型直接在整段视频上改;二是首帧传播(First-Frame Propagation, FFP),先用成熟的图像编辑工具把第一帧改到满意,再让视频模型把这个编辑"传播"到后续所有帧。FFP 把"理解文字语义"这个难活外包给图像编辑器,自己只需做"鲁棒的时序传播",因此更可控、更容易出高保真结果。
现有痛点:FFP 听上去优雅,但现有方法严重依赖运行时引导(run-time guidance)才能工作——要么对每段视频单独做 LoRA 微调(如 I2VEdit),要么需要深度图、光流、预测 mask 这类辅助输入(如 StableV2V、GenProp)。这些引导既增加算力开销,又把模型的泛化能力绑死在辅助信号的质量上。
核心矛盾:作者指出,依赖引导并不是 FFP 范式本身的缺陷,而是训练数据不行的症状。现有视频编辑数据集普遍:(1) 片段太短、分辨率太低(Señorita-2M、InsViE),学不到长程运动和细节;(2) 任务单一(VPData 只做 inpainting),且不区分局部/全局编辑;(3) 图像视频混搭(VIVID-10M)破坏了连续运动先验。数据缺长、缺高分辨率、缺多样性,模型学不到鲁棒的时序先验,只好把外部引导当"拐杖"。
本文目标:拆成两个子问题——(a) 造一个长、高清、任务多样、源/目标严格配对的大规模数据集;(b) 设计一个真正"免引导"的传播框架,化解"忠于首帧外观"与"忠于源视频运动"这对核心张力。
切入角度:先补数据,再补模型。有了能教会模型长程时序先验的数据,模型才有底气抛掉运行时引导。
核心 idea:用 FFP-300K(数据)+ FreeProp(AST-RoPE 重映射位置编码 + 自蒸馏正则)双管齐下,让 FFP 编辑只靠"源视频 + 编辑后的首帧"两个输入就能完成。
方法详解¶
本文贡献分两块:一块是数据集 FFP-300K 的构造流水线,一块是模型框架 FreeProp。下面先讲数据怎么造,再讲模型怎么训。
整体框架¶
数据侧:FFP-300K 用两条独立专用轨道生成语义对齐的视频编辑配对——局部编辑轨(基于 Koala-36M,做物体级 swap/removal)和全局风格化轨(基于 Omni-Style,做整场景风格迁移)。每条轨道都走"感知 → 描述 → 合成 → 过滤",最终标准化为 720p、81 帧的源/目标视频对,共 29 万对。
模型侧:FreeProp 建立在 Fun-Control(源自 Wan 2.1 的条件视频生成模型)之上。给定源视频 \(\mathcal{V}\) 和编辑后的首帧 \(\hat{v}\),先用 VAE 编码成 latent,把首帧 latent 在时间维补零后与噪声 latent、源 latent、首帧二值 mask 沿通道拼接喂进 DiT 做速度预测(flow matching)。在这个骨架上插入两项创新:AST-RoPE 动态重映射位置编码来解耦外观/运动两个参照,自蒸馏用一个并行的"恒等传播"教师任务给学生 FFP 任务提供理想对齐目标。
下图是 FreeProp 的训练框架(学生 FFP 任务 + 教师恒等传播任务):
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["源视频 𝒱 + 编辑后首帧 v̂"] --> B["VAE 编码<br/>拼接噪声/源/mask"]
B --> C["FFP-300K 两轨数据构造<br/>提供长/高清/多样训练对"]
C --> D["AST-RoPE<br/>从源 latent 预测 αS/αT<br/>分别重映射空间/时间头"]
D --> E["DiT 主干<br/>学生:首帧传播"]
F["教师:恒等传播<br/>由目标视频自重建"] -->|提供理想时序表征| G["自蒸馏<br/>L_motion + L_MMD"]
E --> G
G --> H["目标视频 V̂"]
关键设计¶
1. FFP-300K 两轨数据构造流水线:用模块化合成补齐 FFP 训练数据的长/清/多样缺口
针对"现有数据短、低清、任务混杂"的痛点,作者放弃统一流水线,改用两条专用轨道各自把质量做到极致。局部编辑轨对 Koala-36M 的源视频:先用 Qwen2.5-VL-72B 分析首帧、找出可编辑主体,再用 Grounded-SAM2 做实例分割得到逐帧 mask 视频,最后把 mask + caption 喂给视频 inpainting 模型 VACE 合成编辑结果。其中有个关键经验——空间条件的形式很讲究:用 mask 腐蚀(erosion)只保留目标 mask 的边界区域,逼 VACE 多用自己的内部先验做连贯补全;而且 swap 任务用"无 bbox"配置(不给硬空间约束,避免伪影、物体融入更自然),removal 任务用"有 bbox"配置(强空间先验确保物体被彻底抹掉、背景重建一致)。全局风格化轨走两阶段:Stage 1 用 Qwen2.5-VL 给 Omni-Style 的艺术图写电影感 caption,喂 Wan2.1-14B-I2V 生成语义对齐的源视频;Stage 2 再让 Qwen2.5-VL 结合风格图和源视频写风格 caption,配合 Video Depth Anything 抽的深度图喂 VACE,用"语义(caption)+ 结构(深度)+ 外观(风格图)"三重引导出风格化目标视频。
质量控制上,removal 子集走了一个迭代精炼回环:Qwen2.5-VL 自动筛出近 4 万候选,人工核验留 14,389 个高质量样本,用它们微调 VACE,再用增强后的 VACE 重生成整个 removal 子集以获得更干净的背景修复。最终经语义核验和去重,FFP-300K 含 290,441 对(风格化 143,913、removal 40,000、swap/修改 106,528),统一 720p、81 帧。这种模块化设计的好处是可随时扩容,为下一代视频编辑模型提供足够的泛化数据。
2. AST-RoPE(自适应时空旋转位置编码):动态重映射坐标系,把"外观锚定"和"运动匹配"解耦到不同注意力头
标准 RoPE 给 DiT 强加一个静态坐标系:时间维匀速推进、对源视频真实运动无感知,空间距离固定、阻碍首帧作为全局内容锚点的传播。这正好卡在 FFP 的核心张力上。AST-RoPE 的做法是让模型根据源视频内容动态调制 token 的感知位置。具体借鉴 DiT 中"注意力头有空间/时间分工"的观察,把每层的头静态划成空间头 \(\mathcal{H}_S\) 和时间头 \(\mathcal{H}_T\);用一个轻量 transformer + 双头 MLP 直接从源 latent \(z_{src}\) 预测出空间缩放因子 \(\alpha_S\) 和时间缩放因子 \(\alpha_T\)(比如运动剧烈的视频会被预测出更小的 \(\alpha_T\))。
对空间头:为强化首帧影响,用 \(\alpha_S\) 调制首帧的感知位置距离——把首帧的时间索引从 0 偏移到 \(\alpha_S \cdot F'\),当学到 \(\alpha_S < 1\) 时就缩短首帧与其他帧(尤其末尾帧)的有效距离,使自注意力给"首帧 token ↔ 后续帧 token"更高分数,让编辑内容被稳健传播。对时间头:用 \(\alpha_T\) 整体重缩放时间轴,把原始索引 \([0,1,\dots,F-1]\) 变成 \([0, \alpha_T, \dots, \alpha_T(F-1)]\),相当于拉伸/压缩时间流形——运动快的视频学到更小 \(\alpha_T\),缩短帧间感知距离、鼓励时间头建模更剧烈的运动。一句话:空间头管"把首帧拉近来锚外观",时间头管"按源视频节奏缩时间来仿运动",两者解耦后各司其职。
3. 基于恒等传播的自蒸馏:用模型对源视频的"完美知识"当老师,约束编辑传播的运动结构
标准 flow matching 对"运动动态 + 首帧参照"约束不够,编辑影响容易随时间衰减或语义漂移。作者的洞察是:模型自己处理源视频时产生的内部 latent,就是最理想的对齐目标。于是并行跑一个"教师"恒等传播任务——条件给的是目标视频 \(\hat{V}\) 自己和它的首帧 \(\hat{v}\),去重建 \(\hat{V}\),这个恒等映射强迫其内部 latent 完美编码了期望的时空动态;再用蒸馏损失把"学生"FFP 任务的表征往这个理想表征上拉。
蒸馏有两个互补的损失。帧间关系蒸馏 \(\mathcal{L}_{motion}\)(借鉴 VideoREPA):把 DiT 第 \(l\) 块的 latent 空间下采样 \(K_S\) 倍后算 Gram 矩阵,对齐 FFP 任务与恒等任务的帧间相似度结构(运动的指征):
首帧一致性损失 \(\mathcal{L}_{MMD}\):对每帧 \(i\) 算它与首帧的 token 相似度矩阵 \(S_i = z^l_1 (z^l_i)^T\),把其 \(N\) 行当成一个经验分布 \(P_i\),再用 RBF 核的最大均值差异 MMD 度量它相对首帧的"时间漂移分" \(d_i = \text{MMD}^2(P_1, P_i)\),约束学生的漂移轨迹与教师 \(\hat{d}_i\) 一致:
总目标为 \(\mathcal{L} = \mathcal{L}_{FM} + \lambda_{motion}\mathcal{L}_{motion} + \lambda_{MMD}\mathcal{L}_{MMD}\)。和那些从外部通用模型蒸馏的方法不同,这里的老师对源视频的具体运动有完美知识,所以传播编辑时不会破坏视频本身的时序特征——这是"自蒸馏"区别于一般蒸馏的关键。
损失函数 / 训练策略¶
基于 Fun-Control 用 LoRA(rank=128)微调 2 个 epoch;AdamW,学习率 \(2\times10^{-4}\) + cosine 衰减;\(\lambda_{motion}=5\)、\(\lambda_{MMD}=1\)。主实验训了 81 帧和 33 帧两个变体以便与不同方法公平对比,消融实验用 81 帧变体。
实验关键数据¶
主实验¶
在 EditVerseBench(筛出 125 个时序结构稳定、适合传播设定的视频,用 Qwen-Edit 生成编辑首帧)上对比三类方法。Ours 的 33f / 81f 两个变体在全部 6 个自动指标上都取得 SOTA:
| 类型 | 方法 | 分辨率 | 帧数 | CLIP↑ | DINO↑ | Frame↑ | Video↑ | PickScore↑ | VLM↑ |
|---|---|---|---|---|---|---|---|---|---|
| 指令式 | EditVerse | 624×352 | 64 | 0.986 | 0.986 | 27.776 | 25.293 | 20.132 | 7.104 |
| 指令式(商用) | Aleph | 1280×720 | 64 | 0.989 | 0.984 | 28.087 | 24.837 | 20.291 | 7.154 |
| FFP | VACE | 832×480 | 61 | 0.990 | 0.989 | 27.169 | 24.188 | 20.095 | 6.072 |
| FFP | Señorita* | 864×448 | 33 | 0.989 | 0.987 | 27.754 | 24.657 | 19.913 | 7.341 |
| FFP | Ours-33f | 1280×720 | 33 | 0.991 | 0.990 | 28.293 | 25.398 | 20.419 | 7.631 |
| FFP | Ours-81f | 1280×720 | 81 | 0.991 | 0.991 | 28.316 | 25.925 | 20.405 | 7.600 |
相对竞争者约 +0.2 PickScore、+0.3 VLM Score。Ours-81f 在时序一致性(CLIP/DINO 均 0.991)和视频级文本对齐(25.925)最强,Ours-33f 在感知质量(PickScore 20.419)和语义正确(VLM 7.631)最强。值得注意的是它不仅超过 FFP 同类(VACE),也超过强指令式方法乃至商用 Aleph。
用户研究(15 人各评 8 个视频,1–5 分)也一致偏好本文方法:
| 方法 | 编辑准确 EA↑ | 运动准确 MA↑ | 视频质量 VQ↑ |
|---|---|---|---|
| EditVerse | 4.063 | 3.792 | 3.354 |
| Señorita-2M | 3.563 | 3.208 | 2.354 |
| Aleph | 3.412 | 3.271 | 3.459 |
| Ours | 4.250 | 4.333 | 4.146 |
消融实验¶
三个 81 帧变体,逐步加组件:
| 配置 | CLIP↑ | DINO↑ | Frame↑ | Video↑ | PickScore↑ | VLM↑ | 说明 |
|---|---|---|---|---|---|---|---|
| Baseline | 0.986 | 0.984 | 27.420 | 24.960 | 20.010 | 7.210 | Wan-Fun 仅在本文数据上微调 |
| +AST-RoPE | 0.989 | 0.988 | 28.178 | 25.817 | 20.354 | 7.542 | 加时空 RoPE 适配 |
| Full | 0.991 | 0.991 | 28.316 | 25.925 | 20.405 | 7.600 | 再加自蒸馏 |
关键发现¶
- 数据本身就贡献巨大:Baseline(只在 FFP-300K 上微调、不加任何模型改动)已经能拿到 0.986 CLIP / 7.210 VLM,逼近甚至超过部分对手,印证"FFP 的瓶颈在数据"这一核心论断。
- AST-RoPE 增益最显著:从 Baseline 到 +AST-RoPE,VLM 7.210→7.542、Video 文本对齐 24.960→25.817,是消融里单步提升最大的组件,说明"解耦外观/运动参照"确实是关键。
- 自蒸馏锦上添花:Full 在一致性(CLIP/DINO 0.991)和各项上进一步小幅提升,主要稳住长程时序、防语义漂移。
- 33f vs 81f 各有所长:短序列变体感知质量/语义略高,长序列变体时序一致性更稳——传播长度与不同指标存在权衡(⚠️ 两变体训练帧数不同,跨变体比大小需注意 caveat)。
亮点与洞察¶
- "数据缺口才是病根"的归因很到位:把 FFP 依赖运行时引导重新诊断为"数据短/低清/不多样"导致学不到时序先验,再用 Baseline 已强这一消融实证它——这种"先证伪流行解释、再补根因"的论证方式很有说服力。
- AST-RoPE 是几乎零成本的结构改造:不改注意力计算,只让一个轻量模块从源 latent 预测两个缩放因子去重映射 RoPE 索引,就把"首帧锚外观(空间头缩近距离)/源视频仿运动(时间头缩时间轴)"解耦开,思路可迁移到其他需要"参照解耦"的条件视频生成任务。
- 自蒸馏选对了老师:用"模型对源视频的恒等传播表征"当蒸馏目标,而非外部通用模型——老师天然拥有源视频运动的完美知识,避免了跨模型蒸馏引入的分布错配,这个"自参照"设计是巧点。
- 数据流水线的工程经验可复用:swap 用无 bbox、removal 用有 bbox,mask 腐蚀逼模型用内部先验,以及"筛→人核→微调 VACE→重生成"的迭代精炼回环,都是造高质量合成编辑数据的实用 trick。
局限与展望¶
- 强依赖一串大模型:数据构造重度依赖 Qwen2.5-VL-72B、Grounded-SAM2、VACE、Wan-I2V 等,合成质量被这些上游模型的能力上限和偏差所约束;数据本质是合成而非真实编辑对。
- 评测被收窄:EditVerseBench 被筛到 125 个"时序结构稳定"的视频才适配传播设定,且 VLM 评测从 GPT-4o 换成 Qwen2.5-VL(为可复现)——指标口径与原 benchmark 不完全可比,绝对分数横向比要谨慎。
- 首帧编辑器是上限:FFP 范式把语义理解外包给图像编辑器(这里用 Qwen-Edit),首帧编辑错了(位置、语义)传播再好也救不回来;论文也承认 Señorita 等对首帧质量敏感。
- 缩放因子可解释性待证:\(\alpha_S/\alpha_T\) 的"运动快→更小 \(\alpha_T\)"是直觉叙述,文中未给定量分析它们到底学到了什么(⚠️ 以原文为准)。改进方向:把数据扩到真实人工编辑对、给 AST-RoPE 加可解释性分析。
相关工作与启发¶
- vs 指令式方法(EditVerse / Aleph / LucyEdit):它们要模型同时理解文字意图并跨时序一致施加,难度叠加、保真常落后图像版;本文走 FFP 把语义外包给图像编辑器,自己专注传播,结果更稳、且超过商用 Aleph。
- vs 依赖引导的 FFP 方法(I2VEdit / StableV2V / GenProp):它们靠 per-video 微调或深度/光流/mask 等辅助输入维持时序,成本高、泛化受辅助质量限制;本文用"补数据 + AST-RoPE + 自蒸馏"实现纯免引导,只吃源视频 + 编辑首帧。
- vs 既有视频编辑数据集(Señorita-2M / InsViE / VPData / VIVID-10M):它们短、低清、任务窄或图视频混搭;FFP-300K 用 720p、81 帧、局部/全局分轨、源/目标严格配对的设计,确立了面向通用 FFP 的标准训练集。
- vs 外部蒸馏(如 VideoREPA 从通用模型蒸馏):本文改成自蒸馏,老师对源视频运动有完美知识,蒸出来的运动结构更贴合本视频,避免跨模型分布错配。
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据缺口归因 + AST-RoPE 重映射 + 自参照蒸馏三点都不算大刀阔斧但组合扎实,FFP 免引导是实打实的推进
- 实验充分度: ⭐⭐⭐⭐ 6 指标主表 + 用户研究 + 逐组件消融齐全,但评测 benchmark 被筛窄、VLM 评测换模型,横向可比性打折
- 写作质量: ⭐⭐⭐⭐ 论证链条清晰(先证伪、再补根因),数据流水线和方法都讲得清楚
- 价值: ⭐⭐⭐⭐⭐ 开源 29 万对 720p/81 帧数据集 + 免引导框架,对视频编辑社区是实打实的基础设施贡献