FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://ffp-300k.github.io （项目页）
领域: 视频生成 / 视频编辑
关键词: 首帧传播、视频编辑、数据集构造、旋转位置编码、自蒸馏

一句话总结¶

针对"首帧传播（FFP）视频编辑离不开运行时引导"这一痛点，本文先用两轨流水线造出 29 万对 720p、81 帧的高保真视频编辑数据集 FFP-300K，再提出无需运行时引导的 FreeProp 框架——用 AST-RoPE 动态解耦"首帧外观"与"源视频运动"、用自蒸馏把模型自己对源视频的理想表征当作正则，在 EditVerseBench 上全面超过包括商用 Aleph 在内的所有方法。

研究背景与动机¶

领域现状：高保真视频编辑主要有两条路。一是指令式（instruction-based），用户给一句文字、模型直接在整段视频上改；二是首帧传播（First-Frame Propagation, FFP），先用成熟的图像编辑工具把第一帧改到满意，再让视频模型把这个编辑"传播"到后续所有帧。FFP 把"理解文字语义"这个难活外包给图像编辑器，自己只需做"鲁棒的时序传播"，因此更可控、更容易出高保真结果。

现有痛点：FFP 听上去优雅，但现有方法严重依赖运行时引导（run-time guidance）才能工作——要么对每段视频单独做 LoRA 微调（如 I2VEdit），要么需要深度图、光流、预测 mask 这类辅助输入（如 StableV2V、GenProp）。这些引导既增加算力开销，又把模型的泛化能力绑死在辅助信号的质量上。

核心矛盾：作者指出，依赖引导并不是 FFP 范式本身的缺陷，而是训练数据不行的症状。现有视频编辑数据集普遍：(1) 片段太短、分辨率太低（Señorita-2M、InsViE），学不到长程运动和细节；(2) 任务单一（VPData 只做 inpainting），且不区分局部/全局编辑；(3) 图像视频混搭（VIVID-10M）破坏了连续运动先验。数据缺长、缺高分辨率、缺多样性，模型学不到鲁棒的时序先验，只好把外部引导当"拐杖"。

本文目标：拆成两个子问题——(a) 造一个长、高清、任务多样、源/目标严格配对的大规模数据集；(b) 设计一个真正"免引导"的传播框架，化解"忠于首帧外观"与"忠于源视频运动"这对核心张力。

切入角度：先补数据，再补模型。有了能教会模型长程时序先验的数据，模型才有底气抛掉运行时引导。

核心 idea：用 FFP-300K（数据）+ FreeProp（AST-RoPE 重映射位置编码 + 自蒸馏正则）双管齐下，让 FFP 编辑只靠"源视频 + 编辑后的首帧"两个输入就能完成。

方法详解¶

本文贡献分两块：一块是数据集 FFP-300K 的构造流水线，一块是模型框架 FreeProp。下面先讲数据怎么造，再讲模型怎么训。

整体框架¶

数据侧：FFP-300K 用两条独立专用轨道生成语义对齐的视频编辑配对——局部编辑轨（基于 Koala-36M，做物体级 swap/removal）和全局风格化轨（基于 Omni-Style，做整场景风格迁移）。每条轨道都走"感知 → 描述 → 合成 → 过滤"，最终标准化为 720p、81 帧的源/目标视频对，共 29 万对。

模型侧：FreeProp 建立在 Fun-Control（源自 Wan 2.1 的条件视频生成模型）之上。给定源视频 \(\mathcal{V}\) 和编辑后的首帧 \(\hat{v}\)，先用 VAE 编码成 latent，把首帧 latent 在时间维补零后与噪声 latent、源 latent、首帧二值 mask 沿通道拼接喂进 DiT 做速度预测（flow matching）。在这个骨架上插入两项创新：AST-RoPE 动态重映射位置编码来解耦外观/运动两个参照，自蒸馏用一个并行的"恒等传播"教师任务给学生 FFP 任务提供理想对齐目标。

下图是 FreeProp 的训练框架（学生 FFP 任务 + 教师恒等传播任务）：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源视频 𝒱 + 编辑后首帧 v̂"] --> B["VAE 编码<br/>拼接噪声/源/mask"]
    B --> C["FFP-300K 两轨数据构造<br/>提供长/高清/多样训练对"]
    C --> D["AST-RoPE<br/>从源 latent 预测 αS/αT<br/>分别重映射空间/时间头"]
    D --> E["DiT 主干<br/>学生：首帧传播"]
    F["教师：恒等传播<br/>由目标视频自重建"] -->|提供理想时序表征| G["自蒸馏<br/>L_motion + L_MMD"]
    E --> G
    G --> H["目标视频 V̂"]

关键设计¶

1. FFP-300K 两轨数据构造流水线：用模块化合成补齐 FFP 训练数据的长/清/多样缺口

针对"现有数据短、低清、任务混杂"的痛点，作者放弃统一流水线，改用两条专用轨道各自把质量做到极致。局部编辑轨对 Koala-36M 的源视频：先用 Qwen2.5-VL-72B 分析首帧、找出可编辑主体，再用 Grounded-SAM2 做实例分割得到逐帧 mask 视频，最后把 mask + caption 喂给视频 inpainting 模型 VACE 合成编辑结果。其中有个关键经验——空间条件的形式很讲究：用 mask 腐蚀（erosion）只保留目标 mask 的边界区域，逼 VACE 多用自己的内部先验做连贯补全；而且 swap 任务用"无 bbox"配置（不给硬空间约束，避免伪影、物体融入更自然），removal 任务用"有 bbox"配置（强空间先验确保物体被彻底抹掉、背景重建一致）。全局风格化轨走两阶段：Stage 1 用 Qwen2.5-VL 给 Omni-Style 的艺术图写电影感 caption，喂 Wan2.1-14B-I2V 生成语义对齐的源视频；Stage 2 再让 Qwen2.5-VL 结合风格图和源视频写风格 caption，配合 Video Depth Anything 抽的深度图喂 VACE，用"语义（caption）+ 结构（深度）+ 外观（风格图）"三重引导出风格化目标视频。

质量控制上，removal 子集走了一个迭代精炼回环：Qwen2.5-VL 自动筛出近 4 万候选，人工核验留 14,389 个高质量样本，用它们微调 VACE，再用增强后的 VACE 重生成整个 removal 子集以获得更干净的背景修复。最终经语义核验和去重，FFP-300K 含 290,441 对（风格化 143,913、removal 40,000、swap/修改 106,528），统一 720p、81 帧。这种模块化设计的好处是可随时扩容，为下一代视频编辑模型提供足够的泛化数据。

2. AST-RoPE（自适应时空旋转位置编码）：动态重映射坐标系，把"外观锚定"和"运动匹配"解耦到不同注意力头

标准 RoPE 给 DiT 强加一个静态坐标系：时间维匀速推进、对源视频真实运动无感知，空间距离固定、阻碍首帧作为全局内容锚点的传播。这正好卡在 FFP 的核心张力上。AST-RoPE 的做法是让模型根据源视频内容动态调制 token 的感知位置。具体借鉴 DiT 中"注意力头有空间/时间分工"的观察，把每层的头静态划成空间头 \(\mathcal{H}_S\) 和时间头 \(\mathcal{H}_T\)；用一个轻量 transformer + 双头 MLP 直接从源 latent \(z_{src}\) 预测出空间缩放因子 \(\alpha_S\) 和时间缩放因子 \(\alpha_T\)（比如运动剧烈的视频会被预测出更小的 \(\alpha_T\)）。

对空间头：为强化首帧影响，用 \(\alpha_S\) 调制首帧的感知位置距离——把首帧的时间索引从 0 偏移到 \(\alpha_S \cdot F'\)，当学到 \(\alpha_S < 1\) 时就缩短首帧与其他帧（尤其末尾帧）的有效距离，使自注意力给"首帧 token ↔ 后续帧 token"更高分数，让编辑内容被稳健传播。对时间头：用 \(\alpha_T\) 整体重缩放时间轴，把原始索引 \([0,1,\dots,F-1]\) 变成 \([0, \alpha_T, \dots, \alpha_T(F-1)]\)，相当于拉伸/压缩时间流形——运动快的视频学到更小 \(\alpha_T\)，缩短帧间感知距离、鼓励时间头建模更剧烈的运动。一句话：空间头管"把首帧拉近来锚外观"，时间头管"按源视频节奏缩时间来仿运动"，两者解耦后各司其职。

3. 基于恒等传播的自蒸馏：用模型对源视频的"完美知识"当老师，约束编辑传播的运动结构

标准 flow matching 对"运动动态 + 首帧参照"约束不够，编辑影响容易随时间衰减或语义漂移。作者的洞察是：模型自己处理源视频时产生的内部 latent，就是最理想的对齐目标。于是并行跑一个"教师"恒等传播任务——条件给的是目标视频 \(\hat{V}\) 自己和它的首帧 \(\hat{v}\)，去重建 \(\hat{V}\)，这个恒等映射强迫其内部 latent 完美编码了期望的时空动态；再用蒸馏损失把"学生"FFP 任务的表征往这个理想表征上拉。

蒸馏有两个互补的损失。帧间关系蒸馏 \(\mathcal{L}_{motion}\)（借鉴 VideoREPA）：把 DiT 第 \(l\) 块的 latent 空间下采样 \(K_S\) 倍后算 Gram 矩阵，对齐 FFP 任务与恒等任务的帧间相似度结构（运动的指征）：

\[\mathcal{L}_{motion} = \frac{1}{F'(F'-1)}\sum_{i\neq j}|G_{i,:,j,:}-\hat{G}_{i,:,j,:}|\]

首帧一致性损失 \(\mathcal{L}_{MMD}\)：对每帧 \(i\) 算它与首帧的 token 相似度矩阵 \(S_i = z^l_1 (z^l_i)^T\)，把其 \(N\) 行当成一个经验分布 \(P_i\)，再用 RBF 核的最大均值差异 MMD 度量它相对首帧的"时间漂移分" \(d_i = \text{MMD}^2(P_1, P_i)\)，约束学生的漂移轨迹与教师 \(\hat{d}_i\) 一致：

\[\mathcal{L}_{MMD} = \sum_{i=2}^{F} |d_i - \hat{d}_i|\]

总目标为 \(\mathcal{L} = \mathcal{L}_{FM} + \lambda_{motion}\mathcal{L}_{motion} + \lambda_{MMD}\mathcal{L}_{MMD}\)。和那些从外部通用模型蒸馏的方法不同，这里的老师对源视频的具体运动有完美知识，所以传播编辑时不会破坏视频本身的时序特征——这是"自蒸馏"区别于一般蒸馏的关键。

损失函数 / 训练策略¶

基于 Fun-Control 用 LoRA（rank=128）微调 2 个 epoch；AdamW，学习率 \(2\times10^{-4}\) + cosine 衰减；\(\lambda_{motion}=5\)、\(\lambda_{MMD}=1\)。主实验训了 81 帧和 33 帧两个变体以便与不同方法公平对比，消融实验用 81 帧变体。

实验关键数据¶

主实验¶

在 EditVerseBench（筛出 125 个时序结构稳定、适合传播设定的视频，用 Qwen-Edit 生成编辑首帧）上对比三类方法。Ours 的 33f / 81f 两个变体在全部 6 个自动指标上都取得 SOTA：

类型	方法	分辨率	帧数	CLIP↑	DINO↑	Frame↑	Video↑	PickScore↑	VLM↑
指令式	EditVerse	624×352	64	0.986	0.986	27.776	25.293	20.132	7.104
指令式(商用)	Aleph	1280×720	64	0.989	0.984	28.087	24.837	20.291	7.154
FFP	VACE	832×480	61	0.990	0.989	27.169	24.188	20.095	6.072
FFP	Señorita*	864×448	33	0.989	0.987	27.754	24.657	19.913	7.341
FFP	Ours-33f	1280×720	33	0.991	0.990	28.293	25.398	20.419	7.631
FFP	Ours-81f	1280×720	81	0.991	0.991	28.316	25.925	20.405	7.600

相对竞争者约 +0.2 PickScore、+0.3 VLM Score。Ours-81f 在时序一致性（CLIP/DINO 均 0.991）和视频级文本对齐（25.925）最强，Ours-33f 在感知质量（PickScore 20.419）和语义正确（VLM 7.631）最强。值得注意的是它不仅超过 FFP 同类（VACE），也超过强指令式方法乃至商用 Aleph。

用户研究（15 人各评 8 个视频，1–5 分）也一致偏好本文方法：

方法	编辑准确 EA↑	运动准确 MA↑	视频质量 VQ↑
EditVerse	4.063	3.792	3.354
Señorita-2M	3.563	3.208	2.354
Aleph	3.412	3.271	3.459
Ours	4.250	4.333	4.146

消融实验¶

三个 81 帧变体，逐步加组件：

配置	CLIP↑	DINO↑	Frame↑	Video↑	PickScore↑	VLM↑	说明
Baseline	0.986	0.984	27.420	24.960	20.010	7.210	Wan-Fun 仅在本文数据上微调
+AST-RoPE	0.989	0.988	28.178	25.817	20.354	7.542	加时空 RoPE 适配
Full	0.991	0.991	28.316	25.925	20.405	7.600	再加自蒸馏

关键发现¶

数据本身就贡献巨大：Baseline（只在 FFP-300K 上微调、不加任何模型改动）已经能拿到 0.986 CLIP / 7.210 VLM，逼近甚至超过部分对手，印证"FFP 的瓶颈在数据"这一核心论断。
AST-RoPE 增益最显著：从 Baseline 到 +AST-RoPE，VLM 7.210→7.542、Video 文本对齐 24.960→25.817，是消融里单步提升最大的组件，说明"解耦外观/运动参照"确实是关键。
自蒸馏锦上添花：Full 在一致性（CLIP/DINO 0.991）和各项上进一步小幅提升，主要稳住长程时序、防语义漂移。
33f vs 81f 各有所长：短序列变体感知质量/语义略高，长序列变体时序一致性更稳——传播长度与不同指标存在权衡（⚠️ 两变体训练帧数不同，跨变体比大小需注意 caveat）。

亮点与洞察¶

"数据缺口才是病根"的归因很到位：把 FFP 依赖运行时引导重新诊断为"数据短/低清/不多样"导致学不到时序先验，再用 Baseline 已强这一消融实证它——这种"先证伪流行解释、再补根因"的论证方式很有说服力。
AST-RoPE 是几乎零成本的结构改造：不改注意力计算，只让一个轻量模块从源 latent 预测两个缩放因子去重映射 RoPE 索引，就把"首帧锚外观（空间头缩近距离）/源视频仿运动（时间头缩时间轴）"解耦开，思路可迁移到其他需要"参照解耦"的条件视频生成任务。
自蒸馏选对了老师：用"模型对源视频的恒等传播表征"当蒸馏目标，而非外部通用模型——老师天然拥有源视频运动的完美知识，避免了跨模型蒸馏引入的分布错配，这个"自参照"设计是巧点。
数据流水线的工程经验可复用：swap 用无 bbox、removal 用有 bbox，mask 腐蚀逼模型用内部先验，以及"筛→人核→微调 VACE→重生成"的迭代精炼回环，都是造高质量合成编辑数据的实用 trick。

局限与展望¶

强依赖一串大模型：数据构造重度依赖 Qwen2.5-VL-72B、Grounded-SAM2、VACE、Wan-I2V 等，合成质量被这些上游模型的能力上限和偏差所约束；数据本质是合成而非真实编辑对。
评测被收窄：EditVerseBench 被筛到 125 个"时序结构稳定"的视频才适配传播设定，且 VLM 评测从 GPT-4o 换成 Qwen2.5-VL（为可复现）——指标口径与原 benchmark 不完全可比，绝对分数横向比要谨慎。
首帧编辑器是上限：FFP 范式把语义理解外包给图像编辑器（这里用 Qwen-Edit），首帧编辑错了（位置、语义）传播再好也救不回来；论文也承认 Señorita 等对首帧质量敏感。
缩放因子可解释性待证：\(\alpha_S/\alpha_T\) 的"运动快→更小 \(\alpha_T\)"是直觉叙述，文中未给定量分析它们到底学到了什么（⚠️ 以原文为准）。改进方向：把数据扩到真实人工编辑对、给 AST-RoPE 加可解释性分析。

评分¶

新颖性: ⭐⭐⭐⭐ 数据缺口归因 + AST-RoPE 重映射 + 自参照蒸馏三点都不算大刀阔斧但组合扎实，FFP 免引导是实打实的推进
实验充分度: ⭐⭐⭐⭐ 6 指标主表 + 用户研究 + 逐组件消融齐全，但评测 benchmark 被筛窄、VLM 评测换模型，横向可比性打折
写作质量: ⭐⭐⭐⭐ 论证链条清晰（先证伪、再补根因），数据流水线和方法都讲得清楚
价值: ⭐⭐⭐⭐⭐ 开源 29 万对 720p/81 帧数据集 + 免引导框架，对视频编辑社区是实打实的基础设施贡献