EasyCreator: Empowering 4D Creation through Video Inpainting¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=mU8Ubd8aNK
代码: 待确认
领域: 3D视觉 / 4D生成 / 视频扩散
关键词: 4D视频生成, 视频修复, 动态点云, 相机轨迹控制, 多视角一致性

一句话总结¶

EasyCreator 把"从单目视频生成可换相机轨迹、可编辑内容的 4D 视频"这件事，重新表述成一个视频修复（inpainting）任务——用动态点云渲染出"换视角后看不到的空洞掩码"，再用一个强视频修复基座（Wan2.1）把空洞补全；配合复合掩码、自迭代调优和时序打包推理，在几乎不额外大规模训练的情况下，超过了一众相机重定向 SOTA。

研究背景与动机¶

领域现状：4D 视频生成（沿用户指定相机轨迹合成动态内容，做出推、拉、摇、子弹时间等电影感效果）近年很火。主流做法是把相机轨迹编码成 embedding（类似文本 prompt）塞进预训练视频生成基座，然后用多视角数据集、合成渲染或带相机位姿标注的单目视频做微调。

现有痛点：这类方法有三个硬伤——强依赖大规模训练数据；输入模态受限（一般只能吃图像或文本）；相机视角可控性差。最关键的是，它们不支持视频输入，无法把用户手里现成的单目视频转成连贯的 4D 表示。

核心矛盾：另一条"两阶段"路线（先用深度预测器把单目视频升成动态点云、沿目标轨迹渲染出带空洞的视频，再用视频修复填洞）思路对，但卡在第二步：专门面向这种渲染空洞的视频修复模型几乎不存在。现有做法只能拿通用的图/文生视频基座临时微调来当修复器，可它们本就不是为修复设计的，补出来的内容时序不连贯、不真实，而且通常不支持生成时做文本编辑，灵活性很差。

切入角度：作者注意到一个新出现的强视频修复基座 Wan2.1，在大规模数据上训过，本来很能补洞。但直接拿来补点云渲染产生的空洞却不行——这类掩码落在它训练分布之外。于是问题就变成了：怎么用最小代价把一个通用视频修复基座"调"成会补 4D 空洞、还能顺手做编辑的模型。

核心 idea：把 4D 生成彻底重构成一个专门化的视频修复任务，用"复合掩码 + 自迭代调优"喂给修复基座做轻量微调（单卡 A800、约 2 小时、LoRA），解锁它的 4D 重建潜力，同时不破坏其原有能力。

方法详解¶

整体框架¶

给定一段单目输入视频，EasyCreator 的目标是产出能换相机轨迹（zoom/tilt/pan）、还能改内容（加主体、改首帧）的 4D 视频。整条管线分两半：训练侧先把视频升成动态点云、用"双重投影"造出与原视频空间对齐的复合掩码，再用这些"残缺视频 + 掩码 → 干净视频"的配对去微调一个冻结的视频修复基座（Wan2.1，LoRA 微调）；为了扛住大角度相机运动，训练用自迭代调优——先学小角度，再用学到的模型生成更大角度的训练数据，逐步把视角拉开。推理侧用时序打包策略，把已经生成好的某条轨迹的若干帧 token 拼进下一条轨迹的输入里，靠基座自带的全局自注意力把重叠区域补一致，从而保证多视角之间的一致性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：单目视频<br/>+ 目标相机轨迹"] --> B["动态点云与可见性掩码<br/>深度→点云→沿轨迹渲染空洞"]
    B --> C["复合掩码<br/>点云掩码∪编辑掩码"]
    C --> D["自迭代调优<br/>Wan2.1 修复基座 LoRA 微调<br/>小角度→大角度渐进"]
    D -->|逐轮回灌自生成数据| D
    D --> E["时序打包推理<br/>拼接已生成帧 token 保多视角一致"]
    E --> F["输出：可换轨迹+可编辑的 4D 视频"]

关键设计¶

1. 把 4D 生成重述为视频修复：动态点云 + 可见性掩码

这是全文的根本动机。换相机视角后，单帧单目深度根本无法重建整个场景，渲染结果必然有遮挡/缺失区域——作者干脆把这些"洞"当作要补的目标，从而把 4D 生成接到一个成熟的视频修复基座上。具体地，对输入视频 \(V=[I_0,\dots,I_{N-1}]\) 先用现成深度估计器（DepthCrafter）逐帧估深度 \(D_i\)，再用相机内参 \(K\) 把每帧升成 3D 点云 \(P_i=\phi([I_i,D_i],K)\)；给定相机外参序列 \(T=\{T_i\}\)，用透视函数把点云投回成像平面 \(I_i^a=\psi(P_i,K,T_i)\)。投影时同步生成一张二值可见性掩码 \(M\in\mathbb{R}^{N\times1\times H\times W}\)：有合法投影的像素标 1，因相机运动落到原视野之外的标 0。这样 4D 生成就被翻译成"把 \(M=0\) 的区域补全"这个标准修复问题。

2. 复合掩码：让一次微调同时学会"补洞"和"编辑"

直接拿可见性掩码做监督有个麻烦——渲染帧 \(I_i^a\) 在遮挡区里没有真值内容，无法当 ground truth。作者用双重投影（double reprojection）绕开：把渲染视图 \(V'\) 反投成新点云 \(P'\)，再用逆变换 \(T^{-1}\) 重渲回原视角得到 \(V''\)，于是得到一对"带伪影的残缺视频 \(V''\) + 标注伪影区的掩码 \(M''\)"，而原始输入视频可直接当干净真值 \(V_s\)，二者共享同一条原相机轨迹。在此之上叠加两类掩码：点云掩码（上面这种几何空洞）、编辑掩码（训练时随机选一块区域生成掩码序列，首帧掩码置 0 表示"首帧当引导"，推理时改首帧即可把编辑内容传播到后续帧）、以及二者的并集掩码。训练时对每个样本随机采样这三类掩码之一，用标准 flow matching 损失预测干净视频 \(V_s\)。这样一来，同一次微调里基座既学会补几何空洞、又学会按首帧做内容编辑，无需为编辑单开一套模型。

3. 自迭代调优：用模型自己生成的大角度数据，渐进扩视角

朴素的视频修复扩散模型扛不住大角度（如 \(>40°\)）的空洞补全，原因有二：单视频+多掩码的微调泛化能力受限；现有修复模型缺乏稳健的 3D 感知。作者的解法是角度渐进 + 自产数据：先用小视角（如 \(<30°\)）生成若干 video-mask 对 \(\{(V^{(k)},M^{(k)})\}\) 做 LoRA 一次性微调，\(W^*_{\text{LoRA}}=\arg\min_W \mathcal{L}(V_k,M_k,\Delta W)\)；载入该权重后用训好的小角度推出视频 \(\tilde V\)，再进入下一轮——每轮 \(j\) 生成更大角度的残缺视频 \(\tilde I^j_i=\psi(P^j_i,K,T^j_i)\)，并以 \(W^{(j)}_{\text{LoRA}}=W^{(j-1)}_{\text{LoRA}}+\eta\nabla_W \mathcal{L}_{\text{cycle}}(\tilde V^j,M^j,\Delta W)\) 累进更新，其中 \(\mathcal{L}_{\text{cycle}}\) 是时空一致性 MSE。核心思想是把上一阶段的输出当下一阶段的训练数据，让模型在自己已经能补好的角度上踩着台阶往更大角度爬，从而在大相机运动下保住时序连贯。

4. 时序打包推理：跨轨迹拼 token，保多视角一致

训练完成后还有个推理期难题：不同相机轨迹各自独立修复，重叠区域会被补成不一致的内容。作者观察到两条轨迹 \(T^a\)、\(T^b\) 渲染出的空洞视频存在重叠区（overlap mask），于是提出时序打包：先用 \(T^a\) 跑出视频 \(\tilde V^a\)，按每帧修复面积选出 top-\(K\) 帧 \(F=\text{top-k-argmax}(S[\tilde V^a,M^a])\)；在为 \(T^b\) 推理时，把这些选中帧的 token 与 \(T^b\) 的空洞视频 token 沿时间维拼接：\(x_{\text{input}}=[\text{patchify}(E(F)),\text{patchify}(E(V^b))]_{\text{temporal}}\)，其中 \(E(\cdot)\) 是预训练 3D-VAE。妙处在于不需要新增任何融合注意力层——预训练修复基座的时空自注意力本就是在所有 token 上全局施加的，拼进来的"已生成帧"自然成为补全重叠区时的先验，把多视角之间的内容拉齐。

损失函数 / 训练策略¶

基座为开源 WAN-2.1 文生视频模型，用 rank=128 的 LoRA 微调；输入分辨率 \(512\times512\)、视频长度 81 帧，训练 2000 步，学习率 \(1\times10^{-5}\)、weight decay 0.1，单张 NVIDIA A800 约 2 小时。训练目标是标准 flow matching 修复损失（预测干净视频 \(V_s\)）；自迭代阶段叠加时空一致性 MSE \(\mathcal{L}_{\text{cycle}}\)。推理用 DPM solver、30 步采样、文本引导尺度 6.5，LoRA 权重固定为 0.7。

实验关键数据¶

主实验¶

在三套评测上对比 GCD、Trajectory-Attention、ReCamMaster、TrajectoryCrafter 等相机重定向/4D 合成 SOTA。

VBench 多维一致性（越高越好）：

指标	TrajectoryCrafter	Ours
Subject Consis.	0.8632	0.9026
Background Consis.	0.8674	0.8931
Temporal Flicker.	0.7925	0.8818
Motion Smooth.	0.8815	0.9242
Overall Consis.	0.2463	0.2915

视觉质量 / 相机精度 / 视角同步（关键列）：

指标	之前最好	Ours
FID ↓	61.57	58.26
FVD ↓	154.23	145.71
RotErr ↓	1.43	1.37
TransErr ↓	5.52	4.47
FVD-V ↓	148.71	119.52
CLIP-V ↑	88.53	89.87

Kubric-4D 低层指标上提升最显著：PSNR 从次优 15.82 跳到 22.15，LPIPS 从 0.532 降到 0.381，SSIM 0.487→0.523——说明在有真值的新视角合成上，EasyCreator 与 GT 的相似度大幅领先。

消融实验¶

配置	FID ↓	FVD ↓	CLIP-V ↑	说明
w/o composite mask	78.27	153.28	85.25	去复合掩码后既补不好洞也做不了编辑
w/o iterative tuning	86.29	197.24	81.26	去自迭代，大角度时序崩、FID 最差
w/o temporal pack	62.46	168.91	84.71	去时序打包，多视角重叠区不一致
Ours	58.26	145.71	89.87	完整模型

关键发现¶

自迭代调优掉点最狠：去掉后 FID 从 58.26 恶化到 86.29、FVD 涨到 197.24，且相机角度越大越糟——印证"基座缺 3D 感知、需用自产大角度数据渐进补课"的判断。
复合掩码是"能编辑"的开关：去掉后无法同时完成 4D 生成与首帧编辑（如把"薯条"编到冰面上会失败）。
时序打包专治多视角不一致：去掉后 CLIP-V 从 89.87 掉到 84.71，两条轨迹重叠区内容对不上。

亮点与洞察¶

问题重述的巧劲：把"4D 生成"翻译成"补点云渲染空洞"，等于把一个缺数据缺模型的难任务，挂到了一个现成的强视频修复基座上——这是全文最"啊哈"的地方，省掉了大规模 4D 训练数据。
自产数据爬角度：用上一轮模型生成下一轮的大角度训练样本，是一种很省的"课程式自举"，思路可迁移到任何"小扰动好学、大扰动难学"的生成微调。
零新增参数做多视角融合：时序打包不加任何注意力层，纯靠基座全局时空自注意力把跨轨迹帧当先验——这个"白嫖预训练注意力"的 trick 很值得复用。

局限与展望¶

强依赖单目深度质量：动态点云来自现成深度估计器，深度不准会直接污染掩码与几何，论文未深入讨论失败模式。
每段视频一次性微调：单视频 + 多掩码的 one-shot tuning 范式意味着每个新视频都要单独调（约 2 小时/段），离"即开即用"的零样本还有距离。
大角度上限仍受限：虽然自迭代缓解了 \(>40°\) 的难题，但能爬到多大角度、何时崩，缺少系统的角度-质量曲线。
部分公式表述偏简：自迭代的递推与 \(\mathcal{L}_{\text{cycle}}\) 定义在正文里较粗，⚠️ 细节以原文/附录为准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 4D 生成重述为视频修复并解锁修复基座，视角独到
实验充分度: ⭐⭐⭐⭐ 三套评测 + 三项消融到位，但缺角度-质量曲线与失败分析
写作质量: ⭐⭐⭐⭐ 故事线清晰，部分自迭代公式略简
价值: ⭐⭐⭐⭐⭐ 低成本（单卡 2h）把单目视频转 4D，实用性强