跳转至

EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=blJXE07r7I
代码: 待确认(项目页见论文)
领域: 视频生成 / 视频编辑 / 多模态生成
关键词: 统一框架, 上下文学习, 全自注意力, 视频编辑, Flow Matching

一句话总结

EditVerse 把文本、图像、视频统一成一条交错的 token 序列,用全自注意力做上下文学习,在单一 2B 模型里同时支持图像与视频的生成和编辑,并通过自建 232K 视频编辑数据管线把图像域的编辑知识迁移到数据稀缺的视频域,在自建 EditVerseBench 上超过开源方法、编辑保真度甚至超过商业模型 Runway Aleph。

研究背景与动机

领域现状:基础模型的发展方向是「统一 + 扩展」——联合训练多样数据能解锁涌现能力。图像领域已经从针对单任务的专用模型(如各种 ControlNet、inpainting 模型)转向了把生成和编辑统一在一个框架里的通用模型。但视频领域的「统一生成 + 编辑」探索还很初级。

现有痛点:视频侧卡在两个具体问题上。其一是架构受限:现有视频生成模型大多基于 cross-attention 或 MMDiT,是为「文本生视频」这类单一任务设计的,要扩展到多种编辑任务需要大量额外设计。代表作 VACE 给文本生视频模型加一条额外分支,接收未编辑视频 + mask,把它改造成视频 inpainting 模型——但它依赖 mask 来定位编辑区域、且每个任务要专门的输入配置,实用性差。其二是数据稀缺:图像编辑有海量高质量指令数据集(UltraEdit、OmniEdit、AnyEdit 等),而高质量、多样的视频编辑数据极度匮乏,唯一像样的 Se\~norita-2M 在质量和多样性上都明显不足。

核心矛盾:要让视频模型涌现出「没在训练数据里见过的编辑任务也能做」的能力,必须有一个真正统一、能灵活吃下任意模态/分辨率/时长输入的架构来支撑上下文学习;但现有针对单任务设计的 cross-attention 架构天然做不到这点,而且视频编辑数据又太少,单靠视频数据根本喂不出泛化能力。

本文目标:在单一模型里统一图像与视频的生成和编辑,既要架构上能灵活处理多模态交错输入,又要能把图像域充裕的编辑知识迁移到视频域。

切入角度:作者借鉴多模态大语言模型(MLLM)原生图像生成的做法——把所有模态都当成 token 序列、用全自注意力建模。既然自注意力的上下文学习能力是 MLLM 涌现能力的来源,那把文本、图像、视频统一成一条长序列、让它们在自注意力里互相「看」,就既能统一架构,又能让图像和视频的知识在同一注意力空间里自然迁移。

核心 idea:把文本/图像/视频全部表示成一条交错的一维 token 序列,用全自注意力替代 cross-attention/MMDiT 来实现强上下文学习与跨模态知识迁移,再配一套自动数据管线补上视频编辑数据的缺口。

方法详解

整体框架

EditVerse 的核心思路是「万物皆 token 序列」:不管输入里有几段文字、几张图、几个视频,全部按指令里原本的先后顺序拍成一条交错(interleaved)的一维序列,丢进一个带全自注意力的 transformer,让模型在这条长序列里靠上下文学习自己搞清楚「哪段文字描述哪段视觉、要编辑哪一个目标」。

具体地说,一次前向是这样转的:图像/视频先经卷积 VAE 压成时空隐空间、再 patchify 成视觉 token;文本经 Flan-T5-XXL 编码成文本 token。两类 token 各自过一层线性投影到同一隐藏维度 \(C\),按指令原序拼成统一序列 \(X\in\mathbb{R}^{L\times C}\),并在每段视觉 token 的首尾插入可学习的「start of vision / end of vision」标记。然后给每个 token 打上四维 RoPE(序列 / 时间 / 高 / 宽),喂进 \(N\) 个全自注意力块。训练时随机挑序列里的一段图像或视频当生成目标,用 Flow Matching 让模型预测速度场,推理时从噪声出发用 ODE 求解器去噪生成。训练所需的视频编辑数据,则由一条自动管线离线造出来(6 类任务、232K 样本)再混入图像/视频生成与编辑数据联合训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入:交错的<br/>文本 + 图像 + 视频"] --> B["VAE / T5 编码<br/>各模态 token 化"]
    B --> C["交错统一序列 + 全自注意力<br/>start/end-of-vision 标记,上下文学习"]
    C --> D["四维 RoPE<br/>序列·时间·高·宽分别编码"]
    D --> E["Flow Matching 速度预测训练<br/>随机选一段视觉做目标"]
    E -->|ODE 去噪| F["输出:编辑/生成的<br/>图像或视频"]
    G["可扩展视频编辑数据管线<br/>6 类任务,232K 样本"] -.联合训练.-> E

关键设计

1. 交错统一序列 + 全自注意力:用一条序列把多模态绑在一起做上下文学习

这是 EditVerse 区别于 VACE 那类「加分支」方案的根本。痛点是 cross-attention/MMDiT 架构里,条件(未编辑视频、mask)和生成目标走不同通路、需要任务专属配置,模型很难举一反三。EditVerse 的做法是把所有模态投影到共享嵌入空间后拼成一条长序列 \(X=\text{Concat}(X^{(0)},X^{(1)},\dots,X^{(n)})\),每个 \(X^{(i)}\) 是一段干净图像、视频或文本,然后用全自注意力让序列里任意 token 互相可见。这样「指令文本↔参考图↔待编辑视频↔目标输出」的对应关系不再靠人工配置,而是模型在注意力里自己学到的上下文关系。

为了让模型知道一段视觉 token 从哪开始到哪结束,作者在每段视觉 token 首尾各加一个可学习的 start/end-of-vision 标记。这个设计最关键的红利是跨模态知识迁移:图像编辑数据(6M)和视频编辑数据(288K)在同一自注意力空间里联合训练,图像域学到的「怎么理解编辑指令、怎么做多样编辑」能直接被视频借用,从而绕开视频编辑数据稀缺的瓶颈——这也是后面涌现能力的来源。文本侧还做了个小优化:T5 编码后只保留对应输入文本的 token、丢掉其余,省算力又不丢信息。

2. 四维 RoPE:在一条混合序列里同时区分模态、顺序与时空位置

交错序列带来一个新问题:同一条序列里既有文本又有图像又有视频,模型怎么分清「这个 token 是序列里第几个、是视频的第几帧、在画面的什么位置」?普通的一维位置编码不够用。作者为此设计四维 RoPE,对四个维度各算一套独立的旋转位置编码:(1)序列维——捕捉 token 在整条序列里的全局位置,每个文本 token、每个图像/视频帧都让计数加 1;(2)时间维——只对视频帧生效,编码帧在片段里的时序,文本和图像该维恒为 0;(3)(4)高 / 宽维——对图像和视频帧按像素坐标从左上到右下递增,文本两维恒为 0。

四个维度分配的 RoPE 嵌入维度分别是 12 / 4 / 56 / 56(空间占大头,符合视觉 token 的信息分布)。为支持变长输入,RoPE 计算里用 NTK-aware 插值做上下文窗口外推。这套设计让模型既能区分模态(看哪些维非零就知道是文本还是视觉),又能精确定位时序和空间,是「任意分辨率、任意时长、任意序列位置都能处理」这一灵活性的底层支撑。消融显示去掉序列维 RoPE 会明显拉低文本对齐和编辑质量。

3. Flow Matching 速度预测训练范式:在长序列里随机挑目标去噪

模型怎么训练?作者用 Flow Matching。给定交错序列 \(X_1=\text{Concat}(X_1^{(0)},\dots,X_1^{(n)})\),随机选其中一段图像或视频 \(X_1^{(i)}\) 当生成目标,其余段保持干净当条件。对目标段做扩散:噪声 \(X_0^{(i)}\sim\mathcal N(0,1)\)\(X_t^{(i)}=tX_1^{(i)}+(1-t)X_0^{(i)}\) 线性插值到干净数据,模型 \(u_\Theta\) 学着预测速度场 \(V_t=\frac{dX_t^{(i)}}{dt}=X_1^{(i)}-X_0^{(i)}\),损失就是预测速度与真实速度的均方误差:

\[L=\mathbb{E}_{t,X_0,X_1}\big|u_\Theta(X_t,t)-(X_1-X_0)\big|^2\]

注意输入序列里只有被选中的那一段是带噪的、其余段全是干净 token,所以模型本质上是在「以整条上下文为条件、生成其中一段」。推理时从噪声采样、用 50 步 ODE 求解器去噪得到结果。这个「随机选一段当目标」的范式让同一套训练目标天然覆盖了生成(目标段无对应源)和编辑(目标段有源图/源视频做条件)两类任务,不需要为编辑单独设计 loss。

4. 可扩展视频编辑数据管线:用任务专用模型批量造数据再过滤,补上视频编辑数据缺口

再好的架构,只喂图像编辑数据也学不会各种视频编辑。痛点是开源视频编辑数据(Se\~norita-2M)量少质差。作者设计了一条能从任意视频造出编辑配对的管线,覆盖 6 类任务:(1)物体移除/添加——Grounded-SAM-2 抽 mask(按物名、mask 面积、置信度过滤候选),再用 DiffuEraser 擦除,移除前后的视频对就是移除/添加数据;(2)物体替换——SAM-2 抽 mask,VLM 想象合理的替换物,再用 VACE 按 VLM 输出做 inpaint,并按物体大小动态调整 mask 形状提高成功率;(3)风格迁移——先用图像风格迁移模型改第一帧,再用 VACE 的深度引导「首帧到视频」生成整段风格化视频(比纯推理式风格迁移可靠,尤其面对 Minecraft 这类极端风格);(4)镜头变化——选 10 种运镜,用 ReCamMaster 生成;(5)mask 检测——把前面几类数据套上「我想做 X 编辑,请检测需要编辑的区域」模板转化而来;(6)传播——抽取风格迁移/移除/添加/替换数据的首个编辑帧构成。

由于这些数据是模型生成的、含错误,过滤至关重要:作者用 VLM 对编辑质量和视频质量打分(涵盖指令遵循、上下文保持、清晰度、时序一致、伪影、物体完整、美学、物理合理性),人工核对分数与真实质量的关系后定阈值筛选。最终造出 232K 高质量视频编辑样本,配合从 Se\~norita-2M 过滤出的 56K,再混入 ~1.9M 图像生成、3.9M 视频生成、6M 图像编辑样本联合训练。论文强调这条管线过滤后的留存率是 Se\~norita-2M 的 6 倍。

损失函数 / 训练策略

模型是 2B 稠密 transformer(结构类似 LLaMA 3),先在 360p 的文本生图/生视频上预训练拿到基础生成能力,再在上述混合数据上训练 ~56K 步。全局 batch size 256,AdamW(\(\beta_1=0.9,\beta_2=0.95\)),峰值学习率 \(8\times10^{-6}\)、weight decay 0.01,2K 步 warm-up 后 cosine 衰减到 \(1\times10^{-6}\),梯度裁剪范数 1.0。图像/视频按原始宽高比缩放到面积介于 \(256\times256\)\(512\times512\)。由于序列变长难以组 batch,采用 KnapFormer 的 packing 策略。推理用 CFG scale 5.0(只对文本条件)、50 步采样。

实验关键数据

主实验

作者自建 EditVerseBench:100 个视频(50 横 50 竖)× 每个 2 条指令 = 200 个编辑对,覆盖 20 类编辑任务,用 6 个指标评估(VLM 编辑质量、Pick Score 视频质量、CLIP/ViCLIP 文本对齐、CLIP/DINO 时序一致)。

方法 类型 编辑质量(VLM)↑ Pick↑ CLIP帧↑ ViCLIP视频↑
TokenFlow 训练-free 5.26 19.73 25.57 22.70
STDF 训练-free 4.41 19.45 25.24 22.26
Se\~norita-2M 首帧传播 6.97 19.71 26.34 23.24
InsV2V 指令式 5.21 19.39 24.99 22.54
Lucy Edit 指令式 5.89 19.67 26.00 23.11
EditVerse 指令式 7.65 20.07 26.73 23.93
Runway Aleph 商业闭源 7.44 20.42 27.70 24.27

EditVerse 在所有开源方法上全面领先;相对商业模型 Runway Aleph,虽然生成画质因基模差异略逊,但编辑保真度(VLM 编辑质量 7.65 vs 7.44)反超,且更贴近用户研究结论。3000 对人工评测(指令对齐 / 未编辑区保持 / 整体质量)也显示 EditVerse 处于 SOTA。

TGVE+ 上(ViCLIP 方向相似度 / 输出相似度)EditVerse 达 0.225 / 0.252,超过 Movie Gen Edit(0.225 / 0.248)等——值得注意的是 TGVE+ 全是方形视频,而 EditVerse 训练数据里没有任何方形视频编辑样本

消融实验

训练数据消融(20K 步,编辑质量为 VLM 评分):

图像 视频生成 视频编辑 编辑质量 文本对齐(视频) DINO 一致
3.62 20.44 90.27
5.76 22.37 97.83
6.52 22.63 97.97
6.40 22.51 98.60
6.95 23.81 98.44

模型设计消融(去掉交错格式 / 去掉序列维 RoPE):

交错 序列 PE 编辑质量 文本对齐(视频)
6.42 22.74
6.84 23.51
6.95 23.81

关键发现

  • 图像数据是涌现能力的关键来源:只用图像+视频生成、不给视频编辑数据时编辑质量仅 3.62;反之只用视频编辑数据也只有 5.76。图像编辑数据帮模型「理解指令、做多样编辑」,视频生成数据帮「时序一致、运动建模」,两者缺一不可,全量才到 6.95。
  • 交错格式 + 序列 RoPE 主要影响文本对齐与编辑质量(而非时序/画质,后者继承自基模)——因为编辑质量依赖上下文学习能力,而上下文学习正来自交错输入 + 序列位置编码。
  • 涌现能力:模型能做训练分布外的任务(换材质、换天气、加特效),还能组合任务(参考插入 = 定制 + inpaint);某些任务的输出质量甚至超过训练用的 ground-truth(靠从图像/视频生成域借知识),且即使完全没训过视频编辑也能做部分编辑。

亮点与洞察

  • 「万物皆 token 序列 + 全自注意力」把架构统一和数据迁移一并解决:这是最优雅的地方——不需要为每个任务设计分支或 mask 配置,统一序列天然支持任意模态/分辨率/时长,而图像和视频共享同一注意力空间又顺带打通了跨模态知识迁移,一石二鸟。
  • 用数据稀缺域的「邻居」来补课:视频编辑数据少,就靠数据充裕的图像编辑域在同一模型里联合训练「带飞」。消融把这点量化得很干净(去图像数据编辑质量腰斩到 3.62),是「跨模态知识迁移」少见的硬证据。
  • 四维 RoPE 的维度分配(12/4/56/56)是个可复用的小工程经验:序列/时间维只需很小的维度就能区分,空间维要给足。处理混合模态长序列时这个比例值得借鉴。
  • 数据管线「先用任务专用模型造、再用 VLM 打分过滤」的范式可迁移到任何缺配对数据的生成任务——关键是人工标定 VLM 分数与真实质量的对应关系再定阈值,而非盲信打分。

局限与展望

  • 生成画质受基模限制:相对 Runway Aleph 在视频质量/Pick Score 上仍有差距,作者归因于基模差异;2B 规模也限制了上限。
  • 依赖一连串外部模型造数据:数据管线串了 Grounded-SAM-2、DiffuEraser、VACE、ReCamMaster、VLM 等,任一环节的偏差都会进入训练数据,过滤虽缓解但难根除(如风格迁移对极端风格仍可能失败)。
  • 方形视频泛化靠零样本:训练数据无方形视频编辑样本却能在 TGVE+ 上表现好,说明泛化不错,但也意味着分辨率/构图分布外的稳健性未被系统评估。
  • 改进方向:扩大基模规模、引入真实而非合成的视频编辑数据提升上限;把数据管线里的多模型串联换成更端到端的自动标注,降低误差累积。

相关工作与启发

  • vs VACE:VACE 给文本生视频模型加额外分支接收未编辑视频 + mask,把它改造成 inpainting 模型,依赖 mask 定位、需任务专属输入配置;EditVerse 用统一交错序列 + 全自注意力,无需 mask 和任务配置,灵活性和任务覆盖面都更广。
  • vs UNIC:UNIC 也把条件顺序拼接、类似图像编辑架构,但只支持 6 类编辑任务、用任务感知位置编码;EditVerse 覆盖 20 类任务,且靠四维 RoPE 而非任务专属 PE,能涌现训练分布外的能力。
  • vs InsV2V / Se\~norita-2M:前者把 InstructPix2Pix 扩到视频、后者用任务专用扩散模型造数据做首帧传播,二者在编辑质量和多样性上都受限于其数据/架构;EditVerse 在 EditVerseBench 全指标领先(编辑质量 7.65 vs InsV2V 5.21 / Se\~norita-2M 6.97)。
  • vs 图像统一模型(如 BAGEL / transfusion 路线):EditVerse 把图像域已验证的「序列拼接 + 自注意力做上下文学习」思路成功搬到视频,并证明图像知识能反哺视频,填补了视频侧统一框架的空白。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个真正统一图像与视频「生成 + 编辑」的全自注意力交错序列框架,并实证跨模态知识迁移。
  • 实验充分度: ⭐⭐⭐⭐⭐ 自建 benchmark + 自动/人工双评 + 数据与模型双重消融,涌现能力分析扎实。
  • 写作质量: ⭐⭐⭐⭐ 动机—架构—数据—实验逻辑清晰,部分管线细节略密。
  • 价值: ⭐⭐⭐⭐⭐ 给数据稀缺的视频编辑提供了「靠图像域带飞 + 自动造数据」的可复制路线,并放出 EditVerseBench。