跳转至

VINCIE: Unlocking In-context Image Editing from Video

会议: ICLR 2026
arXiv: 2506.10941
代码: vincie2025.github.io
领域: 图像分割
关键词: in-context编辑, 视频学习, 多轮编辑, DiT, 分割预测

一句话总结

提出VINCIE框架,首次证明in-context图像编辑模型可以完全从原生视频数据中学习,通过将视频标注为交错多模态序列并设计三个代理任务(NIP/CSP/NSP),在多轮编辑基准上达到SOTA,5轮编辑成功率从基线<2%提升至25%。

研究背景与动机

领域现状:In-context图像编辑允许用户通过多轮交互迭代修改图像。现有方法依赖特定任务流水线和专家模型(分割、修复等)构建成对训练数据。

现有痛点:(1) 构建多轮编辑的配对数据极其困难,现有方法仅能挖掘单轮编辑对;(2) 依赖任务特定流水线限制了数据的通用性和可扩展性;(3) 多轮编辑中的一致性和误差累积问题严重。

核心矛盾:高质量多轮编辑训练数据的稀缺与模型对长程上下文依赖的学习需求之间的矛盾。

本文目标 是否可以仅从视频数据中学习出有意义的in-context图像编辑模型,无需任何独立图像对。

切入角度:视频天然包含丰富的视觉动态变化(物体出入、姿态变化、相机运动),这些隐式地提供了编辑操作的学习信号。

核心 idea:从原生视频数据中构建交错多模态序列(帧+转换描述+分割掩码),用三个代理任务训练DiT模型学习上下文感知的图像编辑。

方法详解

整体框架

(1) 从视频中稀疏采样\(K\)帧,用VLM标注帧间视觉转换描述\(T_i\);(2) 用GroundingDINO+SAM2生成编辑感兴趣区域(RoE)的分割掩码;(3) 构建交错多模态序列\((I_0, T_0, M_{00}, M_{01}, I_1, \ldots, I_K)\);(4) 用DiT模型通过三个代理任务联合训练。

关键设计

  1. 可扩展的视频数据标注流水线:

    • 做什么:将原生视频转化为适合训练in-context编辑模型的交错多模态序列
    • 核心思路:采用混合采样策略(等间隔采样+固定帧数采样),对相邻帧用VLM进行链式思考(CoT)标注视觉转换(描述各方面差异→总结为编辑指令\(T_i\)),再用GroundingDINO+SAM2提取RoE分割掩码
    • 设计动机:等间隔采样捕获细粒度物体级变化,固定帧数采样覆盖大尺度场景变化;RoE掩码提供显式空间定位信号
  2. DiT架构与上下文组合学习:

    • 做什么:基于Diffusion Transformer框架学习上下文条件下的图像生成
    • 核心思路:建模目标为\(\log p(S) = \sum_{i=1}^{M} \log p(I_i | I_0, \ldots, T_{i-1}, I_{i-1})\)。引入可学习<TURN>标记分隔多轮,文本用1D RoPE、图像用3D RoPE。提供全注意力和块级因果注意力两种变体。对上下文(帧、掩码)施加随机dropout增强泛化
    • 设计动机:视频基础模型的预训练权重提供强初始化;上下文dropout让模型学会灵活利用不同组合的上下文信息
  3. 三代理任务学习框架:

    • 做什么:通过三个互补任务增强模型的编辑能力
    • 核心思路:(i) 下一帧图像预测(NIP)——主任务,学习上下文编辑;(ii) 当前分割预测(CSP)——增强接地能力,识别需编辑区域;(iii) 下一帧分割预测(NSP)——改善可控生成,辅助动态布局调整。三个任务在统一的生成框架中用flow matching的MSE扩散损失联合训练
    • 设计动机:CSP帮助模型理解"哪里变了",NSP帮助模型预测"哪里会变",二者共同增强NIP的编辑质量

损失函数 / 训练策略

使用flow matching的MSE扩散损失。RoE掩码以80%概率纳入训练。上下文dropout率:当前帧20%、当前RoE 70%、下一帧RoE 70%。推理时50步采样,CFG scale=10。3B模型在256×H100上训练15k步约30小时,7B模型40k步约150小时。训练数据约10M session实例。

实验关键数据

主实验

数据集 指标 本文(7B+SFT) SOTA/对比 说明
MagicBrush Turn-1 DINO 0.891 0.886(Nano Banana) 超越所有学术方法
MagicBrush Turn-3 DINO 0.775 0.773(Nano Banana) 多轮优势更明显
MSE-Bench Turn-1 成功率 0.950 0.937(Step1X-Edit) 仅次于Bagel
MSE-Bench Turn-5 成功率 0.487 0.413(Bagel) 大幅优于开源方法
MSE-Bench Turn-5 成功率 0.210→0.487 3B→7B+SFT 规模缩放效果显著

消融实验

配置 指标 说明
w/o Seg. vs w/ Seg. MSE Turn-1: 0.847→0.887 分割预测任务提升编辑能力
CS→I MagicBrush DINO Turn-1: 0.797 当前分割提升一致性
CS→NS→I MagicBrush DINO Turn-3: 0.679 链式编辑策略最优
pairwise vs sequence MSE Turn-5: 0.010→0.220 序列数据远优于成对数据
数据规模0.25M→10M MSE Turn-5: 5%→22% 近似对数线性扩展

关键发现

  • 仅用视频训练即可匹敌使用成对编辑数据的SOTA方法,且先用视频预训练再SFT效果最佳
  • In-context编辑能有效缓解多轮编辑中的伪影累积问题
  • 模型展现出未显式训练的涌现能力:多概念组合、故事生成、链式编辑

亮点与洞察

  • 首次证明从纯视频数据学习in-context图像编辑的可行性,开辟了新的数据来源思路。视频的海量规模让方法具有天然的可扩展性优势。
  • 三个代理任务的设计精巧:CSP理解"变化区域",NSP预测"未来变化",二者协同增强NIP的编辑质量。这种分解思路值得借鉴。

局限与展望

  • 视频训练引入主体位置偏移(position shift),虽可通过分割预测缓解但未彻底解决
  • 与商业模型(GPT-4o 62.7%、Nano Banana 64.3%)在MSE-Bench Turn-5上仍有较大差距
  • 缺乏用户满意度/偏好评估,仅依赖GPT-4o自动评测

相关工作与启发

  • vs InstructPix2Pix: IP2P依赖GPT-3+SD生成成对数据,仅支持单轮编辑;VINCIE利用视频天然支持多轮
  • vs OmniGen/OmniGen2: OmniGen使用成对编辑数据,多轮时成功率急剧下降(MSE Turn-5仅8.3%);VINCIE的上下文建模更鲁棒
  • vs UES/RealGeneral: 这些方法仅利用视频中两帧,忽略长程上下文;VINCIE使用完整多帧序列

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次从视频数据学习in-context编辑,范式创新且有涌现能力
  • 实验充分度: ⭐⭐⭐⭐ 提出MSE-Bench新基准,消融全面,扩展性分析充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述系统,实验展示精美
  • 价值: ⭐⭐⭐⭐⭐ 开辟视频→编辑的新范式,数据可扩展性解决了领域核心瓶颈