跳转至

Inter-Edit: First Benchmark for Interactive Instruction-Based Image Editing

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Delong-liu-bupt/Inter-Edit
领域: 图像编辑 / 扩散模型 / 数据集与基准
关键词: 交互式图像编辑, 指令编辑, 涂鸦引导, 数据生成 pipeline, 位置感知评测

一句话总结

针对"纯文本说不准位置、精确 mask 又太累"的图像编辑困境,本文提出 I3E 任务(简洁指令 + 不精确空间涂鸦),构建了百万级自动合成训练集 Inter-Edit、6,250 条人工标注测试集和一套位置感知评测指标,并给出 RNI/CIA/CJT 三个基线,在交互式编辑上大幅超越现有 SOTA(含闭源系统)。

研究背景与动机

领域现状:可控图像编辑目前有三大范式——指令驱动(InstructPix2Pix 一系,用自然语言描述要改什么)、拖拽操控(在物体上拖点改变形状/姿态)、mask 重绘(用户画掩码框定编辑区做 inpainting)。

现有痛点:三条路各有死穴。指令法直观但语言天生不擅长描述空间位置,"把书加在第二个苹果下面"这种定位经常失败;拖拽法只能形变已有内容,做不了"增删物体"这类语义编辑;mask 重绘虽然能精确控区,但结果质量对 mask 几何形状极度敏感——要想边界自然融合,用户画的 mask 往往得比目标物体大一圈,既费力又容易丢原图细节、留下生硬边界。

核心矛盾:语义灵活性、精确空间控制、自然直观的用户体验三者无法兼得。指令法牺牲了控制、mask 法牺牲了易用性和自然度。更深一层,现有大规模数据集为了拿到 mask 普遍直接用分割模型,而分割输出是像素级、碎片化的,和"用户心里那个大致区域"并不一致——数据集实际上是为分割而非为编辑优化,偏离了以用户为中心的初衷。

本文目标:定义一个新任务,让用户只需给一句简短指令 + 一笔粗糙涂鸦就能完成精确语义编辑;并解决配套缺失——没有合适训练数据、没有能反映"模糊 mask"的评测基准、没有位置感知的指标。

切入角度:既然真实用户画的从来不是像素对齐的精确 mask,那训练数据就不该用分割对齐的 mask;要刻意模拟"不精确、人手画"的掩码,让模型学会从模糊空间意图里推断并把编辑无缝融进背景。

核心 idea:用"简洁文本 + 不精确空间引导"替代"精确文本"或"精确 mask",并造一条全自动 pipeline 量产这种带模拟人工掩码的训练对,配上人工测试集和位置感知指标,把整个新任务做成可复现的基准。

方法详解

整体框架

本文严格说不是"提出一个新模型",而是把一个新任务(I3E)连同它的数据、基准、指标、基线一整套搭起来。三大支柱:(1) 一条三阶段全自动 pipeline 合成 110 万训练对;(2) 一套以"模拟真实用户标注"为目标的掩码生成与过滤策略;(3) 一组位置感知评测指标 + 三个基线模型把任务跑通。

数据 pipeline 的关键不是"会调用 T2I/MLLM",而是它特意制造双提示(dual-prompt)非分割对齐的自然掩码——这是 I3E 区别于以往编辑数据集的命门,所以适合用一张流程图把三阶段串清楚。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LLM 随机元素提示<br/>→ T2I 合成源图"] --> B["阶段1:多样源图生成"]
    B --> C["阶段2:迭代式指令接地<br/>edit→regenerate 回环"]
    C -->|"产出 bbox + 细粒度/简洁双提示"| D["阶段3:自然掩码生成与过滤<br/>SAM-2 + 形态学 + MLLM 过滤"]
    D --> E["Inter-Edit 训练集<br/>110 万对·双提示·模拟人手掩码"]
    F["LAION 真实图<br/>+ 10 名标注员手画"] --> G["Inter-Edit 测试集<br/>6,250 对人工标注"]
    E --> H["三基线 RNI/CIA/CJT"]
    G --> I["位置感知评测<br/>S_in/S_out/BDS/VQA"]

关键设计

1. I3E 任务定义:用"简洁指令 + 不精确涂鸦"取代精确文本或精确 mask

I3E(Interactive Instruction-based Image Editing)是本文一切的根基。它要求模型从一句简短指令(如 "Put a bird here")和一笔粗糙的手画区域里,推断用户的模糊空间意图,并把编辑结果与背景无缝调和。这直接打中前述核心矛盾:指令法定位不准、mask 法负担过重——I3E 把"定位"交给一笔随手涂鸦(不必像素对齐),把"改什么"交给简短文本,让用户既省力又能精确控区。与 inpainting 的本质区别在于:I3E 做全图生成而非只重绘掩码内像素,因此能自然传播光照、阴影、反射等掩码外的连带变化,而不是在 mask 边界硬接出一圈伪影。

2. 三阶段"edit-then-regenerate"数据 pipeline:把模糊定位变成可监督的 bbox + 双提示

要训 I3E 模型,需要海量"(源图, 简洁指令, 粗糙区域, 编辑图)"四元组,但人工根本造不出百万级。本文设计全自动三阶段流水线(图 2a):

  • 阶段 1·多样源图生成:用 LLM 配多种随机元素生成多样化合成提示,喂给 T2I 模型产出初始源图,保证题材足够杂。
  • 阶段 2·迭代式指令接地(核心创新):MLLM 先针对源图、从 Local/Remove/Add/Texture 四类编辑里随机选一类生成编辑提示,交给 Qwen-Image-Edit-2509(Q-Edit)执行。作者观察到一个关键不对称——编辑模型成功执行的成功率,低于 MLLM 事后准确描述一张"已完成编辑"的能力。于是引入 "Regenerate" 步骤:把 (源图, 编辑图) 这一对回喂 MLLM,让它重新审视这次编辑,先定位变化区域的精确 bounding box,再同时产出两版提示——一版细粒度(给纯指令编辑用)、一版简洁(给 I3E 配区域信息用)。这一步把"模型自己也说不准的模糊定位"变成了有监督信号的 bbox + 双提示。
  • 阶段 3·自然掩码生成与过滤:用阶段 2 的 bbox 引导 SAM-2 分割编辑区,但原始像素级 mask 碎且不符合人手习惯,于是用形态学操作(腐蚀/膨胀)、膨胀、高斯模糊等多步后处理,把它"磨"成平滑、像人随手画的掩码。注意这里生成的 mask 只覆盖主编辑主体、不含主体在别处引发的连带变化,正好贴合真实用户标注习惯。最后用一个强 MLLM 做评估器,以 CoT 先详细分析再判成败,成功样本还要再输出一个 bbox 以压低误判。

双提示系统是这条 pipeline 最终交付的价值:每条样本既有 17 词左右的细粒度提示(纯文本编辑场景用),又有约 8 词的简洁提示(配掩码做 I3E 用),同一份数据服务两种范式。

3. 用户中心的人工测试集:让"模糊 mask"被真实建模,而非用模型 mask 自评

作者明确指出,模型生成的 mask 未必符合用户真实标注习惯,所以测试集(图 2b)改为全人工。源图主要采自 LAION,并刻意设计四类挑战子集:艺术风格图、低分辨率图(<480px)、低美学分图、歧义编辑(图里有多个同类物体,定位天然有歧义)。10 名不同性别年龄的标注员先判断 Q-Edit 生成的编辑图是否符合预期,理解意图后凭直觉手画掩码并据此写编辑指令——刻意把"人会怎么粗略标"这件事保留进基准,避免用模型自产 mask 自评带来的循环偏差。

4. 位置感知评测指标:把"区内改对 + 区外保住 + 边界自然"拆成可量化分数

传统指标(L1/SSIM/CLIP score)要么和人类感知弱相关,要么在空间推理上已被证明有缺陷,无法刻画 I3E 的双目标(区内忠实执行编辑、区外保留并自然传播连带变化)。本文设一套指标,记源图 \(I_s\)、编辑图 \(I_e\)、GT 图 \(I_{gt}\)、二值掩码 \(M\)

  • 区内忠实度 \(S_{in}\) 与区外保持度 \(S_{out}\):借助 Alpha-CLIP(其视觉编码器 \(E_\alpha(I,A)\) 在编码时强调掩码区),算余弦相似度:
\[S_{in} = S_{\cos}\big(E_\alpha(I_e, M),\, E_\alpha(I_{gt}, M)\big), \qquad S_{out} = S_{\cos}\big(E_\alpha(I_e, 1-M),\, E_\alpha(I_s, 1-M)\big)\]

\(S_{in}\) 在掩码内比编辑图与 GT,衡量"该改的地方改对了没";\(S_{out}\) 在掩码外比编辑图与源图,衡量"不该动的地方保住了没",越高越好。

  • 边界不连续分 BDS(Boundary Discontinuity Score):mask 法的典型败因是掩码边缘出现生硬过渡。先用形态学切出内/外两条不相交的过渡带 \(T_{in} = M \setminus \text{Erode}(M,k)\)\(T_{out} = \text{Dilate}(M,k) \setminus M\),再用 Sobel 梯度幅值 \(\mathcal{G}(I)=|\nabla I|\) 当局部锐度代理,取内外带平均梯度幅值之差的绝对值:
\[\text{BDS} = \left| \frac{\| \mathcal{G}(I_{out}) \odot T_{in} \|_1}{\|T_{in}\|_1} - \frac{\| \mathcal{G}(I_{out}) \odot T_{out} \|_1}{\|T_{out}\|_1} \right|\]

BDS 越接近 0 越好,说明边界内外锐度连续、过渡自然;偏大则边界要么太糊要么太硬,即有可见伪影。

  • VQA Score:用强 MLLM(Claude Sonnet 4.5)做整体打分 \(\{S_{edit}, S_{nat}, S_{aes}, S_{align}\} = \Phi_{VQA}(I_s, I_e, M, P_{vqa})\),分别评编辑成功度、自然度、美学、对齐度,\(S_{VQA}\) 取四者均值。作者另用人类评测验证 VQA 分与人类偏好高度一致。

一个完整示例

以图 2 的 "Add a lit desk lamp on the gray sofa near the left armrest" 为例走一遍 pipeline:阶段 1 LLM 造出一张含沙发的源图;阶段 2 MLLM 选 "Add" 类生成编辑提示交 Q-Edit 执行,再把(原图, 加了台灯的图)回喂 MLLM,MLLM 框出台灯所在 bbox,并产出细粒度提示(17 词,含完整方位描述)和简洁提示 "Add a lit lamp"(8 词);阶段 3 SAM-2 按 bbox 切出台灯掩码,经膨胀+高斯模糊磨成一块像人随手圈的柔和区域,MLLM 过滤器 CoT 判定编辑成功并复核 bbox,样本入库。测试时同一思路改为人工:标注员看懂"要加台灯"后,自己在沙发上手画一块粗糙区域并写下简洁指令,模型据此全图生成、自然融合光影。

实验关键数据

主实验

在 Inter-Edit 测试集上把三基线(RNI/CIA/CJT)与指令法、mask 法 SOTA 对比(↑ 越高越好,↓ 越低越好;\(S_{VQA}\) 为四项自动分均值,Eval. 为人类评测):

类别 方法 LPIPS ↓ BDS ↓ \(S_{in}\) \(S_{out}\) \(S_{VQA}\) 人类评测 ↑
指令 Flux Kontext 0.407 11.207 0.958 0.957 5.314 4.558
指令 Q-Edit 0.262 5.329 0.962 0.963 5.695 5.016
Mask Flux-Fill 0.197 15.969 0.941 0.970 4.287 3.826
Mask PowerPaint 0.209 49.518 0.929 0.963 3.859 3.510
I3E Ours (RNI) 0.191 10.485 0.976 0.974 6.431 6.672
I3E Ours (CIA) 0.259 5.534 0.966 0.950 5.979 6.156
I3E Ours (CJT) 0.242 5.435 0.976 0.961 6.333 6.720

I3E 三法在 \(S_{in}\)\(S_{out}\)\(S_{VQA}\)、人类评测上几乎包揽前三。RNI 在 LPIPS 和区内/区外忠实度、EditSuccess/Alignment 上最强(最贴合"精改+背景不变"的任务目标),但 ControlNet 严格贴合 mask 边界反而让过渡略显不自然、偶尔在编辑区外留下错位阴影,BDS 因此高于另两法;CJT 在自然度/美学上领先、人类评测最高,代价是偶尔影响过渡边界处部分重叠的邻近物体;CIA 整体中庸。

消融实验

方法 配置 LPIPS ↓ BDS ↓ \(S_{in}\) \(S_{out}\) \(S_{VQA}\)
RNI Full 0.191 10.485 0.976 0.974 6.431
RNI w/o MLLM 过滤 0.202 10.669 0.968 0.967 6.189
RNI w/o 掩码后处理 0.198 12.239 0.969 0.965 6.234
CIA Full 0.259 5.534 0.966 0.950 5.979
CIA w/o 微调 0.286 5.624 0.960 0.942 5.477
CIA LoRA Rank=16 0.265 5.545 0.963 0.950 5.906
CIA LoRA Rank=64 0.261 5.526 0.964 0.952 5.964
CJT Full (Rank=32) 0.242 5.435 0.976 0.961 6.333
CJT LoRA Rank=64 0.249 5.451 0.972 0.962 6.346

关键发现

  • 数据质量两道闸门都关键:去掉 MLLM 过滤会引入噪声样本,三法 \(S_{VQA}\) 普遍掉 0.2~0.3;去掉掩码后处理则削弱模型在真实数据上的泛化(BDS 明显变差,如 RNI 从 10.485 升到 12.239),印证"模拟人手掩码"不是花架子。
  • 预训练编辑模型有 I3E 雏形但需微调:CIA 去掉微调后 LPIPS 从 0.259 退到 0.286、\(S_{VQA}\) 从 5.979 跌到 5.477,说明 Q-Edit 裸跑能做基本交互编辑但远不够。
  • LoRA rank=32 是甜点:rank<32 性能下降,rank>32 不再稳定提升甚至因过拟合数据集特性而损泛化,故默认 32。
  • 可控文字生成是意外亮点:图 5 最后一行里,几乎所有先进模型都失败,本文方法不仅能清晰渲染 "Welcome to Garden",还能按给定 mask 精确调整文字形状。

亮点与洞察

  • 抓住了"用户真实标注是模糊的"这个被忽视的事实:以往大规模数据集用分割 mask,等于为分割优化而非为编辑优化;本文反其道刻意把 mask 磨糊、再让测试集全人工手画,让任务设定贴近真实交互——这是数据层面的"对齐人类"。
  • "edit-then-regenerate"利用了一个微妙不对称:编辑模型"做对"的概率 < MLLM"事后描述对"的概率,于是先让弱的执行、再让强的回看并产出 bbox+双提示,把不可控的生成过程蒸馏成可监督信号,这个技巧可迁移到任何"生成难、判别易"的数据合成场景。
  • BDS 指标独立可复用:用内外过渡带的 Sobel 梯度差量化"边界自不自然",无需 GT、纯几何,能直接拿去评测任意 inpainting/编辑方法的边界伪影。
  • 三基线对应三种集成控制条件的通法(旁路分支 / 改输入图 / 多图联合输入),给后来者提供了清晰的设计空间起点。

局限与展望

  • 基线而非终极方法:RNI/CJT/CIA 都是为"把任务跑通、鼓励社区参与"而设的基线,各有短板(RNI 阴影错位、CJT 影响邻近重叠物体、CIA 平庸),并未给出一个无明显缺陷的统一方案。
  • 依赖闭源大模型当评测器:VQA Score 用 Claude Sonnet 4.5、过滤用强 MLLM,评测和数据生产都绑定专有模型,复现成本与稳定性存疑(虽有人类评测做交叉验证)。
  • 训练集是合成的:源图由 T2I 生成、编辑由 Q-Edit 执行,可能带模型偏置;测试集虽人工标注但源图采样自 LAION,分布是否覆盖真实编辑需求仍待验证。
  • 作者列出的延伸方向:引入可调因子控制区域贴合程度、用 GT 编辑区做参考引导的精修、加入"负向涂鸦"做选择性抑制——都指向更细粒度的交互控制。

相关工作与启发

  • vs InstructPix2Pix / ICEdit / Flux Kontext(指令法):它们靠纯文本,空间定位天生不准,常误改非目标区域;本文加一笔粗糙涂鸦补上定位,\(S_{in}\)、人类评测大幅领先。
  • vs Flux-Fill / BrushNet / PowerPaint(mask 法):它们靠精确 mask 做 inpainting,背景 LPIPS 好看但边界生硬(PowerPaint BDS 高达 49.5)、且改不了掩码外光影;本文做全图生成,BDS 和自然度更优,且只需粗糙涂鸦不需精确 mask。
  • vs 拖拽法(DragGAN 一系):拖拽只能形变已有内容、做不了增删物体,本文支持 Add/Remove/Local/Texture 全类语义编辑。
  • vs MagicBrush(小而精的人工编辑集):它仅万级、规模受限;本文用自动 pipeline 上到 110 万,又用 6,250 人工集补质量,兼顾规模与真实性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 提出全新 I3E 任务并配齐数据/基准/指标/基线,"模糊涂鸦+简洁指令"是切实的范式补位
  • 实验充分度: ⭐⭐⭐⭐ 主表对比充分、消融覆盖过滤/后处理/微调/rank,但缺跨数据集泛化与更多骨干网络验证
  • 写作质量: ⭐⭐⭐⭐⭐ 动机层层递进、pipeline 与指标讲得清楚,图表自洽
  • 价值: ⭐⭐⭐⭐⭐ 数据集+代码开源、指标可独立复用,对交互式编辑社区是高复用的基础设施