Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Young-2000/OmniIIEBench
领域: 图像生成 / 指令式图像编辑 / 评测基准
关键词: 图像编辑, 诊断基准, 语义尺度, 多轮编辑, 解耦评估
一句话总结¶
Omni IIE Bench 是一个专门诊断"指令式图像编辑模型在跨语义尺度任务上一致性"的高质量人工标注基准:用"单轮一致性 + 最长 16 轮多轮协调"双轨设计、12 数据集来源、三阶段(自动生成→自动 mask→多遍人工严审)构建出 2856 张样本,并提出解耦评估框架(全局质量 + 前/背景区域保真 + 指令合规),首次量化出"几乎所有主流编辑模型从低语义尺度切到高语义尺度时性能显著下滑、多轮中因误差累积进一步崩塌"这一普遍失效模式。
研究背景与动机¶
领域现状:指令式图像编辑(Instruction-based Image Editing, IIE)让用户用自然语言迭代修改图像,已成设计领域的核心工具。早期基准聚焦单轮对话(给一条指令、看能不能编对),指令大致分"属性修改"和"实体修改"两类;近期开始探索多轮编辑,但通常只到 2–3 轮。
现有痛点:(1) 单轮基准为了覆盖面,往往把各类任务混在一起评一个总分,这恰恰掩盖了一个在专业应用里致命的失效模式——模型在不同语义尺度任务上表现不一致;I2EBench 虽分了高/低层级,但仍是孤立 checklist 式分别报分,不诊断"同一张图里跨尺度切换"时的稳定性。(2) 多轮基准多只关注时序一致性、且轮数太短(2–3 轮),与真实设计中"频繁、渐进、多次迭代"的工作流脱节。(3) 几乎没有基准经过资深设计师验证,导致"基准分高"和"实际能用"之间存在明显鸿沟。
核心矛盾:现有评测把"任务广度"当目标,用混合评估冲覆盖率,结果是把模型在语义尺度上的不一致性平均掉了——而这种不一致恰恰是专业落地最关心的失败点。
本文目标:建一个扎根真实设计实践的诊断型基准,专门量化 IIE 模型(a)单轮内跨尺度一致性、(b)长多轮中的协调与抗误差累积能力。
切入角度:作者把"语义尺度"显式定义为编辑粒度——低尺度=属性修改(局部、mask 面积集中),高尺度=实体替换(影响大、mask 面积分布广),并围绕"在共享图像上下文里切换尺度"来设计诊断任务对。
核心 idea:用"单轮一致性 + 多轮协调"双轨诊断,配合零容忍多遍人工过滤和解耦评估,把"跨语义尺度的一致性"做成可量化的体检指标。
方法详解¶
整体框架¶
Omni IIE Bench 不是一个算法,而是一套"数据集 + 评估协议"。数据侧从 12 个公开数据集采种子图,按双轨各建独立种子池(单轮 2400 图 / 多轮 696 图),经三阶段构建:阶段一用 GPT-4o 生成细粒度描述与编辑指令、用 Nano Banana 生成目标图;阶段二用 GPT-4o 解析指令出核心实体名、再喂 Grounded-SAM(GroundingDINO 出框 + SAM 出 mask)自动产 GT mask;阶段三是最关键的多遍人工严审(图像质量四维打分 + 行业相关性/美学审 + mask 语义对齐审),最终以"双零容忍"标准筛出 2856 张样本,每条样本是四元组 \((I_{\text{source}}, T_{\text{mod}}, I_{\text{gt}}, M_{\text{gt}})\)。评估侧对每个待测模型的输出 \(I_{\text{gen}}\),统一 resize 到 768×768,用 GT mask 把图分成前景 \(M_{\text{fg}}=M_{\text{gt}}\) 和背景 \(M_{\text{bg}}=1-M_{\text{gt}}\),在三个维度上解耦打分:全局图像质量、前/背景区域保真、指令合规。(纯基准/数据集论文,构建与评估均为线性流程,故不另画框架图。)
关键设计¶
1. 双轨诊断设计:单轮一致性 + 多轮协调,显式贯穿语义尺度
针对"混合评估把跨尺度不一致平均掉"这个痛点,本文不报单一总分,而是设计两条互补诊断轨。单轨一致性由"共享上下文的任务对"组成——同一张图上分别给"属性修改"(低尺度)和"实体替换"(高尺度)语义相反的指令对,直接对比模型在两种尺度下的表现差,暴露其一致性。多轨协调是连续多轮对话,指令在属性修改与实体替换之间动态交错,最长达 16 轮(远超此前 2–3 轮,见对比表),考察上下文理解、指令协调与误差累积。语义尺度在此被操作化为"mask 面积":统计显示属性修改的 mask 面积集中在小范围、实体替换的 mask 面积分布更广,从数据上验证了尺度划分的合理性。多轮轨平均深度 4.35 轮,1131 个编辑轮里记录了 322 次属性→实体、178 次实体→属性的尺度切换,确保跨尺度协调被充分测到。
2. 三阶段构建管线 + 双零容忍人工过滤
为同时保证科学严谨与贴近实战,数据经三阶段。阶段一(自动生成候选):GPT-4o 对 2400/696 种子图生成涵盖目标/属性/动作/环境关系的细粒度描述,再据此生成编辑指令(单轮生成语义相反的双任务指令对,多轮生成跨尺度交错的指令序列),并用 Nano Banana 生成高保真 GT 图。阶段二(自动 mask):直接把整条自然语言指令喂 GroundingDINO 不可行(它要明确实体名词),故先用 GPT-4o 当"指令解析器"抽出被编辑的核心实体名(属性修改抽其载体、实体替换抽原实体),再交 Grounded-SAM 全自动出二值 mask \(M_{\text{gt}}\)。阶段三(人工严审):17 人团队(12 名 CV 研究生 + 5 名 AI 修图设计师)先校准对齐 artifacts/语义漂移/背景污染等标准,对每条样本在"指令遵循/真实感/背景保持/修改满意度"四维做 1–3 分打分(初审独立打分 + 50% 随机二审 + 分歧交 5 人仲裁委投票),随后由 5 名专业设计师做行业相关性与美学审,最后对 mask 做 Pass/Fail 语义对齐快审。最终采用双零容忍:四维全满分且被判定行业相关才录用——单轮从 4800 候选只过 35.94%(1725 条),多轮从 696 组(5421 图)只过 37.36% 组(1131 图),合计从 10221 候选筛出 2856 张,过滤之狠正是其"高质量"的来源。
3. 解耦诊断评估框架:全局质量 + 区域保真 + 指令合规
传统单分评估会把局部错误平均掉,本文把评分解耦成三块。全局图像质量:PSNR/SSIM 测像素与结构保真、LPIPS 测感知相似、CLIP Score 测全局语义一致。解耦区域保真:用 GT mask 把图切成前景/背景分别算——前景算 FG-LPIPS、FG-CLIP(编辑保真度),背景算 BG-LPIPS、BG-CLIP(背景一致性),从而把"编辑得准不准"和"该不动的地方有没有被破坏"分开看。指令合规:先用 GPT-4o 对每条指令自动生成 1–3 个可验证 QA 对(带 GT 答案),再把生成图 + 问题 + GT 答案喂 GPT-4o 当裁判返回 True/False,采用严格一票否决——所有 QA 全 True 才得 1.0,任一 False 即 0.0,专门揪出"画质好但根本没按指令改"的模型(如 MGIE)。综合分按 \(\frac{1}{4}\big[\frac{3-\Sigma\text{LPIPS}}{3}+\frac{\Sigma\text{CLIP}}{3}+\text{QA}+\text{SSIM}\big]\) 计算,其中 \(\Sigma\text{LPIPS}\)、\(\Sigma\text{CLIP}\) 是各自 FG/BG/ALL 三列之和。⚠️ 公式以原文为准。
一个完整示例¶
拿一张"白色台座上放蛋糕"的种子图:阶段一 GPT-4o 描述场景并生成低尺度指令"把蛋糕改成彩虹分层"(属性修改)与高尺度指令"把蛋糕换成一束花"(实体替换)构成共享上下文任务对,Nano Banana 出 GT 图;阶段二 GPT-4o 解析出实体"cake",Grounded-SAM 框出蛋糕区域生成 mask;阶段三人工四维打分 + 设计师相关性审 + mask 语义审,四维全满分且判定相关才留下。评估时把某模型在这两条指令上的输出各 resize 768×768,用 mask 切前/背景算 FG/BG-LPIPS/CLIP、PSNR/SSIM,再用 QA 裁判判指令合规——若模型在低尺度(改颜色)能编对、高尺度(换实体)却失败,就被该样本对量化为"跨尺度不一致"。
实验关键数据¶
主实验(单轮,节选 Overall)¶
对 8 个主流 IIE 模型评测,Qwen-image-edit 最强、HQEdit 最弱;并暴露"画质高但指令合规差"的模型(MGIE)。
| 模型 | LPIPS-ALL↓ | CLIP-ALL↑ | QA↑ | SSIM↑ | Overall↑ |
|---|---|---|---|---|---|
| Qwen-image-edit | 0.450 | 0.889 | 0.744 | 0.455 | 0.687 |
| Step1X | 0.379 | 0.899 | 0.580 | 0.533 | 0.680 |
| ICEdit | 0.425 | 0.868 | 0.453 | 0.507 | 0.626 |
| FLUX | 0.552 | 0.868 | 0.636 | 0.375 | 0.614 |
| InstructPix2Pix | 0.569 | 0.841 | 0.316 | 0.438 | 0.530 |
| MGIE | 0.426 | 0.859 | 0.070 | 0.480 | 0.520 |
| HQEdit | 0.689 | 0.694 | 0.322 | 0.304 | 0.457 |
注:MGIE 画质指标不差但 QA 仅 0.070——输出几乎等于原图、根本没按指令改,正是本基准能揪出而混合评估会漏掉的失效。
与现有基准对比¶
| 基准 | 人工验证 | 提供 mask | 实战场景 | 语义尺度 | 对话轮数 |
|---|---|---|---|---|---|
| I2EBench | ✓ | ✓ | ✗ | ✓ | 1 |
| CompBench | ✓ | ✓ | ✗ | ✗ | 2 |
| MagicBrush / ImgEdit-Bench | ✓ | ✗ | ✗ | ✗ | 3 |
| MuCIE | ✗ | ✗ | ✗ | ✗ | 5 |
| Omni IIE Bench | ✓ | ✓ | ✓ | ✓ | 16 |
多轮 vs 单轮(误差累积)¶
| 模型 | 单轮 Overall | 多轮 Overall | 变化 |
|---|---|---|---|
| Qwen-image-edit | 0.687 | 0.676 | 小幅下滑 |
| Step1X | 0.680 | 0.654 | 下滑 |
| MGIE | 0.520 | 0.404 | 进一步崩塌 |
关键发现¶
- 跨语义尺度普遍掉点:几乎所有模型从低语义尺度切到高语义尺度都显著下滑——这是本基准量化出的核心、普遍的失效模式。
- 多轮误差累积明显:多轮下所有模型性能下降,尤其背景保持大幅退化(误差逐轮累积污染未编辑区),MGIE 退化最狠,Qwen-Image-Edit、Step1X 相对稳健。
- 指令合规是隐藏分水岭:MGIE 这类"画质高、QA 极低"的模型在不评指令合规的旧基准上能虚高,Omni IIE Bench 的一票否决 QA 直接把它打回原形。
- 评估高度对齐人工:4 名标注者(2 博士 + 2 设计师)对 100 组单轮 + 20 组多轮按 1–3 分打分,QA 与 CLIP 排名同人工排名的相关系数均 >0.85,验证自动评估可信。
亮点与洞察¶
- 把"语义尺度一致性"做成体检项:用 mask 面积把抽象的"编辑粒度"落成可统计量(属性修改面积集中 vs 实体替换面积广),并用共享上下文任务对直接对比,是最巧的设计。
- 最长 16 轮的多轮诊断:远超此前 2–3/5 轮,真正暴露误差累积对背景保持的破坏,贴合设计师"反复迭代"的真实工作流。
- 前/背景解耦 + QA 一票否决:把"编对了"和"没破坏不该动的"分开,再用严格 QA 揪"画质高但没遵指令"的伪强模型——这套评估协议可直接迁移到其他编辑/生成基准。
- 零容忍人工过滤:从 10221 候选只留 2856(约 28%),配 17 人校准 + 二审 + 仲裁,质量护城河很深。
局限与展望¶
- GT 图由 Nano Banana 生成、mask 由 Grounded-SAM 自动产,GT 本身的"理想编辑"带有生成模型偏好,可能对与 Nano Banana 风格相近的被测模型略有利。⚠️
- 指令生成与 QA 裁判都重度依赖 GPT-4o,评估闭环里同一家模型既造题又判分,存在潜在系统性偏差。
- 自动 mask 依赖 GroundingDINO+SAM,对解析失败/定位失败只做 Pass/Fail 快审而非像素级校正,复杂多实体场景的 mask 精度存疑。
- 改进方向:引入更中立/多源的 GT 与裁判模型降低单一供应商偏差;扩大语义尺度谱系(不止属性/实体二分);公开各模型在不同尺度切换点的细粒度失败案例库。
相关工作与启发¶
- vs I2EBench: 它虽分高/低层级但用孤立 checklist 分别报分,不诊断"同图内跨尺度切换"的稳定性;本文用共享上下文任务对直接量化一致性。
- vs CompBench: 它支持多轮(2 轮)并解耦四维,但仍把每任务分当孤立指标、不量化跨尺度一致性;本文显式诊断低↔高尺度切换且轮数到 16。
- vs ImgEdit-Bench / MuCIE: 它们聚焦内容记忆/指令保持/版本回滚等交互能力,但不考虑语义尺度动态变化下的稳定与协调,也未经设计师实战验证;本文以"实战可用性"为核心目标并做人工对齐。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"跨语义尺度一致性"做成诊断维度、双轨 + 16 轮设计新颖,但底层组件多为现成模型拼装。
- 实验充分度: ⭐⭐⭐⭐ 8 模型 × 单/多轮 × 解耦三维 + 人工对齐较全,惟语义尺度细分析放在附录。
- 写作质量: ⭐⭐⭐⭐ 动机与构建管线交代清晰,评估公式与指标定义完整。
- 价值: ⭐⭐⭐⭐⭐ 揭示并量化了主流编辑模型跨尺度/多轮的普遍失效,对"实战可用"评测有直接指导意义。