CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ChonghuinanWang/CREval
领域: 图像生成 / 评测基准
关键词: 指令式图像编辑, 创意编辑评测, VQA 打分, MLLM 评估, 基准构建

一句话总结¶

CREval 用「先生成带标准答案的是非题、再让 MLLM 逐题作答、答对才给分」的 VQA 范式取代「让 MLLM 直接打个分」的黑盒做法，配套一个覆盖 3 大类 9 维度、874 个创意编辑样本的 CREval-Bench，把指令遵循（IF）、视觉一致性（VC）、视觉质量（VQ）拆成可解释的三项指标，发现当前主流编辑模型在「自由创意编辑」上普遍仍吃力，尤其难保住原图关键元素。

研究背景与动机¶

领域现状：指令式图像编辑（GPT-Image-1、Gemini 2.5 Flash Image、Qwen-Image-Edit、Seedream 4.0、FLUX Kontext 等）发展很快，对复杂指令的理解明显进步。但「这些模型到底编辑得好不好」需要一套靠谱的自动评测，现有 benchmark（ImgEdit-Bench、KRIS-Bench、GEdit-Bench 等）几乎都靠让 MLLM 给图直接打个总分。

现有痛点：直接让 MLLM 打分有两个硬伤。其一，黑盒不可解释——分数是怎么来的、模型到底看了哪些点、扣分扣在哪里，完全不透明，导致打分常常不稳定、漏掉细节。其二，覆盖不全——一个总分糊在一起，无法分辨模型是「没听懂指令」还是「编辑后把原图主体改没了」还是「画质有瑕疵」。

核心矛盾：评测一张编辑图本质上要同时核对两件相反的事——指令要求改的地方改到位了没（要变），指令没说的视觉/语义元素保住了没（不能变）。把这两件事压成一个总分，必然丢信息、且无从追责。

本文目标：(1) 给创意编辑设计一套全自动、可解释、与人类判断对齐的评测流程；(2) 补上现有 benchmark 不覆盖「自由创意编辑」（把宠物做成手办、把人物做成 chibi、设计商品海报这类天马行空的指令）的空白。

切入角度：与其让 MLLM「凭感觉打分」，不如把评测拆成一串有标准答案的是非题。每道题对准一个具体可核验的事实（「chibi 钥匙扣是否挂在银色钥匙环上？」），MLLM 只需回答 Yes/No，答对得分、答错不得分——评测过程因此变得透明（每分加/扣在哪一目了然）且可拆维度。

核心 idea：用「QA 式 VQA 评测」替代「MLLM 黑盒打分」，并把总分拆成 IF/VC/VQ 三项可解释指标。

方法详解¶

整体框架¶

CREval 是「基准 + 评测流程」一体的方案，整条管线分三个阶段串行：Stage 1 指令生成（人工挑高质量原图，用 GPT-4o few-shot 在 9 个创意维度下批量生成创意编辑指令，得到「图–指令」对，构成 CREval-Bench 的样本）→ Stage 2 评测问题生成（对每个「图–指令」对，用 CoT 沿 IF/VC/VQ 三个指标各生成 ≥5 道带标准 Yes/No 答案的评测题，每对 ≥15 题，得到带题库的完整 benchmark）→ Stage 3 评测打分（把待测编辑模型生成的图，连同原图、指令、单道问题喂给作为评委的 MLLM，逐题作答，答案与参考答案一致才给分，按维度聚合并加权得最终分）。

输入是「原图 + 创意指令 + 待测模型的编辑图」，输出是 IF/VC/VQ 三个分项分及加权总分。三阶段里前两阶段是一次性建库（产出 CREval-Bench 的题库），第三阶段是对任意模型可复用的评测器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图（人工精选）"] --> B["CREval-Bench 数据集构建<br/>GPT-4o few-shot 生成<br/>9 维度创意指令 → 图–指令对"]
    B --> C["三指标 CoT 问题生成<br/>IF/VC/VQ 各 ≥5 道<br/>带标准 Yes/No 答案"]
    C --> D["VC 重要性加权<br/>关键元素 w∈{1,2,3}"]
    M["待测模型的编辑图"] --> E["VQA-based 评测打分<br/>逐题作答, 答对才给分"]
    C --> E
    D --> E
    E --> F["加权总分<br/>S=0.4·IF+0.4·VC+0.2·VQ"]

关键设计¶

1. VQA-based 评测：用「答对带标准答案的是非题才给分」替代 MLLM 黑盒打分

这是全文的范式核心，直击「MLLM 直接打分不可解释、覆盖不全」的痛点。CREval 不再问 MLLM「这张图编辑得几分」，而是先针对每个「图–指令」对生成一组评测问答 \(\{Q, A\}\)，每道问题都配一个明确的 YES/NO 参考答案；评测时把原图 \(I_i\)、编辑图 \(I_o\)、单道问题 \(Q\) 组成三元组 \([I_i, I_o, Q]\) 喂给 MLLM 评委让它作答，预测答案与参考答案一致才得对应分，否则不得分。这样做之所以有效：每一分的归属都对应一个可核验的具体事实，扣分扣在哪、加分加在哪一目了然，把原本糊成一团的总分变成「逐点核对」，既提升可解释性，也保证评测维度的覆盖完整——不会像凭感觉打分那样漏掉某个细节。

2. 三指标拆解（IF/VC/VQ）：把「改到位」「没改坏」「画质好」分开核验

针对总分糊一起无法追责的问题，CREval 把评测拆成三项互补指标，每项都用 CoT 单独生成对应题库 \(\{Q, A\}\)：IF（Instruction Following） 衡量编辑图是否准确实现了指令要求的修改，构造问题时 CoT 先拆解指令、分析意图，遵循两条准则——结果不能偏离指令本意、指令内容不能有遗漏；VC（Visual Consistency） 衡量原图中「具有关键识别价值」的元素在编辑后是否保住，CoT 先拆解指令判断哪些视觉成分该保持不变；VQ（Visual Quality） 衡量成图的真实感、自然度与有无明显瑕疵（扭曲纹理、几何断裂、细节退化等）。三项分开，才能区分一个模型究竟栽在「没听懂」「把主体改没了」还是「画质崩了」上——这正是单一总分给不出的诊断信息。

3. VC 重要性加权与最终加权聚合：不同元素对「认得出原主体」的贡献天差地别

如果 VC 把所有该保留的元素一视同仁地算，就会高估那些只保住了无关紧要细节的模型。CREval 据此给每个需保留的元素赋一个重要性权重 \(w \in \{1, 2, 3\}\)：丢掉它会严重破坏主体辨识的元素给高权，影响小的给低权。例如把油画《戴珍珠耳环的少女》的主体做成钥匙扣，珍珠耳环是最具标识性的视觉特征，被判为关键元素、赋最高权重 \(w=3\)；VC 分按各元素权重加权得出。三项分项分 \(S_{IF}, S_{VC}, S_{VQ}\) 算出后，最终总分按固定权重加权：

\[S = 0.4 \cdot S_{IF} + 0.4 \cdot S_{VC} + 0.2 \cdot S_{VQ}\]

IF 与 VC 各占 0.4、VQ 只占 0.2，是有意为之：作者指出当前 MLLM 对视觉质量的细微差异敏感度有限（容易忽略扭曲肢体、多余手指等小瑕疵），故调低 VQ 权重，让总分更可靠地反映「功能正确性」而非被不靠谱的画质判断带偏。

4. CREval-Bench：3 大类 × 9 维度、用 few-shot 让 GPT-4o 量产创意指令

为补「现有 benchmark 不覆盖自由创意编辑」的空白，作者构建了 CREval-Bench：先从公开资源与已有数据集精选高质量原图（含真实与合成图，覆盖多种物体/场景/风格），再用 GPT-4o 自动生成创意编辑指令。把创意编辑归为三大类——Customization（对物体形态的创意重构：衍生角色/再想象表征/超现实奇想）、Contextualization（把物体放进特定场景/商业设计/信息叙事：容器化场景/商业设计/信息与叙事表达）、Stylization（艺术化再呈现：艺术风格迁移/身份与文化转换/材质转换）——每类再细分 3 维度共 9 个维度，各维度样本数大体均衡（76~122 不等）。为保证指令贴合维度，作者给每个维度提供代表性示例做 few-shot，引导 GPT-4o 生成对应类别的指令，最终得到 800+「图–指令」对（基准规模 874），配上约 13K 条评测问答。

损失函数 / 训练策略¶

本文是评测基准与流程，不涉及模型训练，无损失函数。评测侧主要超参为最终加权系数 \(0.4/0.4/0.2\)，以及 VC 元素权重 \(w\in\{1,2,3\}\)；评委 MLLM 主用 GPT-4o，并用 Qwen3-VL 做鲁棒性交叉验证。

实验关键数据¶

主实验¶

在 CREval-Bench 上、以 GPT-4o 为评委评测主流开源/闭源编辑模型（分数归一到百分制）。下表摘取 Overall 列的代表性结果：

模型	类型	IF	VC	VQ	Overall avg
Seedream 4.0	闭源	89.12	73.44	92.01	83.43
Gemini 2.5 Flash Image	闭源	83.38	74.79	90.37	81.34
Qwen-Image-Edit-2509	开源	85.82	68.50	90.26	79.78
GPT-Image-1	闭源	88.34	63.46	91.23	78.97
FLUX.1 Kontext [dev]	开源	70.13	73.88	86.03	74.81
FLUX.1 Kontext [pro]	闭源	71.24	71.98	87.98	74.88
Bagel	开源	78.32	53.69	80.07	68.82
ICEdit	开源	45.33	55.25	67.72	53.78

闭源整体领先，Seedream 4.0 综合最强、Gemini 2.5 Flash Image 次之；开源里 Qwen-Image-Edit-2509 最好、FLUX.1 Kontext [dev] 紧随。普遍短板在 VC：几乎所有模型 VC 分都偏低，说明当前编辑模型仍难可靠地识别并保住原图关键元素——GPT-Image-1 的总分被拖后腿正是因为 VC（63.46）全场近乎最低。

人类偏好一致性验证¶

在 6 个代表模型、200+ 样本、18 名标注者（0–5 评分后归一到百分制）上，把 CREval 与 Aesthetic Score / VIEScore / EditScore 等基线对比与人类打分的吻合度：

模型	VIEScore	EditScore	CREval (Qwen3-VL)	CREval (GPT-4o)	HumanScore
Bagel	6.02	7.28	72.59	68.99	49.98
FLUX.1-Kontext [dev]	7.17	7.36	80.38	75.05	51.77
Qwen-Image-Edit	6.83	7.97	83.02	79.18	63.49
GPT-Image-1	6.73	8.21	83.15	78.01	63.21
Gemini 2.5 Flash Image	7.39	7.92	87.14	81.78	66.14
Seedream 4.0	7.49	8.13	88.47	84.31	72.01

CREval 给出的排序与 HumanScore 高度一致（人类也把 Seedream 4.0 排第一、Gemini 第二），且换用 Qwen3-VL 当评委时绝对分会变、但相对排序基本不变，说明结论对评委 MLLM 的选择稳健。

关键发现¶

VC 是全行业共同瓶颈：闭源开源都低，编辑模型最难做到的是「改了该改的、同时保住原主体的标识性特征」。
「会保留」未必是好事：UniWorld-V1 的 VC 分在开源里最高，但定性检查发现这是因为它根本没执行编辑指令——没动的图自然与原图一致，提醒看 VC 不能脱离 IF 单独解读。
「思考模块」无益甚至有害：Bagel 与 Step1X-Edit 的 think 变体在 IF 上反而不如普通版，额外的「思考」对指令对齐没帮助、略有拖累。
VQ 趋同、需调低权重：除 UniWorld-V1/ICEdit 明显偏弱外，多数模型（尤其闭源）VQ 分非常接近，因 MLLM 常忽略扭曲肢体、多余手指等细微瑕疵——这也解释了为何最终加权把 VQ 压到 0.2。

亮点与洞察¶

把「打分」改写成「答有标准答案的是非题」：这是最巧的一步——评测的可解释性不靠让 MLLM「解释自己」，而是靠题目本身的可核验性，每一分都能溯源到一道具体问答，天然规避黑盒。
重要性加权 VC 抓住了创意编辑的要害：创意编辑允许大改外形，唯一不能丢的是「让人认出这还是原主体」的标识性元素（珍珠耳环式的点），用 \(w\) 权重把这件事量化进指标，比一视同仁的一致性度量精准得多。
「高一致性 = 没编辑」这个反例值得记住：任何「保留性」指标都要和「修改性」指标联看，否则一个什么都不改的模型能在一致性上刷到满分——这条洞察可迁移到任何编辑/翻译/风格化任务的评测设计。
加权系数承认了评委的能力边界：把 VQ 压到 0.2 不是拍脑袋，而是基于「MLLM 对画质瑕疵不敏感」的实测，设计指标时把评测器自身的弱点纳入考量，这种诚实在 benchmark 论文里少见。

局限与展望¶

评测器即天花板：绝对分数本质上取决于评委 MLLM 自身能力，作者也承认 MLLM 对细微视觉瑕疵不敏感，因此 VQ 维度天生受限；只能靠「相对排序稳定」来背书结论，不能把绝对分当真值。
数据生成同源风险⚠️：指令由 GPT-4o 生成、评测又主要用 GPT-4o 当评委，二者同源是否会引入偏向（更偏好「GPT 式」指令/图）论文未深入讨论，是潜在隐患。
是非题的粒度上限：把评测压成 Yes/No，对「程度性」的好坏（如风格迁移的美感强弱）表达力有限，难以区分「勉强达标」与「做得出彩」。
改进方向：引入更强或多评委集成以缓解评测器瓶颈；为创意/审美维度补充分级（非二值）问答；交叉用不同家族 MLLM 生成指令以降低同源偏置。

评分¶

新颖性: ⭐⭐⭐⭐ 「QA 式可解释评测 + 重要性加权 VC + 创意编辑专属基准」组合扎实，单点创新不算颠覆但切中真实痛点。
实验充分度: ⭐⭐⭐⭐ 覆盖 13 个主流开源/闭源模型、9 维度细评，并有 18 人 200+ 样本的人类一致性与双评委鲁棒性验证。
写作质量: ⭐⭐⭐⭐ 三阶段管线与三指标定义清晰，公式与权重动机交代到位。
价值: ⭐⭐⭐⭐ 给创意图像编辑提供了可解释、可复用、与人类对齐的评测底座，对模型选型与后续研究实用。