WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/beepkh/WiseEdit （数据集见 HuggingFace 123123chen/WiseEdit-Benchmark）
领域: 图像编辑 / 评测基准 / 多模态生成
关键词: 图像编辑, 认知与创造力, 知识密集型评测, 多图输入, GPT-4o 评测

一句话总结¶

WiseEdit 把指令式图像编辑拆成「感知—解读—想象」三级认知步骤、配上「陈述性/程序性/元认知」三类知识，构建了 1,220 条中英双语、含 26% 多图输入的高难度评测集，用 GPT-4o 在五个维度（含自创的知识保真度 KF 与创造性融合 CF）打分，系统地暴露出当前 SOTA 编辑模型在知识推理与组合创作上的短板。

研究背景与动机¶

领域现状：指令式图像编辑近两年从早期只能做「加帽子/删物体」这类局部简单编辑，进化到由 MLLM + 大扩散模型驱动的「推理式编辑」。开源的 Bagel、Qwen-Image-Edit、OmniGen2 把视觉理解与生成统一进单一模型，闭源的 GPT-image-1、Nano Banana 更进一步，号称能做「认知与创造力驱动」的智能编辑——理解隐含意图、做多概念组合创作。

现有痛点：模型能力跑得很快，但评测基准跟不上。多数老 benchmark（MagicBrush、AnyEdit 类）用「一张图 + 一条直白指令明确说改哪个物体」的单一模板，几乎不需要任何认知或创造力；即便是较新的 KrisBench、RiseBench、IntelligentBench 引入了世界知识，也只是单图输入、只测「解读」这一环、不测元认知知识、且只有英文。

核心矛盾：一个真正的智能编辑过程需要走完「先看懂改哪 → 再想清怎么改 → 最后画出来」整条链，并且要调用不同层次的知识；而现有基准在任务深度（只覆盖中间一环）和知识广度（缺元认知、缺多语、缺多图组合）两个维度上都太窄，导致无法真实衡量模型的高阶能力。

本文目标：造一个同时具备高任务深度和宽知识广度的知识密集型基准，把编辑能力的各个面切开来逐一考查。

切入角度：类比人类的认知与创作过程，把编辑工作流分解为三个互相衔接的步骤——感知（Awareness，建立选择性视觉注意、定位修改目标）、解读（Interpretation，把指令解析成可执行的感知级视觉变化）、想象（Imagination，高保真渲染出创造性结果）；再正交叠加心理学里的三类知识。

核心 idea：用「三步认知分解 × 三类知识」的二维坐标系来设计任务，每一步都设计专门「卡住该步」的高难度题，并新增 KF/CF 两个针对知识与创造力的评测维度，从而把过去被一锅端的「编辑能力」拆解成可度量的子能力。

方法详解¶

整体框架¶

WiseEdit 不是一个模型而是一套评测基准，整体可以看成「沿两条正交坐标轴造题 → 汇成 1,220 条双语用例 → 用 GPT-4o 在五个维度打分 → 加权成总分」的流水线。第一条坐标轴是任务深度：把编辑拆成感知/解读/想象三步，再为每步单独造「让模型在这一步就栽跟头」的难题，外加一个三步都难的 WiseEdit-Complex。第二条坐标轴是知识广度：每条用例背后挂着陈述性/程序性/元认知三类知识之一，并横跨文化常识、自然科学、时空逻辑等多个领域。题目输入是自由形式（free-form），允许多图（用「第一张/第二张」这类序数词指代不同图、且不同图扮演「编辑目标」或「属性参考」的不同角色），并提供中英双语版本。最后用统一评测协议把每个模型的输出打成一个 0–100 的综合分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["编辑请求<br/>自由形式·单/多图·中英双语"] --> B["三级认知任务深度<br/>感知→解读→想象+Complex"]
    A --> C["三类知识广度<br/>陈述/程序/元认知 × 多域"]
    B --> D["1,220 条双语高质量用例"]
    C --> D
    D --> E["GPT-4o 五维评测协议<br/>IF/DP/VQ + KF + CF"]
    E --> F["加权综合分 AVG<br/>评估 ~20 个编辑模型"]

关键设计¶

1. 三级认知分解 + 四类任务：让每一步都成为独立考点

针对老基准「只考解读、且解读也很浅」的痛点，WiseEdit 把编辑显式切成三步，并为每步造专门难题：感知任务不给明确空间线索，逼模型靠比较推理（「移除最开心的那个人」）、间接指代（「在地图上标出莎士比亚的故乡」）或跨图视觉对应来定位目标；解读任务的指令往往不直接说怎么改，要模型用世界知识把隐含意图翻成可执行动作（如纠错、做时间推移、预判一条看似简单指令引发的级联反应）；想象任务聚焦主体驱动的高难生成，要在保持主体身份的前提下改服装/姿态/视角、做多物体组合，甚至反直觉创作。在此之上再叠一个 WiseEdit-Complex——三步都不能轻松完成，必须把复杂推理和创造性生成揉在一起。这样的好处是，模型在哪一环掉链子能被精确定位，而不是只得到一个笼统的「编辑分」。WiseEdit-Complex 的多图占比也最高（整库 26% 用例为多图输入），显著拉高了组合难度。

2. 三类知识体系 + 多域多语：把「知道什么/怎么做/何时用」都纳入考查

这是 WiseEdit 相对 KrisBench 等的关键扩展。它把编辑所需的世界知识按认知心理学分成三层：陈述性知识（knowing what，事实与概念，如「中国国宝级动物」要知道指熊猫）、程序性知识（knowing how，把任务拆成多步流程的技能，如系统地把水彩画转成线稿）、元认知知识（knowing about knowing，自我调控——知道何时该调用陈述性还是程序性知识、怎么组合它们，典型是带条件分支的复杂指令「让女孩拿第二张图里最长的物体；若该物体能用来刷牙就面向镜头，否则背对镜头」）。其中元认知是几乎所有旧基准都漏掉的一层。这三类知识又横跨文化常识、自然科学、时空逻辑三大领域，且每条用例都给出中英两个版本，用来额外考查跨语言指令跟随能力。

3. 五维评测协议 + KF/CF 新指标：用 GPT-4o 把知识与创造力单独量化

针对「过去只看指令跟随/细节保持/画质，量不出知识对不对、创造力够不够」的痛点，WiseEdit 用 GPT-4o 作为评测器，在传统三项之外新增两个维度。三项传统指标是：指令跟随 IF（是否准确执行编辑请求）、细节保持 DP（与指令无关的部分是否被忠实保留）、视觉质量 VQ（自然度、有无瑕疵）。两项新指标是：知识保真度 KF（编辑结果是否符合真实世界逻辑与知识——物理/生物/化学/文化/常识正确性，评测时还会给一条 knowledge hint 作参照）、创造性融合 CF（相对原图的概念新颖性、表达变换与想象深度，衡量类人创造力）。每项按精心设计的 prompt 在 1–10 打分。综合分按任务自适应加权：

\[\text{AVG} = \frac{\text{IF} + \text{DP} + \text{VQ} + \alpha \cdot \text{KF} + \beta \cdot \text{CF}}{3 + \alpha + \beta}\]

其中 \(\alpha,\beta\in\{0,1\}\)——KF 只在感知/解读/Complex 任务上启用（\(\alpha=1\)），CF 只在想象/Complex 任务上启用（\(\beta=1\)），其余置 0。这样每个维度只在「该考它」的任务上参与计分，避免给纯生成题硬塞知识分或给纯感知题硬塞创造分。最终把 1–10 线性映射到 0–100 区间汇报。

实验关键数据¶

主实验¶

评测约 20 个主流编辑模型（论文 intro 称 21 个、17 开源 + 4 闭源；4.1 节写 20 个，⚠️ 以原文为准），覆盖纯扩散模型（MagicBrush、FLUX.1/2 Kontext 等）、统一理解-生成模型（Bagel、Qwen-Image-Edit、OmniGen2、DreamOmni2 等）与闭源模型（Nano Banana、Seedream 4.0、GPT-image-1、Nano Banana Pro）。下表为 WiseEdit 英文版总分（0–100，节选代表性模型）：

模型	类型	感知 AVG	解读 AVG	想象 AVG	总分 AVG
MagicBrush	扩散	37.8	38.1	30.5	35.5
FLUX.2 Dev	扩散	59.4	58.4	67.5	61.8
Qwen-Image-Edit	统一	62.5	54.1	63.8	60.2
DreamOmni2	统一	63.5	60.0	58.2	60.6
Nano Banana	闭源	79.6	75.3	70.2	75.0
GPT-image-1	闭源	83.3	74.9	77.6	77.6
Nano Banana Pro	闭源	87.3	83.3	76.6	82.4

WiseEdit-Complex（仅多图模型参与）整体更难，分数普遍跳水：

模型	英文 AVG	中文 AVG	总分 AVG
AnyEdit	8.7	8.2	8.5
Qwen-Image-Edit	53.8	53.4	53.6
Bagel	54.5	54.7	54.6
Nano Banana	69.6	66.6	68.1
GPT-image-1	71.0	71.4	71.2
Nano Banana Pro	75.5	78.7	77.1

消融实验¶

论文用几组对照分析来验证「视觉理解驱动生成」并检验评测协议本身：

配置 / 分析	关键指标	说明
评测协议 vs 人评（Pearson）	GPT-ours 相关性最高	比 GPT-Kris、Gemini-ours、Qwen-ours 都更贴近人评
关闭统一模型的 thinking	全面显著掉分	Bagel/DreamOmni2 去掉内置思考后在两套测试上都明显下降
单图 vs 多图输入	多图平均分显著更低	多图组合是拖累总分的主要场景
指令改写（注入知识提示，Bagel）	KF 50.2→78.4 (+28.2)，总分 51.3→65.8 (+14.5)	开源模型靠外部知识提示能补齐推理短板
指令改写（GPT-image-1）	总分 68.2→74.2 (+6.0)	闭源模型增益小，因内部已具备相应知识

关键发现¶

闭源对开源仍是碾压级差距：在三类任务、两种语言下，每个闭源模型都全面压制所有开源模型，连最弱的闭源模型都比最强开源模型在总分上高出近 15 分——反驳了某些基准上「开源已超闭源」的说法。
统一理解-生成架构是分水岭：统一视觉理解+生成的模型普遍显著优于纯扩散模型（FLUX.2 Dev 是个例外的强扩散），且闭源强模型同样采用统一架构，说明强视觉理解与推理是实现高阶编辑的前提。
两大公认短板：知识保真度与创造性融合。KF 反过来还会拖累 IF；元认知知识用例的表现明显弱于陈述性/程序性知识；想象任务上所有模型 CF 和 DP 都不过 80，细粒度主体驱动生成仍是未解问题。
「会想但不会做」现象：部分闭源模型在 Complex 任务上 KF/CF 反而比简单任务更高，但 IF 大幅下滑——它们理解了意图、抓住了创意，却在执行层「有心无力」，牺牲了基本的指令跟随；逻辑类题（如火柴棍问题）是所有模型共同的能力边界。
顶级模型跨语言鲁棒：尽管中文训练数据有限，头部统一/闭源模型在中英指令上表现相当，得益于强大的内置视觉理解模块带来的多语对齐。

亮点与洞察¶

把「编辑能力」做了可度量的解耦：用「三步认知 × 三类知识」的二维坐标系造题，让一个模型在哪一环、哪类知识上掉链子可被精确定位，比一个笼统总分有用得多——这种「按能力维度切基准」的思路可迁移到视频编辑、3D 生成等任务。
KF / CF 两个新指标补上了知识与创造力的量化空白，并用任务自适应加权 (\(\alpha,\beta\)) 只在合适的任务上启用，避免无意义打分；评测器选型还用人评 Pearson 相关性做了背书，比直接拍脑袋用某个 VLM 更可信。
指令改写实验是一个很有洞察的探针：开源模型靠注入知识提示就能涨 ~15 分总分（KF +30），而闭源几乎不涨——干净地说明开源的瓶颈不在生成而在「内部推理/知识调用」，为后续工作指出了发力点。
多图 + 角色推断的任务设计贴近真实需求：用序数词指代、不同图扮演目标/参考的不同角色，逼模型从指令里推断每张图的用途，这是单图基准测不到的。

局限与展望¶

依赖 GPT-4o 作为唯一评测器：虽然做了人评相关性验证，但用一个闭源 VLM 给一堆生成模型打分，存在评测器自身偏好、对自家系列（GPT-image-1）潜在偏置以及版本漂移导致复现困难的风险。
模型数量统计前后不一致（intro 21 个 vs 4.1 节 20 个），且评测的是各模型某一时间快照，结论随模型迭代会很快过时。
新指标 KF/CF 的打分仍是 prompt 工程驱动的软评估，1–10 的分辨率和 prompt 设计对结果影响大，论文把细节放在附录，正文难以完全判断稳健性。
只诊断不给解法：作为基准论文这无可厚非，但「会想不会做」「多图拖后腿」这些现象更深层的成因（是数据、架构还是对齐问题）留待后续；可改进方向是配套发布带细分能力标签的训练/诊断子集。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把编辑拆成三级认知步骤并叠加三类知识造题，KF/CF 指标与多图/双语设计都是实打实的增量
实验充分度: ⭐⭐⭐⭐⭐ 覆盖约 20 个开闭源模型、中英双版、四类任务，含评测器对比/thinking 消融/指令改写等多角度分析
写作质量: ⭐⭐⭐⭐ 框架清晰、动机扎实，但模型数量前后不一致、KF/CF 实现细节多压在附录
价值: ⭐⭐⭐⭐⭐ 给智能图像编辑提供了一把能精确定位短板的「认知尺」，对评测与模型研发都有长期参考价值