MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models¶

会议: CVPR 2026
arXiv: 2602.19497
代码: https://github.com/Angusliuuu/MICON-Bench
领域: 图像生成 / 多模态评估
关键词: 多图上下文生成, 统一多模态模型, benchmark, 动态注意力重平衡, 检查点评估

一句话总结¶

提出 MICON-Bench，覆盖 6 项任务（1043 案例）的多图上下文生成基准，配合 MLLM 驱动的 Evaluation-by-Checkpoint 自动评估框架；同时提出 DAR（Dynamic Attention Rebalancing）训练无关机制，通过动态调整推理时注意力权重提升 UMM 的多图生成一致性和质量。

研究背景与动机¶

领域现状：UMM 已能处理多图输入并生成上下文一致的视觉输出，代表模型有 Nano-Banana、GPT-Image、BAGEL、OmniGen2。但多图上下文生成能力缺乏系统评估。

评估空白：现有基准（GenEval、T2ICompBench、ImgEdit-Bench）主要评文生图或单图编辑，不涉及跨图一致性和复杂视觉关系推理。OmniContext 虽有多图但仅限简单主体组合。

技术痛点：UMM 在多图输入时倾向于均匀分配注意力到所有参考图所有区域，包括无关区域，导致幻觉和不一致。

核心idea：(a) 6 项标准化任务 + 可验证检查点评估系统；(b) 注意力重平衡在推理时调整焦点。

方法详解¶

整体框架¶

这篇工作有两条腿：一条是 benchmark，一条是即插即用的推理时机制。多图上下文生成（给几张参考图、让统一多模态模型 UMM 生成一致的新图）一直缺系统评估，作者先搭了 MICON-Bench——6 类任务、1043 个案例，配一套 MLLM 驱动的「按检查点评估」框架把每个案例拆成可验证的细粒度判分点；再针对评估暴露的问题——UMM 在多图输入时倾向于把注意力均匀撒到所有参考区域、连无关区域也照顾——提出 DAR（Dynamic Attention Rebalancing），在推理时动态重加权注意力、不需任何训练。

关键设计¶

1. MICON-Bench：覆盖从简单组合到因果推理的 6 类任务

现有基准（GenEval、T2ICompBench、ImgEdit-Bench）多评文生图或单图编辑，碰不到跨图一致性和复杂视觉关系推理；OmniContext 虽含多图但只到简单主体组合。MICON-Bench 把多图上下文生成拆成 5 类组合任务加 1 类复杂推理任务，难度递增：

任务	描述	案例数	参考图数
Object Composition	单主体 + 背景组合	200	2-3
Spatial Composition	多物体空间关系约束	200	2-3
Attribute Disentanglement	主体/风格/背景解耦重组	100	3
Component Transfer	部件/配饰跨图迁移	240	2-3
FG/BG Composition	前景+背景融合	200	2
Story Generation	因果推理续写故事	103	2-3
总计		1043	2518张

2. Evaluation-by-Checkpoint：把「好不好」拆成一串 pass/fail

图像级整体打分太粗、说不清模型到底错在哪。这套框架为每个案例预先定义一组可验证检查点，覆盖指令遵循、身份一致、结构、跨参考一致性、因果性、文本锚定、整体可用性七个维度，再让 MLLM（Qwen3-VL-32B）当验证器逐点判 pass/fail、最终分数取通过率均值；Story 任务还额外配预定义答案集来评推理。这样评估既细粒度又可量化、可扩展。

3. Dynamic Attention Rebalancing（DAR）：把注意力从无关区域抢回关键区域

DAR 针对的正是诊断出的病根——UMM 不加区分地关注参考图里的无关区域，导致幻觉和不一致。它先做一次高效注意力分析：均匀采样 \(m \ll L_q\) 个查询 token（默认 \(m=64\)），算它们对参考图各 key token 的注意力，把每个 key 的总分 \(r_k = \sum_{i=1}^{m}\sum_{h=1}^{H} \tilde{A}_{i,h,k}\) 做 min-max 归一化得 \(\hat{r}_k\)。然后按双阈值分三类重加权：\(\hat{r}_k \geq \tau_{high}\) 的关键 key 放大为 \(w_k = 1+\gamma\)、\(\hat{r}_k \leq \tau_{low}\) 的无关 key 压成 \(w_k = 1-\gamma\)、其余不变，再用调整后的权重重算注意力 \(A = \text{softmax}\left(\frac{Q(w \odot K_{ref})^\top}{\sqrt{d}}\right)\)（默认 \(\gamma=0.15,\ \tau_{high}=0.7,\ \tau_{low}=0.3\)）。整个过程只采样 64 个 query、零训练、即插即用，开销几乎可忽略。

实验关键数据¶

主实验：MICON-Bench 各任务评分¶

模型	Object	Spatial	Attribute	Component	FG/BG	Story	Avg↑
Nano-Banana	95.60	93.79	92.13	84.23	83.13	82.84	89.25
GPT-Image	96.45	94.41	93.39	87.69	85.99	91.51	90.15
UNO	58.40	66.68	65.28	28.84	20.96	39.08	44.76
DreamOmni2	88.24	84.76	85.28	59.64	76.16	59.58	75.56
BAGEL	87.64	89.96	89.84	52.40	64.64	65.09	73.55
BAGEL + DAR	88.04	91.88	90.76	56.06	71.24	66.34	76.31
OmniGen2	89.52	80.32	81.64	44.76	57.96	60.96	67.83
OmniGen2 + DAR	89.84	81.00	82.12	48.72	59.28	60.73	69.21

OmniContext 基准¶

方法	SINGLE Char/Obj	MULTIPLE Char/Obj	SCENE Char/Obj	Avg↑
OmniGen2	8.18/7.33	6.56/7.99	6.87/7.90	7.53
OmniGen2+DAR	8.30/8.19	6.64/8.42	7.06/7.97	7.77
BAGEL	5.71/6.22	3.03/6.90	4.24/5.16	5.54
BAGEL+DAR	6.26/6.08	4.14/7.18	4.78/4.84	5.80

XVerseBench 基准¶

方法	Single-Subject Avg↑	Multi-Subject Avg↑	Overall↑
OmniGen2	52.53	49.76	51.14
OmniGen2+DAR	53.24	50.23	51.73
BAGEL	47.91	42.62	45.26
BAGEL+DAR	48.54	43.91	46.23

关键发现¶

MICON-Bench 有效区分模型：GPT-Image 最强（90.15），扩散模型 UNO 最弱（44.76）
DAR 对 BAGEL 提升最显著：Avg +2.76（73.55→76.31），FG/BG 单项 +6.60
DAR 在三个不同基准（MICON-Bench、OmniContext、XVerseBench）均一致提升，泛化性好
Component Transfer 和 FG/BG 是最具挑战性任务，即使顶级模型也仅 84-88 分
开源模型与闭源模型差距仍显著（BAGEL 73.55 vs GPT-Image 90.15）

亮点与洞察¶

首个系统性多图上下文生成基准：6 任务覆盖从简单组合到因果推理的完整难度谱
Evaluation-by-Checkpoint 范式：细粒度、可量化、可扩展，比图像级指标更客观
DAR 机制简洁有效：仅采样 64 查询 token + 双阈值重加权即可显著提升，零训练开销
暴露了 UMM 在多图推理中的注意力分配盲区，为未来模型设计提供方向

局限性¶

DAR 阈值 \(\tau_{high}, \tau_{low}\) 和调制因子 \(\gamma\) 需手动设置，未探索自适应方案
Story Generation 任务样本量较少（103 例）
基准数据由 Qwen-Image + GPT-4o 生成，可能引入生成模型偏差
未评估 3D 一致性和时序连续性等更高阶要求

评分¶

新颖性: ⭐⭐⭐⭐ 首个多图上下文生成基准 + 即插即用 DAR
实验充分度: ⭐⭐⭐⭐⭐ 7+ 模型 + 3 基准 + 多指标 + 全面对比
写作质量: ⭐⭐⭐⭐ 任务定义清晰评估流程完善
实用价值: ⭐⭐⭐⭐ 基准推动评估标准化，DAR 即插即用