MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models¶
会议: CVPR 2026
arXiv: 2602.19497
代码: https://github.com/Angusliuuu/MICON-Bench
领域: 图像生成 / 多模态评估
关键词: 多图上下文生成, 统一多模态模型, benchmark, 动态注意力重平衡, 检查点评估
一句话总结¶
提出 MICON-Bench,覆盖 6 项任务(1043 案例)的多图上下文生成基准,配合 MLLM 驱动的 Evaluation-by-Checkpoint 自动评估框架;同时提出 DAR(Dynamic Attention Rebalancing)训练无关机制,通过动态调整推理时注意力权重提升 UMM 的多图生成一致性和质量。
研究背景与动机¶
领域现状:UMM 已能处理多图输入并生成上下文一致的视觉输出,代表模型有 Nano-Banana、GPT-Image、BAGEL、OmniGen2。但多图上下文生成能力缺乏系统评估。
评估空白:现有基准(GenEval、T2ICompBench、ImgEdit-Bench)主要评文生图或单图编辑,不涉及跨图一致性和复杂视觉关系推理。OmniContext 虽有多图但仅限简单主体组合。
技术痛点:UMM 在多图输入时倾向于均匀分配注意力到所有参考图所有区域,包括无关区域,导致幻觉和不一致。
核心idea:(a) 6 项标准化任务 + 可验证检查点评估系统;(b) 注意力重平衡在推理时调整焦点。
方法详解¶
整体框架¶
这篇工作有两条腿:一条是 benchmark,一条是即插即用的推理时机制。多图上下文生成(给几张参考图、让统一多模态模型 UMM 生成一致的新图)一直缺系统评估,作者先搭了 MICON-Bench——6 类任务、1043 个案例,配一套 MLLM 驱动的「按检查点评估」框架把每个案例拆成可验证的细粒度判分点;再针对评估暴露的问题——UMM 在多图输入时倾向于把注意力均匀撒到所有参考区域、连无关区域也照顾——提出 DAR(Dynamic Attention Rebalancing),在推理时动态重加权注意力、不需任何训练。
关键设计¶
1. MICON-Bench:覆盖从简单组合到因果推理的 6 类任务
现有基准(GenEval、T2ICompBench、ImgEdit-Bench)多评文生图或单图编辑,碰不到跨图一致性和复杂视觉关系推理;OmniContext 虽含多图但只到简单主体组合。MICON-Bench 把多图上下文生成拆成 5 类组合任务加 1 类复杂推理任务,难度递增:
| 任务 | 描述 | 案例数 | 参考图数 |
|---|---|---|---|
| Object Composition | 单主体 + 背景组合 | 200 | 2-3 |
| Spatial Composition | 多物体空间关系约束 | 200 | 2-3 |
| Attribute Disentanglement | 主体/风格/背景解耦重组 | 100 | 3 |
| Component Transfer | 部件/配饰跨图迁移 | 240 | 2-3 |
| FG/BG Composition | 前景+背景融合 | 200 | 2 |
| Story Generation | 因果推理续写故事 | 103 | 2-3 |
| 总计 | 1043 | 2518张 |
2. Evaluation-by-Checkpoint:把「好不好」拆成一串 pass/fail
图像级整体打分太粗、说不清模型到底错在哪。这套框架为每个案例预先定义一组可验证检查点,覆盖指令遵循、身份一致、结构、跨参考一致性、因果性、文本锚定、整体可用性七个维度,再让 MLLM(Qwen3-VL-32B)当验证器逐点判 pass/fail、最终分数取通过率均值;Story 任务还额外配预定义答案集来评推理。这样评估既细粒度又可量化、可扩展。
3. Dynamic Attention Rebalancing(DAR):把注意力从无关区域抢回关键区域
DAR 针对的正是诊断出的病根——UMM 不加区分地关注参考图里的无关区域,导致幻觉和不一致。它先做一次高效注意力分析:均匀采样 \(m \ll L_q\) 个查询 token(默认 \(m=64\)),算它们对参考图各 key token 的注意力,把每个 key 的总分 \(r_k = \sum_{i=1}^{m}\sum_{h=1}^{H} \tilde{A}_{i,h,k}\) 做 min-max 归一化得 \(\hat{r}_k\)。然后按双阈值分三类重加权:\(\hat{r}_k \geq \tau_{high}\) 的关键 key 放大为 \(w_k = 1+\gamma\)、\(\hat{r}_k \leq \tau_{low}\) 的无关 key 压成 \(w_k = 1-\gamma\)、其余不变,再用调整后的权重重算注意力 \(A = \text{softmax}\left(\frac{Q(w \odot K_{ref})^\top}{\sqrt{d}}\right)\)(默认 \(\gamma=0.15,\ \tau_{high}=0.7,\ \tau_{low}=0.3\))。整个过程只采样 64 个 query、零训练、即插即用,开销几乎可忽略。
实验关键数据¶
主实验:MICON-Bench 各任务评分¶
| 模型 | Object | Spatial | Attribute | Component | FG/BG | Story | Avg↑ |
|---|---|---|---|---|---|---|---|
| Nano-Banana | 95.60 | 93.79 | 92.13 | 84.23 | 83.13 | 82.84 | 89.25 |
| GPT-Image | 96.45 | 94.41 | 93.39 | 87.69 | 85.99 | 91.51 | 90.15 |
| UNO | 58.40 | 66.68 | 65.28 | 28.84 | 20.96 | 39.08 | 44.76 |
| DreamOmni2 | 88.24 | 84.76 | 85.28 | 59.64 | 76.16 | 59.58 | 75.56 |
| BAGEL | 87.64 | 89.96 | 89.84 | 52.40 | 64.64 | 65.09 | 73.55 |
| BAGEL + DAR | 88.04 | 91.88 | 90.76 | 56.06 | 71.24 | 66.34 | 76.31 |
| OmniGen2 | 89.52 | 80.32 | 81.64 | 44.76 | 57.96 | 60.96 | 67.83 |
| OmniGen2 + DAR | 89.84 | 81.00 | 82.12 | 48.72 | 59.28 | 60.73 | 69.21 |
OmniContext 基准¶
| 方法 | SINGLE Char/Obj | MULTIPLE Char/Obj | SCENE Char/Obj | Avg↑ |
|---|---|---|---|---|
| OmniGen2 | 8.18/7.33 | 6.56/7.99 | 6.87/7.90 | 7.53 |
| OmniGen2+DAR | 8.30/8.19 | 6.64/8.42 | 7.06/7.97 | 7.77 |
| BAGEL | 5.71/6.22 | 3.03/6.90 | 4.24/5.16 | 5.54 |
| BAGEL+DAR | 6.26/6.08 | 4.14/7.18 | 4.78/4.84 | 5.80 |
XVerseBench 基准¶
| 方法 | Single-Subject Avg↑ | Multi-Subject Avg↑ | Overall↑ |
|---|---|---|---|
| OmniGen2 | 52.53 | 49.76 | 51.14 |
| OmniGen2+DAR | 53.24 | 50.23 | 51.73 |
| BAGEL | 47.91 | 42.62 | 45.26 |
| BAGEL+DAR | 48.54 | 43.91 | 46.23 |
关键发现¶
- MICON-Bench 有效区分模型:GPT-Image 最强(90.15),扩散模型 UNO 最弱(44.76)
- DAR 对 BAGEL 提升最显著:Avg +2.76(73.55→76.31),FG/BG 单项 +6.60
- DAR 在三个不同基准(MICON-Bench、OmniContext、XVerseBench)均一致提升,泛化性好
- Component Transfer 和 FG/BG 是最具挑战性任务,即使顶级模型也仅 84-88 分
- 开源模型与闭源模型差距仍显著(BAGEL 73.55 vs GPT-Image 90.15)
亮点与洞察¶
- 首个系统性多图上下文生成基准:6 任务覆盖从简单组合到因果推理的完整难度谱
- Evaluation-by-Checkpoint 范式:细粒度、可量化、可扩展,比图像级指标更客观
- DAR 机制简洁有效:仅采样 64 查询 token + 双阈值重加权即可显著提升,零训练开销
- 暴露了 UMM 在多图推理中的注意力分配盲区,为未来模型设计提供方向
局限性¶
- DAR 阈值 \(\tau_{high}, \tau_{low}\) 和调制因子 \(\gamma\) 需手动设置,未探索自适应方案
- Story Generation 任务样本量较少(103 例)
- 基准数据由 Qwen-Image + GPT-4o 生成,可能引入生成模型偏差
- 未评估 3D 一致性和时序连续性等更高阶要求
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个多图上下文生成基准 + 即插即用 DAR
- 实验充分度: ⭐⭐⭐⭐⭐ 7+ 模型 + 3 基准 + 多指标 + 全面对比
- 写作质量: ⭐⭐⭐⭐ 任务定义清晰评估流程完善
- 实用价值: ⭐⭐⭐⭐ 基准推动评估标准化,DAR 即插即用