MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7x6TxVIarj
论文: MME-Unify Project
代码: https://mme-unify.github.io/（Benchmark 项目页，数据与代码以项目页为准）
领域: 多模态VLM / 统一多模态评测 / 多模态理解生成
关键词: 统一多模态模型, 多模态评测, 图文交错生成, 视觉推理, benchmark

一句话总结¶

MME-Unify 提出一个面向统一多模态大模型的综合评测基准，把理解、生成以及“先理解推理再生成”的混合模态任务放到同一套可复现评分框架下，发现当前最强 U-MLLM 的总分也只有约 50，尤其在复杂指令跟随和多步视觉状态维护上仍然薄弱。

研究背景与动机¶

领域现状：统一多模态大模型（Unified Multimodal Large Language Models, U-MLLMs）试图把传统 MLLM 的图像/视频理解能力和生成模型的图像/视频生成能力合到一个模型里。和只输出文本的 GPT-4V/Qwen2.5-VL 类模型不同，这类模型不仅能看图回答问题，也能生成图像、编辑图像，甚至输出图文交错的结果，例如先分析几何题，再在图上画辅助线。

现有痛点：这类模型发展很快，但评测方式仍然碎片化。理解能力通常拿 MMBench、MME、Video-MME 等问答基准测，生成能力又用 GenEval、VBench、图像编辑或视频生成指标测，不同论文选的任务、输入格式和指标都不一样。更麻烦的是，U-MLLM 最有特色的能力并不是“只理解”或“只生成”，而是理解和生成相互配合：模型要先读懂输入和指令，再用视觉输出表达推理结果。此前很多论文主要展示 case study，缺少标准化、可比较的统一任务评测。

核心矛盾：统一模型的卖点是跨模态协同，但现有 benchmark 大多把能力拆开测；如果只看理解分数，会漏掉模型是否真的能生成视觉结果；如果只看生成质量，又看不出模型是否理解了题目和约束。评测体系需要同时解决两个问题：一是把传统理解/生成任务统一到可比较的尺度上，二是设计能够真正逼迫模型“理解 + 推理 + 生成”的任务。

本文目标：作者希望构建一个开放、可复现的 benchmark，用统一格式覆盖三类能力：多模态理解、多模态生成、以及混合模态统一任务。它不仅要给出一个总榜单，还要能指出模型到底弱在理解、生成、指令遵循、多步状态维护，还是文本与图像输出的一致性。

切入角度：论文没有另起炉灶重造所有数据，而是从已有成熟数据集里抽取理解和生成样本，再对属性、题型和评分方式做统一；对于传统 benchmark 覆盖不到的统一能力，则人工设计 5 类新任务，让模型必须同时输出文本选择和视觉结果。这样既能继承已有 benchmark 的覆盖面，又能补上 U-MLLM 专属能力的空白。

核心 idea：MME-Unify 用“统一任务格式 + 标准化分数 + 文本/图像双选择评测”把 U-MLLM 的理解、生成和跨模态协同能力放到同一个坐标系里，从而把过去靠样例展示的能力变成可量化、可复现的排行榜。

方法详解¶

整体框架¶

MME-Unify 的整体流程可以看作三层评测：第一层评估模型看图、看多图、看视频并回答问题的理解能力；第二层评估模型生成图像/视频、编辑图像、重建图像的生成能力；第三层设计统一任务，让模型在同一个样本里既做文本推理又产出图像结果。最后，论文把三层分数归一到同一量纲，并取平均得到 MME-U 总分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["U-MLLM 输入输出能力"] --> B["理解任务统一为<br/>多选问答"]
    A --> C["生成任务统一属性<br/>并标准化指标"]
    A --> D["统一任务：文本选择<br/>+ 图像生成选择"]
    B --> E["Understanding Score"]
    C --> F["Generation Score"]
    D --> G["Unify Score"]
    E --> H["MME-U Score"]
    F --> H
    G --> H

这个框架的关键不是某个新模型结构，而是评测协议本身。理解任务通过多选题统一输出和准确率；生成任务保留不同子领域常用指标，但把它们归一到 \([0,100]\)；统一任务则把视觉生成结果转成类似多选题的判定：模型生成图像后，与多个候选图像计算相似度，最相似的候选被视为模型的隐式选择。

关键设计¶

1. 三域任务覆盖：把 U-MLLM 的能力拆成理解、生成和统一协同

MME-Unify 首先把能力空间分成三个域，而不是只做一个混合总榜。理解域包含单图感知与理解（SIPU）、多图与图文交错理解（MITIU）、视频感知与理解（VPU），覆盖 OCR、表格图表、空间关系、动作识别、长视频等场景。生成域包含细粒度图像重建（FIR）、文本引导图像编辑（TIE）、文本到图像（TIG）、条件图像到视频（CIVG）、文本到视频（TVG）和视频预测（VP）。统一域则专门测理解与生成能否互相支撑。

这种拆法解决了一个常见误读：一个模型总分高，不代表所有能力都好。论文的实验显示，一些模型理解强但不能生成图像，一些模型会生成但看不懂复杂输入，还有一些模型虽然能图文交错输出，却在基础理解或高质量生成上掉队。三域分数让这些差异显性化，而不是被一个平均分掩盖。

2. 传统任务标准化：保留任务多样性，但把输出和分数变得可比较

对于理解任务，论文从 MME、MMBench、MME-RealWorld、SEED-Bench-2、Video-MME 等数据源抽取 1,964 个 QA 样本，并把不同格式统一改写成多项选择题。每个问题只有一个正确选项，选项顺序会随机打乱，以降低位置偏置。对只支持单图的模型，论文用多图输入的第一张图或视频的第一帧；对不支持视频文件的模型，则均匀抽取六个关键帧作为输入。

对于生成任务，论文面对的是另一类不一致：不同数据集的字段名、输入输出形式和评价指标都不统一。MME-Unify 先做属性统一，把文本提示、源图、参考图、视频等字段整理成统一角色；再为不同子任务写任务专属 prompt，确保模型知道要做重建、编辑、生成还是预测。评分时，FVD/FID、CLIP-I/CLIP-T、LPIPS 等指标先各自按任务计算，再归一到 \([0,100]\)，从而避免“不同指标不可直接平均”的问题。

3. 统一任务构造：用文本选择和图像选择逼迫模型真的完成跨模态推理

MME-Unify 最有价值的部分是 5 个统一任务。Common Sense QA 要求模型根据常识描述选择正确文本选项，并生成对应图像；Image Editing and Explaining 要求模型解释编辑对象和指令，同时生成编辑后的图像；SpotDiff 要求模型比较两张图、数出差异并把差异区域抽取到白底图上；Auxiliary Lines 要求模型理解几何题、画辅助线并选择答案；Visual CoT 要求模型在迷宫中逐步选择动作、坐标并生成下一步状态图。

这些任务的共同点是，图像输出不是装饰品。比如辅助线任务里，如果模型没有理解几何关系，就很难画出正确辅助线；Visual CoT 中，如果模型无法维护当前迷宫状态，后续动作、坐标和图像都会连锁出错。论文用每个样本的文本正确性和图像正确性同时评估，尤其用 \(acc+\) 衡量“文本和图像都对”的比例，因此能区分“会猜文本但不会画图”和“图像看起来像但推理错了”的情况。

4. 统一评分公式：用离散选择精度连接文本和图像评测

理解分数是三个理解子任务准确率的平均：\(US=\frac{1}{3}\sum_{t\in\{SIPU,MITIU,VPU\}}score_t\)。生成分数是六个生成子任务归一化分数的平均：\(GS=\frac{1}{6}\sum_{t\in\{CIVG,TVG,VP,FIR,TIE,TIG\}}score_t\)。统一任务中，IEE、CSQ、AL、SD 都有文本和图像两个问题，单任务准确率定义为 \(acc_t=(acc_t^{text}+acc_t^{img})/2\)，而 \(acc_t^+\) 要求同一样本的文本与图像同时正确。

Visual CoT 更复杂，因为每个样本有多步，每步都要预测 action、coordinate 和 image。论文分别计算三类 step-level accuracy，再取平均作为 VCoT 的 \(acc\)；只有整条轨迹每一步都完全正确，才算 \(acc+\) 成功。最终统一分数为 5 个统一子任务 \(acc\) 的平均，MME-U 总分为 \(MME\text{-}U=\frac{1}{3}(US+GS+Unify\text{-}S)\)。这个设计牺牲了一些连续评分的细粒度解释性，但换来了跨任务、跨模态、跨模型的统一排行榜。

实验关键数据¶

主实验¶

论文评测了 31 个模型，其中包括传统理解模型、专门生成模型和 17 个 U-MLLM。主表最重要的结论是：当前没有一个模型能在理解、生成、统一任务三方面同时接近饱和，榜首模型也只到 50 分左右。

模型	Understanding	Generation	Unify	MME-U Score	主要观察
Gemini2.5-flash-image	69.93	34.09	47.02	50.04	总分最高，三域较均衡，但离满分仍远
Gemini2.0-flash-exp	65.24	29.79	40.74	45.57	统一任务强于多数开源模型
RecA	63.01	27.36	37.45	42.60	开源/可生成模型中较强，理解与统一任务较稳
GPT-4o-Image	53.35	28.72	41.10	41.06	统一任务图像准确率较强，但理解均分低于 Gemini/RecA
Bagel	60.26	24.98	35.80	40.35	采用理解/生成分离视觉编码思路，整体较均衡
MIO-Instruct	41.50	53.45	16.56	37.17	基础生成覆盖面强，但统一任务协同弱
SEED-LLaMA	39.48	23.54	22.32	28.45	能做图文交错，但总体仍有限
Anole	13.56	19.91	22.30	18.59	统一任务有一定能力，基础理解很弱

生成任务的细分结果也很有意思。MIO-Instruct 是少数覆盖 CIVG、TIE、TIG、TVG、VP 等多种生成任务的模型，Generation Score 达到 53.45；但它在统一任务中经常文本能答、图像不能同步生成，因此 Unify Score 只有 16.56。这说明“覆盖很多生成任务”不等价于“能把理解和生成绑定起来”。

任务/模型	Gemini2.5-flash-image	Gemini2.0-flash-exp	RecA	Bagel	MIO-Instruct	备注
TIG 平均分	66.29	57.56	46.30	44.51	48.23	闭源模型在复杂文本到图像细节上明显领先
TIE/FIR 覆盖	FIR 85.32	FIR 77.61	FIR 60.97	FIR 59.91	FIR 59.29 / TIE 43.66	不同模型支持的生成任务不完全相同
视频相关任务	-	-	-	VP 59.91	CIVG 51.24 / TVG 51.88 / VP 66.37	开源 U-MLLM 对视频生成支持仍稀缺
Generation Score	34.00	29.79	27.36	24.98	53.45	分数受任务覆盖范围影响，需要结合能力边界解读

消融实验¶

这篇论文不是提出新模型，因此没有传统意义上的模块消融。更接近“设计有效性分析”的部分包括 split-half 稳定性、统一任务评测策略对比、CLIP-I 与人工/LLM judge 的一致性，以及随机/人类 baseline 校准。

分析项	设置	关键结果	说明
Split-half 稳定性	将 benchmark 样本减半，对 MiniGPT5/Anole/SEED-LLaMA/MIO-Instruct 重评	总体排名与完整数据基本一致	样本规模和评分方式能给出稳定模型排序
CLIP-Choice vs Select-Choice	统一任务中比较“生成图像后用 CLIP-I 匹配候选”和“直接看候选图选择”	Select-Choice 准确率更高，但偏离生成评测目标	直接选择更像识别题，不能检验模型自身生成是否正确
CLIP-I 与人工评分	200 个统一任务样本，3 位专家按文本跟随、图像质量、参考相似度打分	总体 Kendall’s \(\tau_b=0.709\)	在本文任务设计下，CLIP-I 排序与人工判断有较强相关
CLIP-I 与 LLM-Judge	5 个强 U-MLLM，用 GPT-4o judge 对图像生成评分	总体排名与 CLIP-I 基本一致	CLIP-I 作为低成本离散评测有一定可靠性
随机/人类 baseline	随机选择 vs 两位专家	人类在 IEE/CSQ/AL/VCoT 远高于模型；模型在 SD/VCoT 接近随机	统一任务确实有区分度，也暴露当前模型短板

关键发现¶

当前 U-MLLM 还处在早期阶段。即使榜首 Gemini2.5-flash-image 的 MME-U 总分也只有 50.04，说明统一理解与生成并没有因为模型规模或闭源能力自然解决。
理解和生成之间存在明显 trade-off。一些模型为了生成采用离散图像 tokenizer，理解语义特征较弱；一些模型使用分离视觉编码器后理解增强，但生成或统一任务支持不足。
统一任务比传统理解/生成任务更能暴露问题。CSQ 这类较简单任务上强模型可以拿到较高 \(acc+\)，但在 Auxiliary Lines、SpotDiff、Visual CoT 上，文本推理、视觉定位和生成一致性经常同时崩掉。
Visual CoT 是最尖锐的诊断任务。模型在第 1-2 步尚可，但坐标和图像准确率从后续步骤开始断崖式下降，说明它们缺少可靠的多步视觉状态维护能力。
图像生成的指令跟随仍是瓶颈。很多模型能生成“像图”的结果，却忽略文字、数字、辅助线、指定区域和风格约束；在统一任务中，这种偏差会直接导致文本和图像答案不一致。

亮点与洞察¶

论文最大的亮点是把 U-MLLM 的“统一能力”从展示样例拉回到可复现评测。过去很多模型论文会展示几张图文交错案例，但 MME-Unify 用文本选择、图像选择和 \(acc+\) 明确要求同一个样本里两种输出都正确。
任务设计很有诊断性。Auxiliary Lines 和 Visual CoT 不是普通图像生成题，而是先要求模型建立视觉/几何/状态理解，再把推理结果画出来；这比单纯 text-to-image prompt 更接近统一多模态模型声称要解决的问题。
评分体系在工程上务实。作者没有强行用一个指标评价所有视觉输出，而是传统生成任务保留领域指标、统一任务用候选图像把图像生成离散化。这种折中让 benchmark 可以规模化跑 31 个模型，也能和文本多选题放在同一排行榜里。
MME-Unify 提供了一个很有启发的模型分析角度：不要只问模型是否“支持”图像生成，而要问它能否在理解之后生成正确图像。MIO-Instruct 的结果尤其说明，任务覆盖面和统一协同能力是两回事。
对未来模型训练也有提示。若统一任务的失败主要来自视觉状态维护、图像细节对齐和复杂指令跟随，那么仅靠更大规模图文对预训练可能不够，还需要面向多步视觉推理、生成后自检和跨模态一致性的训练目标。

局限与展望¶

统一任务中的图像评测被简化为 CLIP-I 候选匹配，这带来可扩展性，但也可能被“相似但不真正正确”的图像钻空子。论文自己也指出，未来需要引入更严格的 MLLM judge、CLIP 分数组合或人工校准来降低 score hacking。
生成任务的覆盖与模型能力边界耦合较强。有些模型无法完成某类视频生成或图文交错生成，表中以 “-” 处理；这能反映能力缺失，但也让总分解释需要谨慎，因为低分可能来自性能差，也可能来自接口/能力不支持。
统一任务样本数量仍然偏小。IEE 有 200 个样本，CSQ/SD/Visual CoT 大约百级，Auxiliary Lines 只有 52 个；虽然 split-half 分析显示整体排名稳定，但细分任务的置信区间和长尾场景仍值得扩展。
任务主要围绕图像/视频与文本，尚未覆盖音频、3D、机器人操作等更广义的统一多模态输出。随着 U-MLLM 往世界模型和具身智能扩展，benchmark 也需要继续扩展到更复杂的交互环境。
候选式评测降低了开放生成的难度。模型只需生成最接近正确候选的图像，而不是在完全开放空间中达到人类可接受质量；未来可以同时报告候选式 accuracy 和开放式质量评分，避免过度乐观。

评分¶

新颖性: ⭐⭐⭐⭐ 论文不是提出新模型，而是把统一多模态模型缺失的 benchmark 系统补齐；统一任务设计有明显新意。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 31 个模型、三大能力域、多个稳定性与评测策略分析，作为 benchmark 论文实验很扎实。
写作质量: ⭐⭐⭐⭐ 主线清楚，图表和附录支撑充分；但表格很密，部分生成任务覆盖缺失需要读者自行小心解读。
价值: ⭐⭐⭐⭐⭐ 对 U-MLLM 领域很有参考价值，尤其适合作为后续统一理解生成模型的标准诊断集合。