RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark¶

会议: CVPR 2026
arXiv: 2509.24897
代码: https://github.com/FrankYang-17/RealUnify
领域: 图像生成
关键词: 统一模型, 能力协同, 理解与生成, 基准测试, 双向评估

一句话总结¶

本文提出 RealUnify，首个专门评估统一模型中理解与生成能力双向协同效果的基准，通过1000个人工标注实例和直接/分步双重评估协议，揭示了当前统一模型虽然具备理解和生成能力，但在端到端场景中仍无法实现真正的能力协同。

研究背景与动机¶

领域现状：多模态统一模型（如 BAGEL、Janus-Pro 等）将视觉理解（VQA）和视觉生成（T2I）集成到单一架构中，已成为通向通用AI的重要方向。
现有痛点：现有评估框架（如 MME-Unify、UniEval）主要将理解和生成分开评估，或仅简单组合两类任务，无法判断统一模型是否真正实现了"1+1>2"的协同效果。
核心矛盾：统一模型的最大价值在于理解和生成的双向增益——用理解指导生成、用生成辅助理解。但目前缺乏严格的基准来验证这种双向协同是否真实存在。
本文目标 设计一套能精确衡量统一模型能力协同程度的基准，回答"统一是否真的带来了比单独能力更强的表现"。
切入角度：将任务设计为必须依赖理解-生成协同才能完成的形式，并通过分步评估协议诊断瓶颈来源。
核心 idea：通过精心设计的双向协同任务和直接/分步双重评估协议，首次系统性地检验统一模型是否实现了理解与生成的真正协同。

方法详解¶

整体框架¶

RealUnify 包含1000个人工标注实例，覆盖10个类别32个子任务。核心设计围绕两条轴线展开：理解增强生成（UEG）——需要推理（常识、逻辑等）来指导图像生成；生成增强理解（GEU）——需要心理模拟或重建来解决推理任务。评估采用直接评估和分步评估两种协议。

关键设计¶

理解增强生成（UEG）任务设计:
- 功能：评估模型能否利用理解能力提升生成质量
- 核心思路：包含6类任务——世界知识（生成需要客观知识的图像）、常识推理（生成符合日常现象的图像）、数学推理（需计算后生成正确结果）、逻辑推理（满足逻辑约束的生成）、科学推理（应用物理/化学/生物原理）、代码到图像（解析代码逻辑后生成对应图像）。每个任务都要求模型先"理解"再"生成"。
- 设计动机：现有 T2I 基准主要关注美学和文本相关性，而非模型是否能运用知识/推理来完成复杂生成任务。
生成增强理解（GEU）任务设计:
- 功能：评估模型能否利用生成能力来辅助视觉理解
- 核心思路：包含4类任务——心理重建（对打乱的图像块进行推理重建后回答问题）、心理追踪（追踪颜色线段经多步变换后的状态）、注意力聚焦（通过生成式手段高亮关键区域以辅助识别）、认知导航（迷宫/地图导航，需要生成中间可视化结果来辅助理解）。
- 设计动机：测试模型是否能通过"用图像思考"的方式来提升理解能力，而非仅依赖语言推理。
双重评估协议（Direct + Stepwise）:
- 功能：诊断性能瓶颈来源——是基础能力不足还是协同整合失败
- 核心思路：直接评估要求端到端完成任务；分步评估将任务分解为独立的理解和生成两阶段（UEG: 先理解再生成；GEU: 先生成再理解）。通过对比两种协议的结果，可以判断模型是"能力不够"还是"有能力但无法整合"。
- 设计动机：仅凭端到端结果无法区分能力缺陷和协同失败。分步评估能揭示模型是否具备所需能力但无法自发整合。
投票式生成评估（Polling Evaluation）:
- 功能：验证生成图像内容的正确性
- 核心思路：对 UEG 任务生成的图像，设计验证问题列表，使用 Gemini 2.5 Pro 作为评判模型进行投票评估，确保生成内容与目标一致。
- 设计动机：直接评价生成图像的正确性比评价美学更困难，需要基于内容的自动验证机制。

损失函数 / 训练策略¶

本文是基准测试工作，不涉及模型训练。数据构建方面：UEG 任务由10位人类专家手动设计，经3位评审交叉验证；GEU 任务部分自动生成后由专家标注。Gemini 2.5 Pro 作为评判模型的可靠性通过与人类专家评分的一致性验证。

实验关键数据¶

主实验¶

模型	UEG Direct	UEG Step	GEU Direct	GEU Step	总分
Nano Banana (闭源)	63.0	-	31.8	-	50.5
BAGEL (开源最佳)	32.7	47.7	39.3	35.8	35.3/42.9
UniPic2	37.5	40.5	24.0	23.8	32.1/33.8
OneCAT	37.5	39.0	31.3	29.3	35.0/35.1
Oracle (Gemini+GPT-Image)	-	72.7	-	31.8	-

消融实验¶

评估方式	BAGEL UEG	BAGEL GEU	说明
Direct	32.7	39.3	端到端，无法自发整合
Stepwise	47.7	35.8	UEG显著提升，GEU反而下降
Oracle (GT中间结果)	更高	更高	说明基础能力存在但整合能力不足

关键发现¶

UEG 分步评估大幅提升：BAGEL 从 32.7% 提升到 47.7%，说明模型内部有知识但无法自发整合到生成中。
GEU 分步评估反而下降：分解后性能降低，说明模型在直接评估中依赖理解捷径，而非真正利用生成能力。
开源 vs 闭源差距巨大：UEG 上开源最佳 37.5% vs 闭源 63.0%；但 GEU 上开源模型（BAGEL 39.3%）反而超过闭源（31.8%）。
Oracle上界远未达到：组合专家模型在 UEG 达 72.7%，当前最佳统一模型仅 47.7%（分步），差距巨大。

亮点与洞察¶

分步评估揭示了"有但不会用"的现象：这是最核心的发现——模型有理解能力，也有生成能力，但无法在端到端场景中自发整合。这种诊断性评估设计可以迁移到其他需要多能力协同的AI系统评估中。
GEU 任务的"理解捷径"发现：模型在需要"先生成再理解"的任务上，实际上绕过了生成直接用理解回答，分步强制生成后反而表现更差。这揭示了当前模型对生成能力的利用严重不足。
投票评估机制：用问题列表 + LLM 评判来验证生成图像正确性，比传统 FID/CLIP 更适合知识密集型生成评估。

局限与展望¶

评估依赖 Gemini 2.5 Pro 作为裁判模型，存在评估偏见风险（虽然与人类评分有一定一致性）。
仅包含1000个实例，某些子任务样本量可能不足以支撑统计显著性。
缺乏对提升协同能力的训练方法探索——只诊断了问题但没提出解决方案。
未来可探索特定的训练策略（如交替训练、协同奖励）来促进真正的能力融合。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性评估统一模型能力协同的基准，分步评估协议设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 12个统一模型+6个专家基线，双重评估协议，评判可靠性验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表丰富，结论有说服力
价值: ⭐⭐⭐⭐ 为统一模型研究指明了"真正需要优化什么"的方向