Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/LINs-lab/IOMM
领域: 图像生成 / 统一多模态模型
关键词: 统一多模态模型, 纯图像预训练, 掩码图像建模, 自监督条件, Flow Matching

一句话总结¶

针对统一多模态模型（UMM）视觉生成部分「依赖稀缺图文对、训练又低效」两大瓶颈，本文提出两阶段框架 IOMM：先用海量无标注图像、以图像自身语义当条件做掩码重建预训练，再用少量高质量图文对混合微调，仅 ~1050 H800 GPU 小时从头训出 3.6B 模型，GenEval 达 0.89、WISE 0.55，超过 BAGEL-7B、BLIP3-o 等强基线。

研究背景与动机¶

领域现状：统一多模态模型（UMM）想把「理解」和「生成」装进同一个模型，主流做法是把一个冻结的多模态大模型（MLLM）和一个扩散骨干用可学习 query / 多阶段协议桥接起来（如 MetaQuery、BLIP3-o、BAGEL、Qwen-Image），由 MLLM 提供语义条件、扩散负责像素生成。

现有痛点：训这些 UMM 的视觉生成组件，几乎都重度依赖大规模、高质量、且常常是私有的图文配对数据，采集与清洗成本极高，阻碍了开放、可复现的研究；同时训练流程本身计算极其低效，要烧掉海量算力。作者还观察到，在有限数据上微调出的 UMM 经常生成「细节缺失、不忠实于 prompt」的图（图 6a 里连 Qwen-Image 这种强基线都会翻车）。

核心矛盾：监督信号的稀缺性其实是把双刃剑——文本描述虽稀缺却天然「稀疏」，逼模型学会组合式地补全场景；而如果直接用图像自身当条件，条件是「稠密、完整」的，模型很容易退化成一个平凡的恒等映射（直接把输入抄回去），学不到真正的生成先验。

本文目标：① 把昂贵的预训练阶段彻底从「图文对依赖」里解放出来；② 让被冻结的理解型 MLLM 在不微调、不灾难性遗忘的前提下也能为生成提供合适条件；③ 系统厘清「预训练 / 微调各用什么数据」最优。

切入角度：作者假设——显式文本只是承载高层语义的一种模态，图像自身蕴含的丰富语义同样足以充当条件信号。于是可以完全用无标注图像语料来设计训练范式。

核心 idea：用「图像自条件 + 掩码重建」替代「图文对监督」来做生成预训练，再靠混合数据微调补回指令对齐——即纯图预训练（image-only）打底、图文混合微调收尾的两阶段范式 IOMM。

方法详解¶

整体框架¶

IOMM 的输入是一张无标注图像，输出是能按文本指令生成图的 UMM。整条管线先把图像送进冻结 MLLM 的 ViT 编码成 patch 特征，拼上一句固定的辅助提示词构成「自监督条件」；对图像 patch token 随机掩码后，过一个轻量「残差查询适配器（RQA）」精炼条件，再交给冻结 MLLM 产出隐条件 \(h\)，最后由一个 Flow Matching 扩散网络在 \(h\) 指导下把噪声还原成原图。这一切只发生在阶段一（纯图像预训练）；阶段二再换上「无标注图像 + 少量精选图文对」的混合数据微调，把指令对齐能力补回来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标注图像 x"] --> B["自监督条件构建<br/>ViT patch 特征 + 固定辅助提示"]
    B --> C["掩码图像建模<br/>随机掩码 patch token (比例 r)"]
    C --> D["残差查询适配器 RQA<br/>256 query 跨注意力精炼条件"]
    D --> E["冻结 MLLM 产出隐条件 h"]
    E --> F["Flow Matching 扩散重建 → x"]
    F -->|阶段一：纯图预训练| G["阶段二：图文混合数据微调<br/>无标注图 + 少量精选图文对"]

关键设计¶

1. 图像自条件预训练：用图自己的语义当 condition，彻底甩掉图文对

这一招直击「预训练依赖稀缺图文对」的痛点。作者不再喂文本，而是把待生成图像 \(x\) 先用冻结 MLLM 里的 ViT 编码成 patch 嵌入 \(c_{img}=v(x)\in\mathbb{R}^{P^2\times D}\)，再和一句通用固定提示（如「Generate an image that is identical to the reference image:」）的 token 嵌入 \(c_{aux}\) 拼接，构成完整条件 \(c=\mathrm{concat}(c_{aux},c_{img})\)，送进冻结 MLLM \(g\) 得到隐条件 \(h=g(c)\) 去指导扩散。其底层假设是「文本只是传递高层语义的一种模态，图像自身的语义就够当条件」。这样预训练阶段只需无标注图像语料（Megalith-10M、text-to-image-2M），把最昂贵的阶段从图文对依赖里解放出来。

2. 残差查询适配器（RQA）：不动 MLLM 一根参数，就把理解型表征拨向生成

直接拿冻结 MLLM 的输出 \(g(c)\) 当扩散条件效果很差（图 2b 的「Raw」只有 0.44），因为理解型 MLLM 的表征并未为「生成所需的精细控制」优化，存在领域错配。但全量微调 MLLM 又有两难：参数量太大（MetaQuery-XL 的 MLLM 有 7B，而扩散仅 0.6B），且在纯图重建任务上微调会灾难性遗忘掉原本的理解能力。RQA 的解法是：一个仅 29M 参数的可训练适配器 \(q_\theta\)，用 256 个可学习 query token 对 \(c\) 做跨注意力，生成一段「残差 query」附加回条件序列 \(c\leftarrow\mathrm{concat}(c,q_\theta(c))\)，相当于给冻结 MLLM 喂了个可学习的「软提示」，引它抽出对生成更有用的特征，全程不改 MLLM 权重。消融显示加上 RQA 后 GenEval 从 0.44 直接 +0.38 跳到 0.82，且比同样 256 query 的 MetaQuery 收敛快得多。

3. 掩码图像建模（MIM）：把稠密条件改成稀疏到稠密的重建，逼出真正的生成先验

自条件的隐患在于条件是「稠密、完整」的图像表征，模型大可走捷径学成恒等映射，学不到组合式的生成能力。作者借鉴 MAE，在训练时对图像 patch token 以掩码比例 \(r\in[0,1]\) 随机置零：用伯努利采样的二值掩码 \(M\) 做逐元素乘 \(c_{img}\leftarrow c_{img}\odot M\)，把训练目标从「稠密重建」改成更难的「稀疏到稠密重建」，迫使模型从可见 patch 推断被掩盖内容，从而学到鲁棒、上下文感知的视觉先验——这正好模拟了文本监督天然稀疏带来的好处。掩码比例不是越高越好：\(r=0.45\) 时 GenEval 峰值 0.88、DPGBench 79.79；但 \(r=0.95\) 信息丢太多，骤降到 0.77 / 69.41。

4. 两阶段范式与混合数据微调：纯图打底、图文混合收尾

作者系统比较了「预训练 / 微调」两阶段各取 {纯图, 图文对, 混合} 的六种配方（图 1c）。核心结论是：纯图像预训练 + 混合数据微调最优。规律有二——预训练用纯图，无论后续怎么微调，都持平或优于用图文对预训练；微调阶段则混合数据最好，纯图微调最差（会把指令对齐能力训没，见表 2 里 Qwen-Image 纯图微调 GenEval 暴跌 0.43）。这套微调策略还是即插即用的：套到 OpenUni-L 上把 GenEval 从 0.85 提到 0.88，套到 20B 的 Qwen-Image（用 LoRA, \(r{=}64,\alpha{=}64\)）上把 512px 从 0.85 提到 0.89。

损失函数 / 训练策略¶

生成骨干用 Flow Matching：在数据 \(x\) 与噪声 \(z\sim\mathcal{N}(0,I)\) 之间定义直线路径 \(x_t=(1-t)x+tz\)，网络 \(F_\theta(x_t,t,c)\) 学习恒速向量场 \(z-x\)，目标 \(L(\theta)=\mathbb{E}\big[\lVert F_\theta(x_t,t,h)-(z-x)\rVert_2^2\big]\)（条件即 RQA + 冻结 MLLM 产出的 \(h\)）。推理时从先验积分 PF-ODE \(\mathrm{d}x_t/\mathrm{d}t=F_\theta\) 反解出 \(x_0\)。骨干采用 FLUX 实现的 MM-DiT，三档规模 IOMM-B(1.6B)/L(2.7B)/XL(6B, Z-Image)，辅助 MLLM 用冻结 InternVL3-2B；优化器 AdamW（B/L）/ Muon（XL），EMA 衰减 0.999，结果均取 EMA 权重。

实验关键数据¶

指标说明：GenEval（组合式文生图，按单物体/双物体/计数/颜色/位置/颜色属性综合打分，越高越好）；WISE（考察生成是否保留世界知识）；DPGBench（稠密 prompt 对齐）；ImgEdit-Bench（图像编辑能力，0–5 打分）；NFE 为扩散采样函数调用数；H800 GPU 小时衡量训练成本。

主实验¶

模型	规模/数据	GenEval ↑	DPGBench ↑	WISE ↑	训练成本
BLIP3-o-8B*	+30M 私有图文对	0.84	81.60	0.62	—
Janus-Pro-7B	—	0.80	84.19	0.35	—
BAGEL-7B	—	0.88	—	0.52	—
MetaQuery-XL	—	0.80	82.05	0.55	—
IOMM-B 512	1.6B, 全公开数据	0.89	82.95	0.55	~1050 H800h
IOMM-L 512	2.7B	0.87	76.09	0.53	—

IOMM-B（512px）以 1.6B 生成骨干、纯公开数据、~1050 H800 GPU 小时（其中 1000 小时花在高效的纯图预训练阶段）就拿下 GenEval 0.89，超过 BAGEL-7B（0.88）和用了额外 30M 私有图文对的 BLIP3-o-8B（0.84），WISE 0.55 说明世界知识没被削弱。⚠️ 文中正文与表 1 对 BAGEL/IOMM 的小数点存在 0.88/0.89 的并列表述，以原文为准。

消融实验¶

配置	GenEval	说明
Raw（冻结 MLLM 直连）	0.44	理解型表征与生成错配
⊕ Residual Query Adapter	0.82	+0.38，最大增益来源
⊕ Masked Image Modeling	0.88	再 +0.06，防恒等捷径
掩码比例 \(r=0.45\)	0.88	峰值；\(r=0.95\) 骤降到 0.77

微调策略（应用到 Qwen-Image-512）	GenEval	变化
基线（预训练模型）	0.85	—
⊕ 纯图微调	0.42	↓0.43，指令对齐崩塌
⊕ 图文对微调	0.88	↑0.03
⊕ 混合微调	0.89	↑0.04，最佳

关键发现¶

RQA 贡献最大：从 Raw 0.44 跳到 0.82（+0.38），是架构里增益最显著的一环；MIM 再补 +0.06。两者缺一，自条件要么错配要么退化成恒等。
掩码比例有甜点：\(r=0.45\) 最优，过低监督太密、过高（0.95）信息损失过大反而掉点，呼应「稀疏到稠密」的设计初衷。
涌现出零样本图像编辑：纯图预训练的 IOMM-B 在 ImgEdit-Bench 上 training-free 拿到 2.82，优于同模型图文对预训练版（2.61），甚至超过显式在编辑数据上训练的 UltraEdit（2.70）——一个意外但有力的证据，说明自条件 + 掩码重建学到了可迁移的视觉操作先验。
正向 scaling：IOMM-L 表观偏低是因训练 epoch 只有 IOMM-B 一半；控制训练时长（5 epoch）后 IOMM-L 反超 IOMM-B（0.87 vs 0.86）。

亮点与洞察¶

「图像即条件」的范式转换：把生成预训练从图文对依赖里解放出来，让海量无标注图像可用，这对开放、可复现研究的成本结构是实质性松绑——最贵的阶段不再需要私有数据。
冻结大模型 + 轻量适配器的性价比：29M 的 RQA 用软提示「拨动」7B 级冻结 MLLM 而不动它一根参数，既避开灾难性遗忘又省算力，这套「不微调主干、只学条件预处理」的思路可迁到任何「拿理解模型当生成条件源」的场景。
掩码重建治「自条件退化」：当条件信息过于完整时人为制造稀疏、逼模型补全，是一个通用的「防捷径」技巧，可迁到其他自重建/自蒸馏训练里。

局限与展望¶

依赖一个高质量冻结 MLLM：整套自条件建立在 InternVL3-2B 的表征之上，若换成更弱的视觉编码器，自条件能否仍提供足够语义有待验证。
辅助提示是固定模板：自条件用的是一句通用固定提示，作者未深究提示设计对条件质量的影响空间。
scaling 受算力制约：IOMM-L/XL 受 epoch 数限制未充分训练，更大规模下的真实上限尚未跑满；混合微调里图文对仍不可或缺，纯图微调会崩，说明指令对齐这一环还逃不开少量配对监督。
改进思路：可探索自适应掩码比例（按训练进度或样本难度动态调）、或把辅助提示也变成可学习 token，进一步压缩对配对数据的残余依赖。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「图像即条件 + 掩码重建」把生成预训练从图文对依赖里解放，范式层面的重构
实验充分度: ⭐⭐⭐⭐⭐ 六种数据配方系统消融 + 多基准 + 套用到 OpenUni/Qwen-Image 验证泛化，还意外发现零样本编辑
写作质量: ⭐⭐⭐⭐ 动机与消融讲得清楚，部分小数点表述（BAGEL/IOMM 0.88 vs 0.89）略有出入
价值: ⭐⭐⭐⭐⭐ 仅 ~1050 H800h、纯公开数据即达 SOTA，对低成本可复现 UMM 训练有实际意义