UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics¶

会议: CVPR 2025
arXiv: 2412.07774
代码: 项目页面
领域: 图像生成 / 统一生成编辑
关键词: 统一框架, 图像编辑, 视频数据监督, 扩散Transformer, 多任务生成

一句话总结¶

UniReal提出将各种图像生成和编辑任务统一为"不连续帧生成"的框架，利用视频数据作为可扩展的通用监督源，通过层次化提示和文本-图像关联机制，在单一扩散Transformer中实现了指令编辑、定制化生成、物体插入等多种任务的统一处理。

研究背景与动机¶

图像生成和编辑领域随着应用需求的增加变得日益专门化，不同任务需要不同的方法和特定领域数据，限制了跨领域知识的学习。然而，各种任务共享核心需求：保持输入输出图像之间的一致性，同时引入受控的视觉变化。

视频生成模型（如Sora类方法）能有效平衡帧间一致性与运动变化，与图像编辑的需求高度一致。此外，现有图像编辑数据集构建困难，规模有限，而视频数据天然包含了帧间的一致性和变化，可作为可扩展的通用监督源。

UniReal的核心洞察是：将图像级任务视为"不连续视频生成"，利用大规模视频学习世界动态（光照、反射、物体交互等），同时通过层次化提示消除多任务混合训练中的歧义。

方法详解¶

整体框架¶

UniReal基于5B参数的视频生成Transformer，将不同数量的输入/输出图像视为视频帧，通过全注意力建模帧间关系。输入图像通过VAE编码后patchify为视觉token，添加索引嵌入和图像提示（asset/canvas/control），与T5编码的文本嵌入拼接为长1D张量送入Transformer。

关键设计1: 文本-图像关联与层次化提示¶

功能: 在统一框架中消除多任务混合训练的歧义，精确指导模型对不同输入图像的处理方式
核心思路: 使用"IMG1"/"RES1"等引用词将视觉token与文本中的对应位置关联。设计三层提示：(a) 基础提示描述任务内容；(b) 上下文提示提供属性标签（如"realistic/synthetic", "static/dynamic"）；(c) 图像提示通过可学习类别嵌入区分canvas(背景编辑目标)、asset(参考对象)、control(布局/形状约束)三类输入图像
设计动机: 相同输入在不同任务中需要不同处理——编辑保持布局做局部变化，而定制化则生成全新场景仅保留参考物体。上下文提示的关键词可跨任务共享，强制学习共通特征

关键设计2: 视频数据构建通用监督¶

功能: 从视频数据自动构建支持多种任务的大规模训练数据
核心思路: 从原始视频出发，随机选取两帧作为编辑前后图像(Video Frame2Frame, 8M样本)；使用Kosmos-2获取带边界框标注的实体，通过SAM2获取mask轨迹，支持多物体定制(5M)、物体插入(1M)、参考分割(5M)等任务；使用GPT-4o mini为200K高质量子集生成精确指令
设计动机: 视频帧间天然包含的添加、删除、属性变化、结构变化等变化模式，覆盖了大多数编辑任务的基本原理，且比构建专用编辑数据集容易得多

关键设计3: 渐进式多任务训练¶

功能: 从文本到图像/视频的基础生成能力出发，逐步学习编辑能力并提升分辨率
核心思路: 首先在T2I/T2V数据上预训练获得基础生成能力(256分辨率)→在Tab.1所有数据集上训练学习多任务(256分辨率)→渐进提升至512→1024分辨率。使用flow matching训练损失，学习率1e-5带warm-up
设计动机: 渐进式训练策略有助于稳定多任务学习过程，避免低分辨率阶段学到的编辑能力在提升分辨率时退化

损失函数¶

使用标准flow matching损失函数进行训练。

实验关键数据¶

主实验1: 指令编辑 - EMU Edit测试集¶

方法	CLIP_dir↑	CLIP_im↑	CLIP_out↑	L1↓	DINO↑
InstructPix2Pix	0.078	0.834	0.219	0.121	0.762
UltraEdit	0.107	0.793	0.283	0.071	0.844
EMU Edit	0.109	0.859	0.231	0.094	0.819
OmniGen	-	0.836	0.233	-	0.804
UniReal	0.127	0.851	0.285	0.099	0.790

主实验2: 定制化生成 - DreamBench¶

方法	CLIP-T↑	CLIP-I↑	DINO↑
DreamBooth	0.305	0.803	0.668
BLIP-Diffusion	0.302	0.805	0.670
IP-Adapter(Flux)	-	0.772	-
UniReal	优于大部分方法	高CLIP-I	高DINO

关键发现¶

UniReal在CLIP_dir和CLIP_out上取得最佳性能，说明编辑方向和输出质量最优
能正确建模阴影、反射、光照效果和物体交互等复杂世界动态
Video Frame2Frame数据单独就能训练出具备基本编辑能力的模型
训练数据中视频帧对提供的8M+样本远超现有公开编辑数据集

亮点与洞察¶

统一表述的优雅性：将所有图像生成/编辑任务统一为不连续帧生成，概念简洁且实用
视频数据的通用监督潜力：视频帧间的自然变化天然覆盖了各种编辑模式，大幅降低了数据构建成本
可组合的上下文提示：文本的天然可组合性使得不同任务的提示可以灵活组合，实现训练数据中未见过的新功能

局限与展望¶

5B模型规模较大，推理成本较高
定制化生成中，对参考物体的保真度尚有提升空间
世界动态建模仍受限于训练视频的多样性
未来可探索更大规模视频数据和更多任务的统一

评分¶

⭐⭐⭐⭐ — 统一框架设计优雅，视频数据作为通用监督的思路极具价值。在多个任务上都取得了competitive或SOTA的性能，展示了大规模统一模型的可行性和潜力。