MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7AH0y1OtnC
代码: https://github.com/bytedance-fanqie-ai/MOSAIC
领域: 图像生成 / 多主体个性化生成
关键词: 多主体个性化生成、语义点对应、注意力对齐、注意力解耦、扩散 Transformer
一句话总结¶
MOSAIC 把多主体个性化生成重新表述为「表征优化」问题:用一套带稠密语义点对应标注的数据集 SemAlign-MS,配合「对齐损失」逼参考→目标的注意力点对点对准、「解耦损失」把不同主体推进正交的注意力子空间,从而在 4 个以上参考主体时仍保持高保真,避开了既有方法 3 主体后就身份混淆、属性泄漏的崩溃。
研究背景与动机¶
- 领域现状:多主体个性化生成要在「跟随文本」的同时,把多个参考图各自的身份/外观都保留下来。主流做法分两类——一类(MS-Diffusion、SSR-Encoder)往 cross-attention 注入空间布局,把主体绑到指定区域;一类(DreamO、XVerse)在 DiT 块里加路由约束或 token 级调制偏移来控制每个主体的表征。
- 现有痛点:这些方法都是全局特征匹配,缺乏对「生成图哪块区域该看参考图哪一部分」的显式建模。主体一多,多个参考共享同一潜空间时表征互相干扰,于是身份混淆(identity blending)、属性泄漏(attribute leakage)频发,超过 3-4 个主体后质量普遍崩塌。
- 核心矛盾:既要保住每个主体的个体保真度(individual fidelity),又要在不同主体表征之间强制可分性(inter-subject separability)——这两个目标在共享注意力空间里天然冲突,而既有方法没有任何机制去显式平衡。
- 本文目标:设计能同时保身份、又强制主体间分离的优化目标,让方法扩展到 4+ 主体而不退化。
- 核心 idea:【表征中心 + 显式监督】 不改架构去硬塞控制信号,而是先用稠密语义点对应数据直接监督注意力分布——一个损失逼参考 token 对准它该去的目标位置(对齐),另一个损失把不同参考的注意力图推开(解耦)。
方法详解¶
整体框架¶
MOSAIC 基于 FLUX-1.0-DEV,沿用 OmniControl 的「LoRA 分支处理参考、原权重处理去噪」范式:VAE 把目标图和 K 张参考图都编码成潜表征,目标潜加噪,参考潜经 LoRA 分支投影后拼接成统一序列,与目标、文本一起送进 MM-Attention 联合计算。训练阶段的关键不在结构,而在两个挂到 reference→target 注意力子矩阵 \(A_{\text{ref}\to\text{tgt}}\) 上的损失:SCAL 管「对准」、MDL 管「分开」。要让这两个损失有监督信号,前提是有「参考图某点 ↔ 目标图某点」的稠密对应标注,这正是 SemAlign-MS 数据集要解决的。
flowchart LR
A[K 张参考图 + 目标图] --> B[VAE 编码为潜表征]
B --> C[参考潜拼接 → LoRA 分支投影]
B --> D[目标潜加噪]
E[文本 prompt] --> F[T5 编码]
C --> G[MM-Attention 联合计算<br/>Q/K/V 跨模态拼接]
D --> G
F --> G
G --> H["reference→target 注意力子矩阵 A_ref→tgt"]
H --> I[SCAL 对齐损失<br/>点对点对准]
H --> J[MDL 解耦损失<br/>注意力图推开]
I --> K[L = L_diff + αL_SCA + βL_MD]
J --> K
关键设计¶
1. SemAlign-MS:把「语义点对应」做成可监督的数据基础。 多主体生成缺的不是图,而是「参考图哪个点对应目标图哪个点」的标注,这是显式监督注意力的前提。作者设计五阶段流水线自动造数据:GPT-4o 按模板生成涵盖人/动物/物体及其交互的多主体 prompt → SOTA T2I 模型合成图并按质量/主体清晰度/构图自动过滤 → Lang-SAM 开放词表检测分割出每个主体 → FLUX Kontext 做视角矫正以扩充姿态多样性 → 在目标图与每张参考图之间采样语义点对应。形式上数据集为 \(D=\{(\{I_{\text{ref}}^{(i,k)}\}_{k=1}^K, I_{\text{tgt}}^{(i)})\}_{i=1}^N\),每对参考-目标定义对应集 \(C^{(i,k)}=\{(u_{i,j}, v_{i,j})\}_{j=1}^{P(k)}\),其中 \(u\) 是参考图坐标、\(v\) 是目标潜空间对应位置。关键约束是对应不相交:\(V^{(i,k_1)} \cap V^{(i,k_2)}=\emptyset,\ \forall k_1 \neq k_2\),即同一目标 token 至多被一张参考图占用,避免多个参考争抢同一区域造成监督歧义。最终收集 120 万对带验证对应的高质量图对。
2. 语义对应注意力对齐损失(SCAL):逼参考 token 精确落到它该去的目标位置。 为保细粒度结构/纹理,作者直接监督 reference→target 注意力。对参考位置 \(u\)、目标潜位置 \(v\),在选定的 \(N_{\text{block}}\) 个 DiT 块上取平均注意力 \(A_{\text{ref}\to\text{tgt}}[u,v]=\frac{1}{N_{\text{block}}}\sum_l \frac{\exp(Q_u K_v^\top/\sqrt{d})}{\sum_v \exp(Q_u K_v^\top/\sqrt{d})}\)。由于参考潜是拼接的,还需把局部坐标映射到全局 token 索引:\(G(u_{i,j}^{(k)})=\sum_{\text{idx}=1}^{k-1} N^{(\text{idx})} + u_{i,j}^{(k)}\)(前面 \(k-1\) 张参考的 token 数作为偏移)。对每个对应点做交叉熵式监督,让参考 token 把注意力质量压到它对应的目标位置:\(L_{\text{SCA}}=-\frac{1}{K}\sum_{k=1}^K \frac{1}{P(k)}\sum_{j=1}^{P(k)} \log A_{\text{ref}\to\text{tgt}}[G(u_{i,j}^{(k)}), v_{i,j}^{(k)}]\)。这把「全局相似/隐式对齐」升级成点对点的显式映射,局部结构和细节保真度因此显著提升。
3. 多参考解耦损失(MDL):把不同主体的注意力图推进正交子空间。 对齐只保证「准」,但多主体共享潜空间时仍会互相干扰。MDL 显式拉开不同参考的注意力分布:先把第 \(k\) 张参考在对应点处的注意力响应聚合并归一化成一个分布 \(a^{(k)}=\|\frac{1}{P(k)}\sum_j a_j^{(k)}\| \in \mathbb{R}^{N_{\text{tgt}}}\),再用对称 KL 度量两个参考分布的距离 \(\text{dist}(a^{(i)}, a^{(j)})=\frac12 D_{\text{KL}}(a^{(i)}\|a^{(j)})+\frac12 D_{\text{KL}}(a^{(j)}\|a^{(i)})\),最后最大化所有参考对的平均散度:\(L_{\text{MD}}=-\frac{1}{K(K-1)}\sum_{i}\sum_{j\neq i}\text{dist}(a^{(i)}, a^{(j)})\)。这阻止不同参考争抢同一注意力区域,直接缓解了主体一多就崩的跨参考特征干扰。总损失为 \(L=L_{\text{diff}}+\alpha L_{\text{SCA}}+\beta L_{\text{MD}}\)(流匹配损失 + 两个正则,实现中 \(\alpha=0.4,\ \beta=0.6\))。
实验关键数据¶
主实验表格¶
DreamBench 上单/多主体定量对比(节选,↑ 越高越好):
| 场景 | 方法 | CLIP-I | CLIP-T | DINO | UnifiedReward | HPSv3 |
|---|---|---|---|---|---|---|
| 单主体 | DreamO | 83.35 | 30.61 | 76.03 | 4.33 | 12.78 |
| 单主体 | UNO | 83.50 | 30.41 | 75.97 | 4.00 | 11.24 |
| 单主体 | MOSAIC | 84.30 | 31.64 | 77.40 | 4.40 | 14.36 |
| 多主体 | DreamO | 73.32 | 32.10 | 52.17 | 4.33 | 13.25 |
| 多主体 | UNO | 73.29 | 32.23 | 54.22 | 4.23 | 11.55 |
| 多主体 | MOSAIC | 76.30 | 32.40 | 56.83 | 4.39 | 14.90 |
XVerseBench 总平均分:MOSAIC 76.04 vs XVerse 73.40 vs DreamO 69.25;多主体 ID-Sim 69.90(XVerse 66.59)、IP-Sim 74.27(XVerse 71.48),身份保留与感知相似度优势明显。与强身份保留基线对比(Face-Diffuser 协议,zero-shot),多主体 IP 达 0.712 vs Face-Diffuser 0.594、FastComposer 0.465。
消融实验表格¶
DreamBench 多主体场景下两损失的贡献:
| \(L_{\text{SCA}}\) | \(L_{\text{MD}}\) | CLIP-I | CLIP-T | DINO |
|---|---|---|---|---|
| ✗ | ✗ | 73.45 | 29.90 | 52.03 |
| ✓ | ✗ | 75.89 | 31.10 | 55.99 |
| ✗ | ✓ | 75.10 | 31.70 | 55.24 |
| ✓ | ✓ | 76.30 | 32.40 | 56.83 |
关键发现¶
- 两损失各自都带来明显增益,且互补:SCAL 主要拉高身份/结构相关的 DINO、CLIP-I,MDL 对文本一致性 CLIP-T 增益更突出,合用最优。
- 核心卖点是扩展性:既有方法普遍在 3 个主体后退化,MOSAIC 在 4+ 参考主体下仍保持高保真——这是表征级显式对齐+解耦带来的能力,传统全局匹配做不到。
- 注意力图可视化显示,特定参考区域确实只激活生成图中对应区域,验证了解耦确实把主体分进了不同注意力子空间。
亮点与洞察¶
- 视角转换:把多主体生成从「架构层加控制信号」重述为「表征层优化注意力分布」,问题定义本身就更对路——干扰发生在注意力里,那就直接监督注意力。
- 数据即方法:SCAL/MDL 能成立完全依赖语义点对应标注,作者没有回避而是直接造了 120 万对带验证对应的数据集 SemAlign-MS,把「显式监督」从口号变成可训练目标。
- 对齐+解耦的对称设计:一个损失做交叉熵「拉近」、一个做对称 KL「推开」,两者作用在同一注意力子矩阵上,形成简洁互补的正则。
- 即插即用:只加 LoRA 分支与两个训练损失,不动 base 模型权重,推理开销可控。
局限与展望¶
- 数据流水线重度依赖 GPT-4o、Lang-SAM、FLUX Kontext 等现成大模型,语义点对应的「真值」实际上由这些模型链生成,标注质量上限受其约束。
- 对应不相交约束要求每个目标 token 至多对一张参考,主体大面积遮挡/交互重叠时这种硬性划分可能过强。
- 评测集中在 DreamBench/XVerseBench,主体数虽宣称 4+,但极端高主体数(如 5+ 细粒度物体)下的稳定性还需更系统验证。
- 两损失权重 \(\alpha,\beta\) 为固定超参,是否需随主体数/任务自适应未探讨。
相关工作与启发¶
- 主体驱动生成:OmniControl 用生成模型自身做参考编码器,UNO 提数据流水线,DreamO 用路由聚焦目标主体,XVerse 用文本流调制把参考变 token 偏移——MOSAIC 指出它们都停在全局特征匹配,缺细粒度点对应约束。
- 生成中的视觉对应:DIFT、SD-DINO、GeoAware-SC 证明预训练扩散特征能建立可靠语义对应,但此前没人把它用进多主体生成;MOSAIC 是第一个把语义点对应显式注入生成过程的工作。
- 启发:当某任务的失败模式(这里是主体干扰)能定位到某个具体中间量(注意力子矩阵)时,与其加结构,不如造对应监督信号去直接约束这个中间量——「先定位失败发生在哪、再针对性造数据监督」是可迁移的方法论。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把多主体生成重述为注意力表征优化,并首次将语义点对应引入该任务、配套自建对应数据集,视角与切入点都新。
- 实验充分度: ⭐⭐⭐⭐ 两个 benchmark + 多组强基线 + 损失消融 + 注意力可视化,4+ 主体扩展性证据扎实;但极端主体数与数据标注质量的鲁棒性分析略缺。
- 写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法逻辑清晰,公式与流水线表述完整,图示到位。
- 价值: ⭐⭐⭐⭐ 解决了多主体生成 3 主体崩塌的实际痛点,即插即用且开源,对个性化生成应用落地有直接价值。