Scaling Multi-Identity Consistency for Image Customization via Multi-to-Multi Matching Paradigm¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/bytedance/UMO
领域: 图像生成 / 扩散模型
关键词: 图像定制、多人身份保持、奖励反馈学习、二分图匹配、身份混淆
一句话总结¶
UMO 把"多人身份定制"重新表述成多参考图与多生成人脸之间的全局指派问题,用一套即插即用的奖励反馈学习(ReReFL)+ 匈牙利匹配奖励(MIMR),在不重训基座的前提下显著提升身份相似度并压住身份混淆。
研究背景与动机¶
领域现状:图像定制(image customization)要让生成图既听文本指令又长得像参考图,其中"人脸身份(ID)定制"最受关注也最难——人对脸极其敏感,细微偏差就会被察觉。现有多人定制方法(DreamO、OmniGen、MSDiffusion、RealCustom++ 等)要么堆更大的多人配对数据,要么用 mask 显式约束每个 ID 的生成位置。
现有痛点:随着参考人数增加,这些方法的身份相似度下降、身份混淆加剧——生成图里某些参考人会"消失",或者出现"A 的脸配 B 的衣服"这种张冠李戴。
核心矛盾:作者把根因归结为现有方法都在用一对一映射(one-to-one mapping)范式——学的是"每个参考 ID ↔ 它对应的生成 ID"的直连。这种范式同时要应对两件相互纠缠的事:intra-ID variability(同一个人在参考图和生成图里姿态/表情不同)和 inter-ID distinction(不同人之间要拉开、互不串味)。人一多,"人内差异"和"人际差异"的边界会越来越模糊,一对一映射顾此失彼,身份可扩展性(identity scalability)被卡死。
本文目标:在不为每个基座定制结构、不依赖昂贵偏好标注的前提下,做到"加人不掉点"——既保身份保真,又抑混淆。
切入角度:与其逐个硬连,不如把"哪张生成脸该对哪个参考 ID"当成一个全局指派来一次性优化,让每个生成身份都匹配到最合适的参考。这恰好对应检测/跟踪里的二分图匹配思路(DETR、Multi-Object Tracking)。
核心 idea:用"多对多匹配(multi-to-multi matching)"范式替代一对一映射——把多人生成转成最大化整体匹配质量的全局指派问题,并通过一套可直接反传奖励的微调框架(ReReFL)落地到任意现成定制模型上。
方法详解¶
整体框架¶
UMO(Unified Multi-identity Optimization)是一个套在现成定制模型外面的强化微调框架,输入是"文本 prompt + 多张参考图 + 目标图",训练目标是让基座模型生成的多张人脸既像各自参考、又彼此可区分。它不改基座结构,只用 LoRA(rank 512)在基座上微调。
整条管线分三块:(1) 先用一条数据管线攒出"每个身份有多张参考图、且人数 >2"的多人数据集;(2) 训练时走 ReReFL(Reference Reward Feedback Learning)——大部分去噪步不带梯度地前向,只在最后一步带梯度前向并预测出干净图 \(\hat I_0\);(3) 对 \(\hat I_0\) 检测人脸、与参考人脸做二分图匹配,用匈牙利算法求最优指派,再据此算 MIMR(Multi-Identity Matching Reward),把负奖励连同预训练损失一起反传更新参数。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:prompt + 多张参考图 + 目标图"] --> B["数据管线与 ID-Conf 度量<br/>长视频跨片召回 + 合成补充"]
B --> C["ReReFL 训练框架<br/>前段去噪 no-grad,末步带梯度预测 Î₀"]
C --> D["多对多匹配范式<br/>参考脸↔生成脸建二分图,匈牙利求最优指派"]
D --> E["SIR→MIMR 奖励<br/>余弦相似边权 + 对/错配奖惩异号"]
E -->|负奖励 + 预训练损失反传| C
C --> F["输出:身份一致、互不混淆的多人定制图"]
关键设计¶
1. 多对多匹配范式:把"谁对谁"交给全局指派而非逐个硬连
这是全文的概念支点,针对一对一映射"人一多就混淆"的痛点。作者把生成结果 \(\hat I_0\) 里检测到的 \(N\) 张人脸与 \(M\) 个参考身份摆成一张二分图:一侧是 \(N\) 张生成脸 \(\hat F\),另一侧是 \(M\) 张参考脸 \(F\),边权用两端人脸 embedding 的余弦相似度 \(e_{F_j,\hat F_k}=\cos(\phi(\hat I_0)_j,\phi(I_r^k))\)。然后在所有可能的指派 \(S_n\) 中找一个总代价最低(等价于总相似度最高)的最优匹配:
其中 \(L_{match}=-e\) 是一对参考-生成身份的匹配代价,这个最优指派用匈牙利算法高效求解。和逐个硬连比,全局指派天然兼顾了"每个生成脸尽量像某个参考(保真)"和"不同参考别抢同一张脸(拉开 inter-ID distinction)",人数增加时也不会塌——这正是它能 scale 的原因。
2. ReReFL:让奖励信号直接反传,比 GRPO 收敛更快
针对"扩散模型很难直接套 RL"以及"直接拿数据微调(SFT)几乎无效"的痛点。作者观察到,单纯用构造好的数据微调基座,身份保真只有微弱提升(Table 4 里 SFT 相对基座几乎不动),因为人脸监督在扩散目标里占比太小、注意力被稀释。于是把 ReFL 扩展到定制场景:对每个样本随机挑一个去噪时间步 \(t\in[T_s,T_e]\),从 \(x_T\) 开始前段去噪步全程 no-grad 前向,只在第 \(t\) 步带梯度前向得到 \(x_{t-1}\),并由 noise scheduler 反推出预测干净图 \(\hat I_0\);再对 \(\hat I_0\) 算奖励,loss 取 \(L=\beta L_{diff} + L_{ReReFL}\)(\(L_{ReReFL}=-R(\hat I_0)\),即负奖励)一并反传。与 GRPO 那类"对自身 rollout 做加权 SFT"的算法不同,ReReFL 把奖励梯度直接回传到推理结果上,作者称收敛更快。时间步范围按"奖励分数趋稳"来定(UNO 用 \(T=25,[1,10]\),OmniGen2 用 \(T=50,[1,20]\),因为 SIR 分数大约第 5 步后才稳定)。
3. 从 SIR 到 MIMR:用对配/错配异号的奖励同时拉保真、压混淆
针对"既要像、又要互不串味"这对张力。最简单的单参考情形用 SIR(Single Identity Reward)——预测脸和参考脸 embedding 的余弦相似度 \(R_{SIR}=\cos(\phi(\hat I_0),\phi(I_r^1))\),作者验证它在去噪后段相对稳定、且高分结果确实比低分结果更像参考,可作可靠奖励。扩到多人后,光最大化每张脸的相似度还不够(会出现两张脸都像同一个参考、另一个参考丢失),所以在拿到最优指派 \(\hat\sigma\) 后定义 MIMR:
其中 \(\lambda_1>0,\lambda_2<0\)(实验取 \(\lambda_1=1,\lambda_2=-1\))。直观说就是:被指派为正确对应的边(\(k=\hat\sigma(j)\))给正奖励、拉近;其余错配边给负奖励、推远。这一正一负让梯度方向同时服务"提保真"和"扩 inter-ID 距离",正是它比只用 SIR 在多人场景大幅领先(Table 4)的根本。
4. 多人数据管线 + ID-Conf 混淆度量:补齐训练与评测两块短板
针对公开数据集里"身份数 >2 的样本极少"以及"没有专门量化混淆的指标"两个工程缺口。数据侧借鉴 MovieGen,从同一长视频里用含多人的帧作 query、再从其它片段召回每个身份,凑出人数多、姿态/表情变化大的真实数据;同时按 UNO 思路补一批合成数据,但因合成身份相似度偏低,只保留经过严格人脸相似度过滤后的高想象力/部分风格化场景作补充。评测侧提出 ID-Conf:对每个参考身份,取生成结果里与之最相似的两张候选脸(top-1 的 \(j^{[1]}_i\) 与 top-2 的 \(j^{[2]}_i\)),用两者相似度的相对 margin 衡量混淆——\(\text{ID-Conf}=\frac{1}{n}\sum_i \text{clip}(1-\frac{\cos(\phi(F_i),\phi(\hat F_{j^{[2]}_i}))}{\cos(\phi(F_i),\phi(\hat F_{j^{[1]}_i}))},0,1)\),值越大表示混淆越轻(top-1 明显高于 top-2,说明对应明确)。
损失函数 / 训练策略¶
总损失 \(L=\beta L_{diff}+L_{ReReFL}\),\(\beta=1\);\(L_{ReReFL}\) 即负的 MIMR 奖励。LoRA rank 512,学习率 \(5\times10^{-6}\),总 batch 8,8×A100 训练;其余超参沿用各基座原设置。
实验关键数据¶
在 XVerseBench、OmniContext 上、分别以 UNO 和 OmniGen2 两类 SOTA 为基座验证 UMO 的"通用增益"。
主实验¶
XVerseBench 单主体(Table 1,ID-Sim / IP-Sim / AVG):
| 方法 | ID-Sim | IP-Sim | AVG |
|---|---|---|---|
| OmniGen | 76.51 | 78.46 | 77.49 |
| XVerse | 79.48 | 76.86 | 78.17 |
| UNO(基座) | 47.91 | 80.40 | 64.16 |
| UMO (UNO) | 80.89 | 77.09 | 78.99 |
| OmniGen2(基座) | 62.41 | 74.08 | 68.25 |
| UMO (OmniGen2) | 91.57 | 79.74 | 85.66 |
XVerseBench 多主体(Table 2,含 ID-Conf)——混淆指标提升尤为明显:
| 方法 | ID-Sim | ID-Conf† | IP-Sim | AVG |
|---|---|---|---|---|
| XVerse | 66.59 | 72.44 | 71.48 | 70.17 |
| UNO(基座) | 31.82 | 61.06 | 67.00 | 53.29 |
| UMO (UNO) | 69.09 | 78.06 | 68.57 | 71.91 |
| OmniGen2(基座) | 40.81 | 62.02 | 67.15 | 56.66 |
| UMO (OmniGen2) | 71.59 | 77.74 | 73.80 | 74.38 |
OmniContext(Table 3,GPT-4.1 评分 + 补充 ID 指标):UMO 把 OmniGen2 的 ID-Sim 从 3.51→7.07、ID-Conf 从 6.35→7.60,AVG 5.68→7.28,身份维度大幅拉升的同时整体分基本持平(7.18→7.16)。
消融实验¶
以 UNO 为基座、XVerseBench 多主体(Table 4):
| 配置 | ID-Sim | ID-Conf† | IP-Sim | AVG | 说明 |
|---|---|---|---|---|---|
| UNO | 31.82 | 61.06 | 67.00 | 53.29 | 基座 |
| SFT | 33.94 | 62.88 | 65.17 | 54.00 | 同数据普通微调,几乎不动 |
| ReReFL w/ SIR | 65.16 | 65.28 | 67.25 | 65.90 | 只用单身份奖励,保真上去但混淆仍重 |
| UMO(ReReFL + MIMR) | 69.09 | 78.06 | 68.57 | 71.91 | 完整模型 |
关键发现¶
- 普通 SFT 基本无效:和基座比 ID-Sim 仅 31.82→33.94,印证"人脸监督在扩散目标里占比太小、被注意力稀释"的判断——必须用聚焦人脸的奖励 RL 才能解锁身份一致性。
- MIMR 是压混淆的关键:从 SIR 换到 MIMR,ID-Conf 从 65.28 猛升到 78.06;可视化里 SIR 会出现"两张脸都像同一参考、另一参考丢失"或发色串味,而 MIMR 通过给每张脸分配正确监督把它们拉开。
- 增益跨基座通用:在 UNO 和 OmniGen2 上都成立,且从单身份到多身份场景可扩展,说明这是范式层面的改进而非对某个基座的过拟合。
亮点与洞察¶
- 把多人定制重述成指派问题最让人"啊哈":借检测/跟踪里成熟的二分图 + 匈牙利匹配,一举把"保真"和"区分"两个纠缠目标解耦到边权与对/错配符号上,思路干净且可扩展。
- ReReFL 即插即用:不改基座结构、只用 LoRA 外挂,对 UNO/OmniGen2 都能涨,是可复用的"身份增强插件"型训练范式,迁移成本低。
- ID-Conf 这个度量可单独拿走:用 top-1/top-2 相似度相对 margin 量化"混淆",简单、无需额外标注,适合任何多人生成任务做诊断。
- 奖励要稳定才反传:观察到 SIR 分数前几步剧烈波动、约第 5 步后趋稳,据此只在后段时间步反传奖励——这种"等奖励稳了再回传"的工程细节值得借鉴。
局限与展望¶
- 奖励完全建立在人脸识别 embedding 的余弦相似度上,强依赖识别网络质量;对非人脸主体(通用物体)的身份一致性,本文增益主要是"保持/略升",并非该奖励直接优化的目标。
- ID-Conf 用 top-2 相对 margin 定义,⚠️ 当生成人数与参考人数不一致(漏人/多检)时该度量的行为,原文未充分展开,以原文为准。
- 训练需 8×A100、LoRA rank 512,且要先攒出"人数 >2 的多参考"数据集,复现门槛不低;合成数据因相似度偏低只能小比例补充,真实多人数据的获取仍是瓶颈。
- 仅在 UNO / OmniGen2 两类基座上验证,对更多架构(如纯 mask 引导类方法)是否同样有效有待观察。
相关工作与启发¶
- vs 一对一映射方法(DreamO / OmniGen / MSDiffusion / RealCustom++):它们靠堆多人配对数据或用 mask 约束每个 ID 的位置来减混淆;UMO 不做位置约束,而是把"谁对谁"交给全局指派优化,人数越多越显出多对多范式的可扩展优势。
- vs Identity-GRPO:同样用 RL 提升身份相似度,但 Identity-GRPO 需要昂贵的偏好数据生成/过滤/标注来训奖励模型;UMO 直接复用现成人脸识别模型(如 PuLID 式)当奖励,更省、更经济,且 ReReFL 直接反传奖励比 GRPO 类加权 SFT 收敛更快。
- vs DETR / Multi-Object Tracking:方法论上直接借用了它们"二分图 + 匈牙利匹配"的指派思想,把检测/跟踪里的"框-目标匹配"迁移到"生成脸-参考身份匹配"。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把多人身份定制首次重述为多对多全局指派,范式级创新
- 实验充分度: ⭐⭐⭐⭐ 跨两个基座、两个 benchmark + 用户研究,消融清晰;但基座/数据多样性仍有限
- 写作质量: ⭐⭐⭐⭐ 动机—范式—奖励的逻辑链顺畅,公式与图配合到位
- 价值: ⭐⭐⭐⭐⭐ 即插即用、跨模型通用,对多人定制这个高频痛点直接有效