跳转至

Omni-ID: Holistic Identity Representation Designed for Generative Tasks

会议: CVPR 2025
arXiv: 2412.09694
代码: https://snap-research.github.io/Omni-ID/
领域: 人体理解
关键词: 人脸表征, 身份保持生成, 多解码器训练, 少到多重建, 人脸个性化

一句话总结

Omni-ID 提出了一种专为生成任务设计的全息人脸身份表征,通过 few-to-many 身份重建训练范式和多解码器目标(Masked Transformer + Flow Matching),将不定数量的输入图像编码为固定大小的结构化表征,在可控人脸生成和个性化 T2I 任务中显著超越 ArcFace 和 CLIP。

研究背景与动机

领域现状:人脸生成领域的主流做法依赖于从判别式任务训练得到的特征表征(如 ArcFace 用于人脸识别、CLIP 用于图文对齐)。这些表征被广泛用于个性化文本到图像生成(如 IP-Adapter)和可控人脸合成。

现有痛点:判别式/对比式表征存在两个根本问题。第一,它们是单图编码——一张正面中性表情的照片几乎不包含侧面、微笑或皱眉时的外观信息。第二,根据信息瓶颈原理,对分类无关但对生成至关重要的细微变化(如鼻子形状、胡须细节)在判别式训练中会被丢弃。

核心矛盾:判别式训练目标与生成任务需求之间存在根本性的矛盾——前者追求类内紧凑性和类间分离性,后者需要保留丰富的个体细节。多图输入时,简单的特征平均或拼接无法有效整合不同视角的互补信息。

本文目标:设计一种直接为生成任务优化的人脸身份表征,能够从任意数量的输入图像中提取固定大小的结构化编码,且表征质量随输入图像数量增加而提升。

切入角度:如果训练时让编码器从少量图像重建更多同一身份的不同姿态和表情图像(few-to-many),编码器就被迫学习能够泛化到未见姿态的身份特征。同时使用多个解码器可以利用不同解码器的互补优势。

核心 idea:使用生成式目标(而非判别式目标)训练人脸编码器,通过 few-to-many 重建 + 多解码器(Masked Transformer + Flow Matching)的训练策略来学习全息的身份表征。

方法详解

整体框架

训练分两阶段。第一阶段训练 Masked Transformer Decoder(MTD),编码器从少量输入图像提取身份表征,MTD 利用该表征和严重遮蔽(95%)的目标图像来重建多个同一身份的不同图像。第二阶段训练 Flow Matching Decoder,基于 FLUX 模型通过 IP-Adapter 注入身份表征来去噪重建。两个阶段共享同一编码器,最终推理时可灵活接入各种下游生成器。

关键设计

  1. Omni-ID Encoder(Transformer 编码器):

    • 功能:将任意数量的输入图像编码为固定大小的结构化身份表征(256 tokens x 1280 dims)
    • 核心思路:使用 CLIP-H 作为图像特征提取器,将各图像的 patch tokens 拼接后作为 KV,通过可学习 query token 的交叉注意力聚合信息,再经自注意力层精炼。由于 query 是固定的可学习参数,输出维度始终一致
    • 设计动机:固定大小的结构化编码让下游任务可以依赖编码中的特定位置对应特定语义属性。注意力可视化证实不同 query 确实关注了不同语义区域(眼睛、嘴巴、轮廓等)
  2. Few-to-Many 身份重建训练范式:

    • 功能:迫使编码器学习能泛化到未见姿态和表情的身份特征
    • 核心思路:训练时从同一身份的完整图像集中采样少量输入和较多的重建目标。模型必须从少量输入重建多个未见姿态的目标图像。消融显示 3 输入到 8 目标的配置最优,优于 8 到 8(后者可能退化为自编码)
    • 设计动机:如果只做 1 到 1 的重建,编码器可能过拟合到输入图像的特定属性;few-to-many 迫使编码器提取跨姿态不变的核心身份信息
  3. 多解码器目标(MTD + Flow Matching):

    • 功能:结合两种解码器的互补优势来训练编码器
    • 核心思路:MTD 使用 95% 的高遮蔽率确保身份信息完全来自编码器表征,有利于学习广覆盖的表征但输出模糊。Flow Matching 解码器通过不同噪声级别的去噪任务鼓励编码器捕捉不同粒度的细节
    • 设计动机:MTD 擅长表征学习但输出质量有限;Flow Matching 能恢复细粒度细节但单独用时不擅长表征学习。两者互补

损失函数 / 训练策略

MTD 阶段训练 200K 步,95% mask ratio,L1 重建损失。Flow Matching 阶段训练 10K 步,使用 FLUX dev 作为基座模型,flow matching 损失。两阶段都在自建的 MFHQ 数据集上训练(134K 身份,每身份 8 张 448+ 分辨率图像)。

实验关键数据

主实验

可控人脸生成(IP-Adapter + ControlNet on FLUX):

方法 MFHQ Test ID Sim (1/3/5/7 inputs) Webface Test ID Sim (3/5/8/16 inputs)
ArcFace 0.515/0.523/0.529/0.535 0.379/0.373/0.370/0.371
CLIP 0.648/0.670/0.680/0.682 0.695/0.696/0.696/0.695
ArcFace+CLIP 0.638/0.655/0.663/0.664 0.652/0.654/0.656/0.658
Omni-ID 0.708/0.728/0.737/0.742 0.774/0.779/0.781/0.784

消融实验

配置 ID Similarity (1/3 img) 说明
Full model 0.708 / 0.728 完整模型
w/o MTD pretraining 0.468 / 0.473 掉了 34%,最关键组件
w/o Flow-Matching 0.672 / 0.685 掉了 5%,细节捕捉受损
w/o Few-to-many 0.616 / 0.633 掉了 13%,泛化能力下降
w/o MFHQ dataset 0.678 / 0.693 掉了 4%,数据质量影响

关键发现

  • MTD 预训练是最关键组件(去掉后 ID similarity 从 0.708 降到 0.468),说明 mask-and-reconstruct 范式对表征学习至关重要
  • Omni-ID 的性能随输入图像数量稳步提升(ArcFace 几乎不涨),说明编码器确实在整合多图互补信息
  • 注意力可视化显示不同 query 关注面部不同语义区域,且能自适应处理遮挡
  • MFHQ 数据集比 WebFace 更有效,因为后者类内 ID 变化过大引入了噪声

亮点与洞察

  • 生成式训练目标替代判别式训练:这是该领域的范式转变。信息瓶颈原理为此提供了理论支撑——判别式训练会丢弃对分类不重要但生成需要的细节
  • 结构化表征的可解释性:固定 query 自动学会了语义分工,无需显式监督。这种 emergent structure 说明 cross-attention + learnable query 是强大的信息组织机制
  • MTD 的极高遮蔽率设计(95%):远超 MAE 的 75%,确保了身份信息完全来自编码器而非目标图像,有效防止 identity leakage

局限与展望

  • Omni-ID 不编码面部以外的属性(如发型),下游生成时这些属性会被"幻觉"
  • 只在 FLUX 上验证了两个下游任务,未与 PhotoMaker、InstantID 等最新方法直接对比
  • MFHQ 数据集来自视频,光照和背景变化有限

相关工作与启发

  • vs ArcFace: 对年龄、肤色过度不变,单图编码无法编码多视角信息。Omni-ID 在 ID similarity 上超越 37%+
  • vs CLIP: 保留了更多视觉特征但缺少面部精调,多图输入几乎不提升
  • vs IP-Adapter/FaceIDPlus: 关注如何注入人脸特征到生成模型中,Omni-ID 关注如何获得更好的人脸表征本身。两者正交

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 生成式人脸表征学习是范式创新,few-to-many + 多解码器新颖
  • 实验充分度: ⭐⭐⭐⭐ 消融详尽,但缺少与更多 SOTA 个性化方法的直接对比
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,部分细节需参考附录
  • 价值: ⭐⭐⭐⭐⭐ 基础性表征,可广泛应用于各种下游任务