跳转至

MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Nbl43eAVaE
代码: 待确认(补充材料含 demo)
领域: 视频生成 / 主体驱动生成
关键词: any-reference video generation, masked guidance, subject disentanglement, multi-subject, identity preservation

一句话总结

MAGREF 用「区域感知掩码 + 像素级通道拼接」把任意数量、任意类别的参考主体注入预训练 I2V 骨干,并用「主体解耦」把每个文本词的语义值注射到对应视觉区域,在不改架构的前提下实现高保真、可控的任意参考视频生成。

研究背景与动机

领域现状:扩散模型已能根据文本或单张参考图生成时序连贯的视频,业界对「用多张参考图细粒度控制外观与身份」的需求快速上升,催生了 any-reference video generation(任意参考视频生成)这一任务——给定任意类别、任意组合的参考主体(人、动物、服饰、配饰、环境)加文本提示,合成一致且个性化的视频。

现有痛点:把视频生成同时条件化在文本与多张参考图上会急剧放大条件空间,带来三大顽疾——(1) 身份不一致,面部结构、配饰等细节跨帧漂移;(2) 多主体纠缠,不同参考图的身份被混淆或混合;(3) copy-paste 伪影,把参考图生硬贴进画面破坏真实感。已有工作要么依赖外置身份模块且只支持单图(如 ConsisID),扩展性差;要么沿 token 维拼接视觉 token(如 ConcatID、VACE、Phantom),需要海量数据且身份保持/泛化都不好;SkyReels-A2 沿通道维拼接带时序掩码,仍未统一解决上述问题。

核心矛盾:要在「保留预训练骨干的强先验、不改架构」与「精确区分任意数量未知主体、把每个主体绑定到正确文本」之间取得平衡——沿 token 维拼接要从零重学身份一致性,沿时序维拼接又破坏 I2V 的首帧一致性。

本文目标:构建一个统一、无需架构改动的框架,同时解决身份一致、主体解耦、消除 copy-paste 三大问题。

核心 idea[像素级条件] 把多张参考图拼成一张合成画布、用 VAE 编码后沿通道维与噪声潜变量拼接(而非 token 维),最大化复用预训练 I2V 骨干的图像保持能力;[语义锚定] 把每个文本词的 cross-attention value 注射进对应主体的空间区域,从扩散第一步就建立「图像区域↔文本词」的紧耦合;[数据治理] 用四阶段数据流水线构造跨配对训练样本压制 copy-paste 伪影。

方法详解

整体框架

MAGREF 建立在 Wan2.1 的 I2V 骨干之上,不改任何网络结构。输入端把 N 张参考图按位置摆到一张空白画布上形成合成图 \(I_{comp}\),连同一张二值区域掩码一起经 VAE 编码,沿通道维与加噪视频潜变量拼接送入 DiT;在每个 DiT 层,主体解耦模块再把文本词的 value 嵌入按区域注入首帧潜变量,强制每个主体与其文本标签对齐。训练数据由四阶段流水线产出跨配对样本。

flowchart LR
    A[N张参考图] --> B[区域感知摆放<br/>合成画布 I_comp]
    B --> C[VAE编码 F_comp]
    B --> D[二值掩码 M<br/>下采样+通道复制]
    E[视频帧] --> F[VAE+加噪 Z]
    C --> G[通道维拼接<br/>Concat Z,F_comp,M_region]
    D --> G
    F --> G
    G --> H[DiT Block ×L]
    I[文本提示 T5/CLIP] --> J[cross-attn value v_i]
    J --> K[主体解耦<br/>按区域注入首帧潜变量]
    K --> H
    H --> L[VAE解码 输出视频]

关键设计

1. 区域感知掩码:把多主体压成一张 I2V 友好的合成参考帧。任意参考设定的难点是主体数量与分布未知,难以套进标准 I2V 流程。MAGREF 不沿时序维逐帧堆参考图(vanilla 掩码,会破坏首帧一致性),而是把 N 张参考图 \(\{I_k\}_{k=1}^N\) 按各自位置 \(p_k=(x_k,y_k)\) 拼到一张画布上,每个像素取占据该位置的源图值:\(I_{comp}(i,j)=\sum_{k=1}^N I_k(i-y_k,j-x_k)\cdot\mathbb{1}_{(i,j)\in R_k}\),其中 \(R_k\) 是第 \(k\) 张图占据的矩形区域。这张合成图被当作单张参考帧,从而直接继承骨干原生的 I2V 能力。同时构造二值掩码 \(M(i,j)=\mathbb{1}_{(i,j)\in\bigcup_k R_k}\) 给出每个主体的精确空间先验。训练时随机打乱主体位置以缓解位置偏置。

2. 像素级通道拼接:在像素层保留细粒度外观、复用骨干保持能力。沿 token 维拼接或在 patch 化后拼视觉 token,都迫使模型从零重学身份一致性,尤其参考图数量变化时需要海量域内数据。MAGREF 改在像素层做文章:合成图 \(I_{comp}\in\mathbb{R}^{1\times C_{in}\times H\times W}\) 先沿时序轴零填充到视频帧维度得 \(\tilde I_{comp}\),再用同一 VAE 编码得 \(F_{comp}=\mathcal{E}(\tilde I_{comp})\in\mathbb{R}^{T\times C\times H\times W}\);二值掩码 \(M\) 下采样到 \(F_{comp}\) 分辨率并沿通道复制成 \(M_{region}\in\mathbb{R}^{T\times C_m\times H\times W}\);原视频帧经同一 VAE 加噪得 \(Z\)。三者沿通道维拼接成最终输入 \(F_{input}=\mathrm{Concat}(Z,F_{comp},M_{region})\in\mathbb{R}^{T\times(2C+C_m)\times H\times W}\)。这样参考表示在时序上与视频帧对齐,骨干无需改结构即可在任意参考设定下保持细粒度外观。

3. 主体解耦:把文本词语义值按区域注射进首帧潜变量。仅有区域掩码做到视觉分离还不够,多主体生成需要图像与文本之间更强的耦合,否则属性会泄漏、跨主体纠缠。MAGREF 先从文本条件解析出对应各参考主体的词标签 \(\{w_i\}\),取其在 cross-attention 层的 value 嵌入 \(V=\{v_i\}_{i=1}^K,\ v_i\in\mathbb{R}^D\);再为每个主体构造区域掩码 \(M_{sub}^k(i,j)=\mathbb{1}_{(i,j)\in R_k}\),把对应 value 注入首帧潜变量 \(z_0\)\(z_0'=z_0+\alpha\sum_{i=1}^K(M_{sub}^i\odot v_i)\),其中 \(\odot\) 为带广播的逐元素积。从扩散起点就把指定图像区域与关联文本词绑死,有效抑制属性泄漏、防止跨主体干扰(图 3 显示去掉该机制后 Man/Woman 与文本对齐变得模糊纠缠)。

4. 四阶段数据流水线:构造跨配对样本压制 copy-paste 伪影。为任意参考任务定制:Stage 1 用场景切分分段、丢弃低质/少动片段,用 Qwen2.5-VL 生成偏运动的字幕;Stage 2 从字幕识别物体,用 GroundingDINO 定位、SAM2 分割成干净参考图;Stage 3 用 InsightFace 检测人脸、按姿态过滤并按质量排名选取固定数量高质量脸;Stage 4 用 SOTA 图像生成模型对人脸/物体/背景做生成式增广(变姿态、外观、上下文)。最终样本形如 \(R_i=\{V_i,C_i,(I_i^{Face},I_i^{Face'}),(I_{i,1}^{Obj},I_{i,1}^{Obj'}),\dots,I_i^{Bg}\}\),原图与变体配成「跨配对」迫使模型学外观本质而非直接复制,从而压制 copy-paste 伪影。

实验关键数据

评测集 120 对 reference-text,单 ID 与多主体各半;单 ID 用 ID-Sim/Aesthetic/Motion/GmeScore,多主体额外加 Subj-Sim/Bg-Sim。骨干基于 Wan2.1,H100 80GB + FusedAdam 训练。

主实验表格

单 ID 评测(节选):

Model ID-Sim Aesthetic Motion GmeScore Total
HunyuanCustom 0.592 0.497 0.848 0.697 0.659
Phantom 0.492 0.504 0.952 0.722 0.668
VACE 0.577 0.524 0.949 0.696 0.687
Hailuo (闭源) 0.537 0.527 0.941 0.714 0.680
MAGREF 0.595 0.516 0.956 0.710 0.694

多主体评测(节选):

Model ID-Sim Subj-Sim Bg-Sim Aesthetic Motion GmeScore Total
Phantom 0.481 0.364 0.460 0.458 0.976 0.713 0.575
VACE 0.345 0.463 0.615 0.467 0.968 0.680 0.590
Kling1.6 (闭源) 0.387 0.411 0.571 0.458 0.864 0.655 0.558
MAGREF 0.542 0.496 0.622 0.478 0.945 0.681 0.627

MAGREF 在单 ID 与多主体两种设定下都拿到最高 Total Score,主体一致性(ID-Sim、Subj-Sim)全面领先开源与闭源对手。

消融实验表格

训练范式与掩码策略(表 3):

方法 ID-Sim Subj-Sim Bg-Sim Total
从 T2V 骨干训练 0.428 0.403 0.468 0.550
I2V + Vanilla 掩码 0.458 0.431 0.492 0.558
I2V + 区域感知掩码 0.504 0.452 0.526 0.587

整体流水线消融(表 4):

方法 ID-Sim Subj-Sim Bg-Sim Total
w/o 区域感知掩码 0.470 0.452 0.530 0.570
w/o 跨配对数据策略 0.462 0.447 0.524 0.574
w/o 主体解耦 0.493 0.417 0.518 0.580
完整 MAGREF 0.542 0.496 0.622 0.627

关键发现

  • 从 T2V 骨干训练或用 vanilla 掩码都明显损害身份/主体一致性,区域感知掩码 + 复用 I2V 首帧能力是性能基石(Total 0.550/0.558 → 0.587)。
  • 三个组件去掉任一都掉点:去区域感知掩码掉最多(Total −0.057),去跨配对数据主要恶化 copy-paste 抑制,去主体解耦则 ID-Sim/Subj-Sim 显著下降,印证「图像-文本紧绑定」对多主体的关键作用。

亮点与洞察

  • 不改架构是最大卖点:通道维拼接 + 复用 I2V 首帧机制,让任意参考能力「白嫖」预训练骨干的强外观先验,避免 token 维拼接从零重学一致性,工程上极易落地。
  • 合成画布是巧思:把「未知数量主体」这个开放问题硬塞进「单参考帧 I2V」这个成熟范式,掩码再补上空间先验——用范式复用换掉了复杂的多分支条件注入。
  • 主体解耦把对齐前置到扩散起点:在 \(z_0\) 上注入文本 value,而非靠后续 cross-attention 慢慢收敛,从源头切断属性泄漏。

局限与展望

  • 评测集仅 120 对、每例 ≤3 张参考图,更大规模主体组合(密集人群、强遮挡)下的鲁棒性未充分验证。
  • 主体解耦依赖从文本准确解析出主体词标签并取得对应 value,提示词模糊或主体词缺失时绑定可能失效。
  • 合成画布把多主体压进单帧,参考图过多时空间分辨率被稀释,细粒度细节保持可能受限。
  • Motion 指标略逊于 Phantom,强主体约束与大幅运动之间的权衡仍有提升空间。

相关工作与启发

  • 单 ID 保持:ConsisID(频率分解保面部一致)、EchoVideo、FantasyID 依赖外置身份模块、单图条件,扩展性受限。
  • 多概念定制:ConceptMaster、VideoAlchemy 用 CLIP+Q-Former 融合视觉-文本;HunyuanCustom 引入 MLLM 增强提示-参考交互。
  • 参考条件化(基于 Wan2.1):ConcatID 沿 token 维拼接、VACE/Phantom 注入参考特征、SkyReels-A2 沿通道维拼接带时序掩码——MAGREF 与它们的本质差异在「像素级通道拼接 + 区域掩码复用 I2V 首帧 + 文本 value 区域注射」三件套。
  • 启发:把「条件信号塞回预训练范式擅长的输入形态」(这里是合成参考帧)往往比新增条件分支更省数据、更稳;区域级的文本-视觉绑定是多主体解耦的通用思路,可迁移到多主体图像编辑、可控生成等任务。

评分

  • 新颖性: ⭐⭐⭐⭐ — 像素级通道拼接 + 合成画布复用 I2V、首帧 value 注射做主体解耦的组合是新的,单点不算颠覆但工程整合巧妙。
  • 实验充分度: ⭐⭐⭐⭐ — 单 ID/多主体双设定、覆盖开源与闭源 SOTA、三组件消融完整;评测集规模偏小是减分项。
  • 写作质量: ⭐⭐⭐⭐ — 三大挑战→三组件对应清晰,公式与流水线图齐全,可读性好。
  • 价值: ⭐⭐⭐⭐ — 无需改架构即插任意参考能力,对工业级可控视频生成有较强落地价值。