ID-Crafter: VLM-Grounded Online RL for Compositional Multi-Subject Video Generation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 项目页
领域: 视频生成 / 多主体定制 / 在线强化学习
关键词: 多主体视频生成、身份保持、VLM 语义引导、Flow-GRPO、奖励设计
一句话总结¶
ID-Crafter 把"分层身份保持注意力 + VLM 语义引导 + 在线 RL 后训练"拼成一个统一框架,专门解决多主体视频生成里"既要每个主体不串脸、又要画面动起来还自然"这对天生矛盾,在开源多主体 S2V benchmark 上把 FaceSim 等指标刷到新 SOTA。
研究背景与动机¶
领域现状:视频生成模型(Wan-Video、Kling 这类)已经能生成高保真视频,但绝大多数只吃一个文本 prompt 或首帧这种稀疏输入,对复杂场景几乎没有可控性。图像领域已经玩得很溜的"多主体组合生成"(给若干张参考图,让指定的人/物同时出现在画面里),到了视频域还是个硬骨头。
现有痛点:把单主体视频生成方法直接扩到多主体,最大的问题是"身份串味"——Phantom、ConcatID、SkyReels-A2、CINEMA 这类做法把多主体特征注入预训练扩散模型后,主体之间会出现语义冲突,A 的脸特征泄漏到 B 身上(identity leakage),导致每个主体的身份都被稀释。论文 Fig.1 里 Phantom 的 Face Score 只有 0.32,而 ID-Crafter 是 0.84,直观体现了这个差距。
核心矛盾:问题根子在于一对内在张力——保持每个主体独立身份 vs 生成连贯、有动态的整体场景。把多个主体特征简单拼接喂进注意力,模型分不清"哪个特征属于哪个主体""主体之间该怎么交互",于是要么主体糊在一起,要么为了保身份把画面冻住不敢动。现有方法在这对张力上没找到好的平衡点。
本文目标:在一个统一框架里同时把三件事做好——(1) 把多主体特征解耦、防止身份泄漏;(2) 让模型真正"读懂"复杂的多主体 prompt(谁在干什么、谁和谁交互);(3) 直接优化"身份保持—画面质量—运动流畅"这个三方 trade-off。
切入角度:作者观察到两个可利用的杠杆。其一,注意力如果按"主体内 → 主体间 → 跨模态"分层级地做,就能先锁住每个主体的细节再处理交互,天然契合身份解耦;其二,VLM(Qwen2.5-VL)相比传统文本编码器(T5/CLIP)对场景组合有更细粒度的理解,能当"语义向导"而不只是静态编码器。再加上扩散模型的奖励本身不可微/credit assignment 困难,正好用在线 RL(无需价值网络的 group 比较)来直接拉齐感知奖励。
核心 idea:用"分层注意力锁身份 + VLM 当语义大脑 + 在线 GRPO 后训练调 trade-off"三件套,把多主体视频生成里的身份-动态矛盾系统性地拆解掉。
方法详解¶
整体框架¶
ID-Crafter 建立在基于 DiT 的隐空间视频扩散模型 Wan-Video 之上,用标准 Rectified Flow(RF)做基础训练。给定文本 prompt \(C_{txt}\) 和 \(N\) 张参考图 \(I=\{I_k\}_{k=1}^N\)(每张对应一个主体),目标是生成既符合 prompt、又能高保真保留全部 \(N\) 个主体身份且时序连贯的视频 \(V\)。
整条 pipeline 分三步走:先用 VLM(Qwen2.5-VL)把文本和参考图一起编码成语义增强 token,同时用图像编码器把每个主体抽成 token;再把这些条件 token 送进一个分层身份保持注意力机制(主体内 → 主体间 → 跨模态三级),融进视频 DiT 完成 flow matching 训练;最后在 flow matching 收敛的模型上接一个在线 RL(GRPO)阶段,用一套兼顾身份保真与画面质量的复合奖励把模型往"既像又自然"的方向再拧一拧。训练数据则由一条专门设计的三源 curation pipeline 合成,专治多主体场景里的"copy-paste"贴图感。
RF 的训练目标是回归速度场:在 \(z_t=(1-t)z_0+t\epsilon\) 的直线轨迹上预测常速度 \(v=\epsilon-z_0\),损失为 \(L_{RF}=\mathbb{E}_{t,z_0,\epsilon}[w(t)\|v_\theta(z_t,t,C_{ctx})-(\epsilon-z_0)\|_2^2]\)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:文本 prompt + N 张参考图"] --> B["VLM 语义引导<br/>Qwen2.5-VL 编码<br/>文本/图统一成语义 token"]
A --> C["分层身份保持注意力<br/>主体内→主体间→跨模态"]
B --> C
D["数据 curation 流水线<br/>三源合成训练数据"] --> C
C --> E["视频 DiT + Rectified Flow<br/>flow matching 训练"]
E --> F["在线 RL 后训练<br/>GRPO + 复合奖励 R_total"]
F --> G["输出:多主体一致视频"]
关键设计¶
1. 分层身份保持注意力:按"主体内→主体间→跨模态"三级解耦,防止身份泄漏
简单地把所有主体 token 和文本 token 拼在一起做 cross-attention,模型分不清特征归属,A 的脸会泄漏到 B(identity leakage),这是身份串味的直接来源。ID-Crafter 不这么干,而是把注意力拆成级联的三个阶段:先用主体内注意力(intra-subject)在每个主体内部聚合细粒度特征,把这个主体"是谁"先锁死;再用主体间注意力(inter-subject)显式建模不同主体之间的交互,正是这一步抑制了 identity leakage;最后用跨模态/多模态注意力(multi-modal)把主体特征和文本、视频 token 融合,保证和 prompt 语义对齐。具体地,参考图先经图像编码器得到特征图 \(\{F_k\}_{k=1}^N\)(\(F_k\in\mathbb{R}^{c\times h\times w}\)),展平成 token 序列 \(\{f_k\}_{k=1}^N\)(\(f_k\in\mathbb{R}^{hw\times c}\))。这种"先各管各、再谈交互、最后对齐文本"的层级顺序,比一锅烩的拼接更能在保住个体身份的同时刻画主体间动态——消融里去掉它 FaceSim 直接掉 11.7%,是掉点最狠的一项。
2. VLM 语义引导:把 Qwen2.5-VL 从静态编码器升级成动态语义向导
传统文本编码器(如 T5)对"两个人加一个手机加一台笔记本,谁在用谁"这种复杂多主体描述解析能力有限,模型读不懂场景组合就容易生成错乱。ID-Crafter 用预训练的 Qwen2.5-VL 同时处理文本 prompt 和参考图,产出语义增强 token \(f_{txt}=\text{VLM}_{enc}(C_{txt},I)\in\mathbb{R}^{l'\times c}\),再把它和各主体 token 拼成完整条件 \(C_{ctx}=[f_{txt};f_1;\dots;f_N]\in\mathbb{R}^{(l'+N\cdot hw)\times c}\)。关键在于作者主张这不是把 VLM 当一个更强的静态 encoder 用,而是让 VLM 的细粒度跨模态推理去主动引导上面那套分层注意力,相当于给生成过程接了个"懂场景结构"的大脑——这是论文声称的首个把 VLM 作为核心推理引擎接进开源 Wan-Video 架构的工作。实际部署用的是 T5 + Qwen2.5-VL-7B-Instruct 的双编码器。消融里换回纯 T5("w/o VLM Encoder"),衡量感知质量的 Q-Align 暴跌 18.2%,说明 VLM 对复杂 prompt 的语义把控确实是画面质量的关键。
3. 在线 RL 后训练:用无价值网络的 GRPO + 复合奖励直接调三方 trade-off
身份保持这种感知奖励是视频级、整体性的,要回传去调分层 ID 注意力层里那些精细计算,存在严重的 credit assignment 问题;DPO 这类离线方法又因为吃静态数据集、无法在线更新而受限;标准 policy-gradient 则要额外训一个价值网络,不稳又对超参敏感。ID-Crafter 借鉴 Flow-GRPO,对每个条件 \(q\) 从旧策略采一组输出 \(\{o_1,\dots,o_G\}\),用 groupwise 比较估计优势 \(\hat{A}_{i,t}=\frac{r_i-\text{Mean}(\{r\})}{\text{Std}(\{r\})}\),省掉脆弱的价值网络;同时把 RF 的确定性生成改成随机过程(每步注噪,\(\sigma_t=a\sqrt{t/(1-t)}\))以便采样探索。奖励是一套精心设计的复合奖励 \(R_{total}(V)=w_{fid}R_{fid}(V,I)+w_{qual}R_{qual}(V)\),权重 \(w_{fid}=0.6,\,w_{qual}=0.4\)。其中保真项 \(R_{fid}=(1-\alpha)R_{face}+\alpha R_{subject}\)(\(\alpha=0.5\)),人脸项
用 ArcFace 分数的"均值 + 最差主体"组合,专门防止某个主体被牺牲;质量项 \(R_{qual}=(1-\beta)R_{aes}+\beta R_{nat}\)(\(\beta=0.4\)),\(R_{aes}\) 是标准美学分,\(R_{nat}\) 是 VLM 打的 NaturalScore,用来惩罚"好看但违反物理常识"的 reward hacking。论文还提到一个对比学习机制为分层注意力提供稳定训练信号、直接最大化身份保真同时抑制 reward hacking(⚠️ 细节未充分展开,以原文为准)。
4. 三源数据 curation 流水线:合成跨主体组合,治"copy-paste"贴图感
多主体 S2V 受限于配对训练数据稀缺、难覆盖真实世界里主体运动/视角/布局的复杂变化,模型容易学成把参考图原样贴进画面的"copy-plate"伪影。ID-Crafter 用一条由现代 VLM(QwenVL-72B)和强力图像编辑模型(Nano Banana)驱动的流水线,把数据拆成三类异构来源:其一是从 OpenS2V-Nexus 抽取的真实主体-视频配对,提供多样的真实场景与动作;其二是合成数据——用图像编辑模型把主体放进全新语境,显式设计跨主体组合与融合样例,正是这部分在补"主体间交互"的训练信号、压制 copy-paste 伪影;其三是带精细标注的专业拍摄视频,保高保真。消融里"w/o Curated Data"在 Video Quality 上掉 7.7%、copy-plate 伪影更严重,验证了合成跨主体样例对多实体交互连贯性的价值。
损失函数 / 训练策略¶
两段式训练:先以 \(L_{RF}\) 做 flow matching 基础训练,从 Wan-Video-1.3B 权重初始化,在自建数据集上 480p 分辨率训 30,000 步,用 16 张 H20 GPU;再接在线 GRPO 后训练,目标为带 clip 与 KL 正则的 \(J_{GRPO}(\theta)\)(\(-\beta D_{KL}(\pi_\theta\|\pi_{ref})\))。推理用 Euler 采样 50 步、CFG scale 2.5,1.3B 模型生成一段 480p 视频约 1 分钟。
实验关键数据¶
主实验¶
评测基于 OpenS2V-Nexus 协议,在 180 对 held-out 的 subject-text 配对上做开放域 S2V 测试,Total Score 是其余分项的归一化加权和(越高越好)。
| 方法 | Total↑ | Aesthetics↑ | Motion↑ | FaceSim↑ | NexusScore↑ |
|---|---|---|---|---|---|
| Kling 1.6(闭源) | 54.46% | 44.60% | 41.60% | 40.10% | 45.92% |
| VACE-14B | 52.87% | 47.21% | 15.02% | 55.09% | 44.20% |
| Phantom-14B | 52.32% | 46.39% | 33.42% | 51.48% | 37.43% |
| SkyReels-A2-P14B | 49.61% | 39.40% | 25.60% | 45.95% | 43.77% |
| Ours-1.3B(Base) | 54.33% | 42.50% | 38.00% | 58.12% | 43.22% |
| Ours-1.3B(Base+online RL) | 55.16% | 48.85% | 36.50% | 66.10% | 43.45% |
| Ours-14B | 57.05% | 45.28% | 40.34% | 60.71% | 45.11% |
最抢眼的是 FaceSim:1.3B 模型加在线 RL 后冲到 66.10%,比 14B 的 VACE(55.09%)、Phantom(51.48%)高出一大截,且 1.3B 的 Total Score(55.16%)就已超过所有开源 14B 基线乃至闭源 Kling 1.6。
消融实验¶
去掉三个核心组件,FaceSim / Q-Align / Video Quality / Total 全线下滑(百分比为相对下降):
| 配置 | FaceSim↑ | Q-Align↑ | Video Quality↑ | Total↑ |
|---|---|---|---|---|
| Ours-1.3B(Base,完整) | 58.12% | 0.351 | 48.91% | 54.33% |
| w/o 分层注意力 | 51.34%(↓11.7%) | 0.348(↓0.9%) | 47.52%(↓2.8%) | 50.11%(↓7.8%) |
| w/o VLM 编码器 | 56.98%(↓2.0%) | 0.287(↓18.2%) | 46.88%(↓4.2%) | 49.89%(↓8.2%) |
| w/o Curated 数据 | 54.55%(↓6.1%) | 0.321(↓8.5%) | 45.13%(↓7.7%) | 48.78%(↓10.2%) |
分工很清晰:分层注意力主管 FaceSim(去掉掉 11.7%,最狠),VLM 编码器主管 感知质量 Q-Align(去掉掉 18.2%),Curated 数据主管 Video Quality(去掉掉 7.7%)。
在线 RL 单独分析(对比 SFT / 离线 DPO,并拆解复合奖励):
| 方法 | FaceSim↑ | Aesthetics↑ | Q-Align↑ | Total↑ |
|---|---|---|---|---|
| SFT Baseline | 58.12% | 42.50% | 0.351 | 54.33% |
| DPO(离线) | 62.35% | 45.15% | 0.382 | 54.80% |
| Ours(在线 GRPO) | 66.10% | 48.85% | 0.410 | 55.16% |
| Ours w/o Fidelity \(R_{fid}\) | 45.32% | 47.10% | 0.391 | 53.50% |
| Ours w/o Quality \(R_{qual}\) | 63.50% | 43.81% | 0.379 | 54.82% |
| Ours w/o Natural \(R_{nat}\) | 69.30% | 50.83% | 0.361 | 53.01% |
关键发现¶
- 在线 > 离线 > SFT:相比 SFT,在线 GRPO 在 FaceSim/Aesthetics/Q-Align 上分别相对提升 13.7% / 14.9% / 16.8%;离线 DPO 受静态数据集所限,提升远不如在线主动探索生成空间。
- 去掉 \(R_{nat}\) 暴露 reward hacking:删掉自然度奖励后 FaceSim 反升到 69.30%、Aesthetics 升到 50.83%,但 Q-Align 掉到 0.361、Total 跌到 53.01%——典型的"为刷分牺牲真实感",说明 NaturalScore 是平衡复合奖励、防止 reward hacking 的关键阀门。
- 人类偏好印证自动指标:30 名参与者、200 份问卷的偏好研究里,本方法在身份一致性(60%)、运动自然度(65%)、美学(54%)、画面质量(43%)四项上均明显领先四个主流竞品。
亮点与洞察¶
- 把"分层"用在身份解耦上很对症:intra→inter→cross-modal 的级联顺序不是随便排的——先锁个体、再谈交互、最后对齐文本,恰好对应"防泄漏"的因果链,消融里它是掉 FaceSim 最多的组件,证明这个层级假设站得住。
- VLM 当"动态语义向导"而非"更强 encoder":作者刻意区分这两种用法,让 VLM 主动引导注意力而不只是产 token,Q-Align 对 VLM 的敏感(去掉掉 18.2%)说明语义理解直接决定感知质量,这个视角可迁移到任何需要细粒度 prompt 解析的可控生成任务。
- \(R_{face}\) 的"均值+最差主体"组合是防偏科的小巧设计:\(\gamma\min_k R^k_{id}\) 这一项强制模型不能为了整体均值牺牲某个倒霉主体,对多主体场景特别实用,可直接借用到任意"多目标都要保住"的奖励设计里。
- 用 \(R_{nat}\) 显式对抗 reward hacking:消融把 reward hacking 现象量化展示(FaceSim/Aesthetics 升但 Q-Align/Total 降),是很有说服力的"为什么需要这一项"的证据。
局限与展望¶
- 作者承认的局限:在建模复杂交互和细粒度动态上仍有不足;未来计划引入物理感知先验、缓解预训练组件的偏见、推进属性/动作/交互的细粒度可控生成。
- 自己发现的局限:对比学习机制在正文只一句带过,缺少公式与消融,难判断它独立贡献多少(⚠️ 细节以原文为准);横向比较里本方法主打 1.3B/14B,与闭源 Kling/Pika/VIDU 只在部分指标可比,且闭源模型规模/数据未知,"超过闭源"需带 caveat 看待。
- 改进思路:复合奖励的多个权重(\(w_{fid},w_{qual},\alpha,\beta,\gamma\))都是经验设的,可探索自适应或按 prompt 难度调权;评测仅 180 对、480p,主体数 \(N\) 增大时的可扩展性与失败模式值得补充分析。
相关工作与启发¶
- vs Phantom / ConcatID / SkyReels-A2 / CINEMA:它们都靠"基于注意力的特征注入"把多主体信息塞进预训练扩散模型,但难解决主体-prompt 语义冲突、易掉身份;ID-Crafter 用分层注意力强制多级一致性 + VLM 语义引导 + RL 后训练,从结构和优化两头同时压这对矛盾,FaceSim 优势明显。
- vs DPO / DenseDPO(离线 RL):离线偏好优化吃静态配对数据、无法在线更新参数;本文走在线 GRPO 主动探索生成空间,实验里在线全面优于离线 DPO。
- vs Flow-GRPO / DanceGRPO / Identity-GRPO:本文承接 Flow-GRPO 的 groupwise 优势估计思路,但首次把在线 RL 用到多主体视频生成,并设计了针对身份一致性的任务专属复合奖励(含防 reward hacking 的 NaturalScore),把"无价值网络的 group RL"从图像/单目标场景推到了多主体视频这个更难的设定。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次把在线 RL(GRPO)+ VLM 语义引导 + 分层身份注意力组合用于多主体视频生成,组件虽多为已有思路的迁移,但拼装方式和任务专属奖励设计有新意。
- 实验充分度: ⭐⭐⭐⭐ 主实验 + 三组消融 + 在线 RL 拆解 + 人类偏好研究覆盖较全,但评测集偏小(180 对)、对比学习机制缺独立验证。
- 写作质量: ⭐⭐⭐⭐ 结构清晰、动机层层递进、公式完整;个别处(contrastive learning)展开不足。
- 价值: ⭐⭐⭐⭐ 多主体可控视频生成是高需求方向,1.3B 模型即超 14B 基线,工程与应用价值(主体替换、背景编辑)实在。