Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无(项目页 https://hgzn258.github.io/SCAR/)
领域: 视频生成 / 手物交互
关键词: 手物交互, 视频生成, 接触感知表征, 联合生成, 扩散 Transformer
一句话总结¶
SCAR 提出一种「结构+接触感知」的 2D HOI 表征(接触增强的手物轮廓 + 深度图),并用一个「联合生成」范式让扩散 Transformer 同时去噪 RGB 视频和该表征,从而在不依赖 3D 标注的情况下学到符合物理约束的手物交互,并能泛化到开放世界场景。
研究背景与动机¶
领域现状:手物交互(Hand-Object Interaction, HOI)视频生成的任务是:给定一张观测图和一句任务指令(如「用橡皮擦擦碗」),合成一段手操纵物体的视频,要求接触、遮挡等物理关系真实,时序连贯。主流做法是把某种「HOI 表征」当作辅助生成目标,引导视频合成捕捉交互的物理线索。
现有痛点:HOI 表征卡在一个「可扩展性 vs 交互保真度」的两难里。可扩展的 2D 表征——光流、手物分割掩码、2D 手部关键点——便宜好拿,但缺两样关键信息:整体的结构上下文(深度/遮挡关系)和手物接触区域。反过来,3D mesh / MANO 参数序列结构完整、保真度高,却依赖昂贵的 3D 标注(动捕等),无法 scale up。更糟的是,这些方法大多走「多阶段」范式(先预测表征、再据此生成视频),训练时用真值输入、推理时却喂上一阶段的预测,导致误差逐级累积,物理真实性和画质都受损。
核心矛盾:既要表征可大规模获取(避开 3D 标注),又要它同时编码接触区域 + 手物空间定位 + 整体结构上下文,单一的 2D 或 3D 表征都做不到;同时多阶段串行又会累积误差。
本文目标:(1) 设计一种无需 3D 标注、却能同时表达接触/定位/结构的可扩展 2D 表征;(2) 用一种避免误差累积的范式来利用这种表征。
切入角度:作者观察到,接触区域可以用「手轮廓与物体轮廓在膨胀后相交」这个朴素几何代理来近似,而整体结构可以用视频一致的相对深度估计补上——两者都不需要 3D 真值,且都能做成「类视频」的稠密图,从而能和 RGB 视频塞进同一个潜空间一起生成。
核心 idea:用「接触增强轮廓 + 深度图」这种可扩展 2D 表征替代昂贵 3D 表征,并让视频和该表征在统一潜空间里被同一个去噪器「联合生成」,把误差累积从根上去掉。
方法详解¶
整体框架¶
SCAR 分两大块。第一块是表征构造管线(离线为训练数据自动标注):从 RGB 视频出发,先用 CoT 引导的 VLM 定位手和物体、再用 SAM2 传播出逐帧手物掩码;由掩码估计出「接触增强的手物轮廓」,并行用视频深度估计器得到深度图,二者 alpha 混合成最终 HOI 表征。第二块是联合生成范式:用 3D VAE 把 RGB 视频和 HOI 表征编码进同一个潜空间,拼成单条 token 序列,由一个「分层联合去噪器」同时去噪视觉 token 和交互 token——其中前若干层做「共享语义」对齐、后若干层做「专属细节」分化,最后两路分别经 VAE 解码出视频和表征。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["RGB 视频 + 任务指令"] --> B["接触增强表征构造<br/>VLM+SAM2→轮廓膨胀相交→接触区<br/>并行视频深度→alpha 混合"]
B --> C["统一潜空间<br/>3D VAE 编码<br/>视觉 token ⊕ 交互 token"]
C --> D["分层联合去噪器<br/>共享语义模块:对齐损失"]
D --> E["分层联合去噪器<br/>专属细节模块:交互嵌入"]
E --> F["VAE 解码<br/>生成视频 + HOI 表征"]
关键设计¶
1. 结构+接触感知表征:用两个可扩展 2D 分量同时补上接触与结构
这是针对「2D 缺接触/结构、3D 缺扩展性」两难的正面回应。表征由两个互补分量 alpha 混合而成:① 接触增强的手物轮廓,编码手物接触区域和空间定位;② 深度图,提供整体结构上下文。作者特意选稀疏轮廓而非稠密掩码,因为 alpha 混合时稀疏轮廓能保留底下的深度信息,稠密掩码会把深度盖住。接触区域的估计是整套表征里最巧的一步:先把手、物掩码各自细化成薄轮廓 \(E_h, E_o\),再分别膨胀——手用固定半径 \(r_h\),物体用一个尺度自适应半径 \(r_o = \min(r_{\max}, \max(r_{\min}, \beta \cdot L))\)(\(L\) 是物体包围盒对角线长,\(\beta\) 是比例系数,整体夹在 \([r_{\min}, r_{\max}]\) 里以稳健应对物体尺度的剧烈变化);接触区 \(C\) 就定义为两个膨胀轮廓的交集 \(C = \mathrm{dilate}(E_{\text{hand}}, r_h) \cap \mathrm{dilate}(E_{\text{object}}, r_o)\)。这个「膨胀求交」的几何代理简单到几乎零成本,却能可靠地圈出接触区,从而把昂贵的 3D 接触标注换成可大规模生成的 2D 信号——作者据此为 10 万+ HOI 视频构造了表征。
2. 表征构造管线:VLM-CoT 接地 + SAM2 传播,自动化但留人工校验
接触表征要可扩展,前提是能自动从原始视频里把手和物体抠出来。管线先用一个大 VLM 配合精心设计的链式思维(CoT)提示来定位手和物体——CoT 引导模型依次核对「文本意图→视觉交互线索→时序运动」,比专用检测器在开放词表物体、含干扰项的复杂场景下更可靠;接着用接地得到的框去提示 SAM2,抽取并逐帧传播出手、物掩码。深度分量则用一个视频一致的深度估计器逐帧给出——这类模型虽是尺度模糊(scale-ambiguous)的,但相对深度序非常可靠,正好满足「提供与绝对尺度无关的结构上下文」的需求。整条流水线自动跑完后还接一道人工核验环节修正掩码,保证训练标注质量。
3. 联合生成范式 + 分层联合去噪器:在统一潜空间里同时生视频和表征,干掉误差累积
这一条直击多阶段范式的误差累积。做法是用 3D VAE 把 RGB 视频 \(V_{\text{RGB}}\) 和 HOI 表征 \(V_{\text{HOI}}\) 编码成视觉 token \(X_{\text{RGB}}\) 与交互 token \(X_{\text{HOI}}\),拼成一条序列 \(Z = (X_{\text{RGB}} \oplus X_{\text{HOI}})\),由一个建在 DiT 上的去噪器同时去噪——训练时 \(Z\) 被加噪成 \(Z_t = \sqrt{\bar\alpha_t} Z + \sqrt{1-\bar\alpha_t}\,\varepsilon\),去噪器学着预测噪声 \(\hat\varepsilon\);推理时从纯噪声反推出干净 token 再解码,一次性产出视频和表征。去噪器内部是「共享+专属」两段式:共享语义模块(第 1 到 \(k^*\) 层)用对齐损失逼两路隐状态在第 \(k^*\) 层对齐——最大化对应视觉/交互 token 隐状态的余弦相似度 \(L_{\text{align}} = \sum_{m=1}^{S}\left(1 - \frac{H_{k^*}^m \cdot H_{k^*}^{S+m}}{\|H_{k^*}^m\|\,\|H_{k^*}^{S+m}\|}\right)\)(\(S\) 为视觉 token 总数),迫使该段学到视频与表征共享的、与模态无关的语义(空间布局、时序动态);专属细节模块(\(k^*+1\) 层起)解除该约束,只给交互 token 隐状态加一个可学习的交互嵌入 \(d_{\text{HOI}}\),注入模态特有的偏置,让网络各自捕捉两路独有的特性。此外每个 DiT 层还有两处适配:给同一时空位置的视觉/交互 token 赋相同的位置编码以显式编码对应关系;并在自注意力的 \(W_Q,W_K,W_V\) 上挂轻量 LoRA,但用二值掩码 \(M\) 只对交互 token 激活 LoRA 更新 \(X_z^\star = P_k W_z + \gamma \cdot \mathrm{diag}(M)\,\mathrm{LoRA}_z(P_k)\),从而在适配 HOI 生成的同时保住预训练的视觉知识。
损失函数 / 训练策略¶
总损失把对齐损失和两路扩散损失合在一起:\(L = L_{\text{RGB}} + \lambda_{\text{HOI}} L_{\text{HOI}} + \lambda_{\text{align}} L_{\text{align}}\)。其中 \(L_{\text{RGB}}\)、\(L_{\text{HOI}}\) 可基于不同预测目标(原始噪声或 velocity)构造;实验中 \(\lambda_{\text{HOI}}=1.0\)、\(\lambda_{\text{align}}=0.1\)。SCAR 适配到两个预训练视频扩散模型上:CogVideoX-I2V-5B(记 SCAR\(_C\),LoRA 维度 128)和 Wan2.1-I2V-14B(记 SCAR\(_W\),LoRA 维度 256),对齐损失都施加在第 12 层 DiT 的隐状态上,保留底座 VDM 的原始 VAE、层数和隐藏维度。
实验关键数据¶
主实验¶
在 Taste-Rob(10 万+ 固定视角 HOI 视频)和 Taco(自我视角双手交互)两个真实数据集上,用 VBench 指标评测(均越高越好)。SCAR 的两个实例在几乎所有指标上都超过通用底座和两阶段方法 FLOVD。
| 数据集 | 方法 | SC↑ | IQ↑ | ISC↑ | IBC↑ | VCS↑ | TS↑ |
|---|---|---|---|---|---|---|---|
| Taste-Rob | CogVideoX | 0.959 | 0.688 | 0.955 | 0.954 | 0.187 | 8.959 |
| Taste-Rob | Wan2.1 | 0.943 | 0.700 | 0.947 | 0.939 | 0.185 | 8.897 |
| Taste-Rob | FLOVD(两阶段) | 0.941 | 0.691 | 0.949 | 0.956 | 0.189 | 8.888 |
| Taste-Rob | SCAR\(_C\) | 0.964 | 0.696 | 0.960 | 0.959 | 0.193 | 9.043 |
| Taste-Rob | SCAR\(_W\) | 0.961 | 0.709 | 0.961 | 0.958 | 0.194 | 9.084 |
| Taco | Wan2.1 | 0.905 | 0.717 | 0.933 | 0.947 | 0.189 | 8.792 |
| Taco | FLOVD | 0.903 | 0.686 | 0.927 | 0.947 | 0.177 | 8.619 |
| Taco | SCAR\(_W\) | 0.912 | 0.728 | 0.948 | 0.952 | 0.191 | 8.899 |
SCAR\(_C\)/SCAR\(_W\) 在两个底座上都稳定优于各自底座,说明方法对底座不挑食。FLOVD 因为初始光流不准、两阶段误差传播,会出现物体身份漂移(如凭空冒出红色物体),ISC(图到视频一致性)尤其差。
消融实验¶
在 Taco 上以 SCAR\(_C\) 为完整模型,对比「换成已有表征」和「拆掉本文表征分量」两类变体(VBench 指标,越高越好)。
| 配置 | SC↑ | IQ↑ | ISC↑ | IBC↑ | VCS↑ | 说明 |
|---|---|---|---|---|---|---|
| OF(光流) | 0.889 | 0.660 | 0.935 | 0.942 | 0.177 | 缺结构/接触,物体会消失 |
| HOM(手物掩码) | 0.903 | 0.689 | 0.939 | 0.945 | 0.181 | 缺显式接触线索,抓取易失败 |
| DM(仅深度) | 0.889 | 0.682 | 0.940 | 0.944 | 0.180 | 缺接触,时空一致性差 |
| w/o HOC(去手物轮廓) | 0.899 | 0.689 | 0.937 | 0.945 | 0.181 | 缺空间定位,物体一致性差 |
| w/o CG(去接触区) | 0.906 | 0.687 | 0.945 | 0.948 | 0.179 | 精细任务(量杯)失败 |
| w/o DM(去深度) | 0.901 | 0.690 | 0.939 | 0.941 | 0.180 | 缺整体结构,物体一致性差 |
| + KP(加 2D 关键点) | 0.891 | 0.691 | 0.940 | 0.943 | 0.183 | 辅助目标过复杂,反而拖累优化 |
| SCAR(完整) | 0.916 | 0.698 | 0.951 | 0.954 | 0.187 | 三分量互补 |
关键发现¶
- 任意单一已有表征(OF/HOM/DM)都只覆盖交互的一个侧面,全面落后于本文三分量组合;去掉本文任一核心分量(HOC/CG/DM)都掉点,证明三者互补而非冗余。
- 「越多越好」不成立:额外加 2D 手部关键点(+KP)反而降点,因为过于复杂的辅助生成目标会妨碍优化——表征要的是「全面且面向交互」,不是堆信息。
- 开放世界泛化:作者另收 200 个含未见物体的开放世界样本,用 Taste-Rob 训的 SCAR\(_W\) 评测;基线在未见物体+干扰项下普遍出现手物畸变、抓错物体、不按指令(如把胡萝卜移「向」杯子而非「移入」),SCAR 仍能生成物理真实且时序连贯、正确执行指令的视频。
亮点与洞察¶
- 「膨胀求交」当接触区代理是全文最「啊哈」的一笔:把需要 3D 动捕才能拿到的接触信息,换成两条 2D 轮廓膨胀后相交这个几乎零成本的几何操作,且物体半径按包围盒对角线自适应,稳健应对尺度变化——这是把昂贵监督换成可扩展监督的关键。
- 稀疏轮廓而非稠密掩码的选择很细:alpha 混合时稀疏轮廓不会盖住深度图,保住了结构信息——一个容易被忽略但直接影响表征质量的工程决定。
- 「共享+专属」两段式去噪把「视频和表征语义耦合、但又各有模态特性」这件事拆得很干净:前段强制对齐学共性、后段解除约束加交互嵌入学个性,比简单地把两路 token 一锅炖更有针对性,这个思路可迁移到任何「主信号 + 辅助结构信号」的联合生成任务。
- 联合生成替代多阶段:在统一潜空间一次性生成视频与表征,从机制上消除了两阶段方法「真值训练、预测推理」的误差累积,是对一类范式问题的结构性修复。
局限性 / 可改进方向¶
- 接触区用「膨胀轮廓相交」近似,本质是 2D 启发式代理,对重叠/遮挡严重或薄长物体的真实接触可能估不准;半径 \(r_h\)、\(\beta\)、\([r_{\min}, r_{\max}]\) 均为超参,跨数据集是否稳健未充分讨论。⚠️ 论文未在正文给这些半径的具体取值,以原文/补充材料为准。
- 深度来自尺度模糊的相对深度估计,只能提供相对结构序,对需要绝对几何的下游(如精确抓取规划)信息可能不够。
- 表征构造管线依赖 VLM+SAM2 且仍需人工核验掩码,「可扩展」是相对 3D 动捕而言,并非完全免人工。
- 评测主要用 VBench 的一致性/质量类指标,缺少对「接触/物理是否真实」的直接物理度量,物理真实性更多靠定性图和下游一致性间接体现。
相关工作与启发¶
- vs 3D mesh / MANO 表征:它们结构完整、保真度高,但依赖昂贵 3D 标注难以 scale;本文用 2D 轮廓+深度无需 3D 标注就编码了接触/定位/结构,牺牲一点几何精度换来可大规模训练(10 万+ 视频)。
- vs 可扩展 2D 表征(光流/分割/2D 关键点):它们便宜但缺接触和整体结构,消融里单独用都明显落后;本文补齐了这两块短板。
- vs 两阶段方法(FLOVD、MaskI2V、Taste-Rob):它们先预测表征/轨迹再生成视频,推理时误差逐级累积(FLOVD 的光流噪声导致物体幻觉);本文用联合生成在同一潜空间一次成型,从机制上回避误差传播。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 「膨胀求交接触代理」+「视频与表征联合生成」两点组合,正面化解了 HOI 表征长期的扩展性-保真度两难。
- 实验充分度: ⭐⭐⭐⭐ 两数据集×两底座主实验 + 细致的表征消融 + 200 样本开放世界评测;但缺直接的物理真实性度量,部分定性结论靠补充材料。
- 写作质量: ⭐⭐⭐⭐⭐ 动机—两难—两个设计的逻辑链清晰,图 1/2/3 把表征构造和联合生成讲得很直观。
- 价值: ⭐⭐⭐⭐ 为可扩展 HOI 视频生成提供了一条免 3D 标注且能开放世界泛化的实用路线,表征构造与联合生成范式都可复用。