Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（项目页 https://hgzn258.github.io/SCAR/）
领域: 视频生成 / 手物交互
关键词: 手物交互, 视频生成, 接触感知表征, 联合生成, 扩散 Transformer

一句话总结¶

SCAR 提出一种「结构+接触感知」的 2D HOI 表征（接触增强的手物轮廓 + 深度图），并用一个「联合生成」范式让扩散 Transformer 同时去噪 RGB 视频和该表征，从而在不依赖 3D 标注的情况下学到符合物理约束的手物交互，并能泛化到开放世界场景。

研究背景与动机¶

领域现状：手物交互（Hand-Object Interaction, HOI）视频生成的任务是：给定一张观测图和一句任务指令（如「用橡皮擦擦碗」），合成一段手操纵物体的视频，要求接触、遮挡等物理关系真实，时序连贯。主流做法是把某种「HOI 表征」当作辅助生成目标，引导视频合成捕捉交互的物理线索。

现有痛点：HOI 表征卡在一个「可扩展性 vs 交互保真度」的两难里。可扩展的 2D 表征——光流、手物分割掩码、2D 手部关键点——便宜好拿，但缺两样关键信息：整体的结构上下文（深度/遮挡关系）和手物接触区域。反过来，3D mesh / MANO 参数序列结构完整、保真度高，却依赖昂贵的 3D 标注（动捕等），无法 scale up。更糟的是，这些方法大多走「多阶段」范式（先预测表征、再据此生成视频），训练时用真值输入、推理时却喂上一阶段的预测，导致误差逐级累积，物理真实性和画质都受损。

核心矛盾：既要表征可大规模获取（避开 3D 标注），又要它同时编码接触区域 + 手物空间定位 + 整体结构上下文，单一的 2D 或 3D 表征都做不到；同时多阶段串行又会累积误差。

本文目标：(1) 设计一种无需 3D 标注、却能同时表达接触/定位/结构的可扩展 2D 表征；(2) 用一种避免误差累积的范式来利用这种表征。

切入角度：作者观察到，接触区域可以用「手轮廓与物体轮廓在膨胀后相交」这个朴素几何代理来近似，而整体结构可以用视频一致的相对深度估计补上——两者都不需要 3D 真值，且都能做成「类视频」的稠密图，从而能和 RGB 视频塞进同一个潜空间一起生成。

核心 idea：用「接触增强轮廓 + 深度图」这种可扩展 2D 表征替代昂贵 3D 表征，并让视频和该表征在统一潜空间里被同一个去噪器「联合生成」，把误差累积从根上去掉。

方法详解¶

整体框架¶

SCAR 分两大块。第一块是表征构造管线（离线为训练数据自动标注）：从 RGB 视频出发，先用 CoT 引导的 VLM 定位手和物体、再用 SAM2 传播出逐帧手物掩码；由掩码估计出「接触增强的手物轮廓」，并行用视频深度估计器得到深度图，二者 alpha 混合成最终 HOI 表征。第二块是联合生成范式：用 3D VAE 把 RGB 视频和 HOI 表征编码进同一个潜空间，拼成单条 token 序列，由一个「分层联合去噪器」同时去噪视觉 token 和交互 token——其中前若干层做「共享语义」对齐、后若干层做「专属细节」分化，最后两路分别经 VAE 解码出视频和表征。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["RGB 视频 + 任务指令"] --> B["接触增强表征构造<br/>VLM+SAM2→轮廓膨胀相交→接触区<br/>并行视频深度→alpha 混合"]
    B --> C["统一潜空间<br/>3D VAE 编码<br/>视觉 token ⊕ 交互 token"]
    C --> D["分层联合去噪器<br/>共享语义模块：对齐损失"]
    D --> E["分层联合去噪器<br/>专属细节模块：交互嵌入"]
    E --> F["VAE 解码<br/>生成视频 + HOI 表征"]

关键设计¶

1. 结构+接触感知表征：用两个可扩展 2D 分量同时补上接触与结构

这是针对「2D 缺接触/结构、3D 缺扩展性」两难的正面回应。表征由两个互补分量 alpha 混合而成：① 接触增强的手物轮廓，编码手物接触区域和空间定位；② 深度图，提供整体结构上下文。作者特意选稀疏轮廓而非稠密掩码，因为 alpha 混合时稀疏轮廓能保留底下的深度信息，稠密掩码会把深度盖住。接触区域的估计是整套表征里最巧的一步：先把手、物掩码各自细化成薄轮廓 \(E_h, E_o\)，再分别膨胀——手用固定半径 \(r_h\)，物体用一个尺度自适应半径 \(r_o = \min(r_{\max}, \max(r_{\min}, \beta \cdot L))\)（\(L\) 是物体包围盒对角线长，\(\beta\) 是比例系数，整体夹在 \([r_{\min}, r_{\max}]\) 里以稳健应对物体尺度的剧烈变化）；接触区 \(C\) 就定义为两个膨胀轮廓的交集 \(C = \mathrm{dilate}(E_{\text{hand}}, r_h) \cap \mathrm{dilate}(E_{\text{object}}, r_o)\)。这个「膨胀求交」的几何代理简单到几乎零成本，却能可靠地圈出接触区，从而把昂贵的 3D 接触标注换成可大规模生成的 2D 信号——作者据此为 10 万+ HOI 视频构造了表征。

2. 表征构造管线：VLM-CoT 接地 + SAM2 传播，自动化但留人工校验

接触表征要可扩展，前提是能自动从原始视频里把手和物体抠出来。管线先用一个大 VLM 配合精心设计的链式思维（CoT）提示来定位手和物体——CoT 引导模型依次核对「文本意图→视觉交互线索→时序运动」，比专用检测器在开放词表物体、含干扰项的复杂场景下更可靠；接着用接地得到的框去提示 SAM2，抽取并逐帧传播出手、物掩码。深度分量则用一个视频一致的深度估计器逐帧给出——这类模型虽是尺度模糊（scale-ambiguous）的，但相对深度序非常可靠，正好满足「提供与绝对尺度无关的结构上下文」的需求。整条流水线自动跑完后还接一道人工核验环节修正掩码，保证训练标注质量。

3. 联合生成范式 + 分层联合去噪器：在统一潜空间里同时生视频和表征，干掉误差累积

这一条直击多阶段范式的误差累积。做法是用 3D VAE 把 RGB 视频 \(V_{\text{RGB}}\) 和 HOI 表征 \(V_{\text{HOI}}\) 编码成视觉 token \(X_{\text{RGB}}\) 与交互 token \(X_{\text{HOI}}\)，拼成一条序列 \(Z = (X_{\text{RGB}} \oplus X_{\text{HOI}})\)，由一个建在 DiT 上的去噪器同时去噪——训练时 \(Z\) 被加噪成 \(Z_t = \sqrt{\bar\alpha_t} Z + \sqrt{1-\bar\alpha_t}\,\varepsilon\)，去噪器学着预测噪声 \(\hat\varepsilon\)；推理时从纯噪声反推出干净 token 再解码，一次性产出视频和表征。去噪器内部是「共享+专属」两段式：共享语义模块（第 1 到 \(k^*\) 层）用对齐损失逼两路隐状态在第 \(k^*\) 层对齐——最大化对应视觉/交互 token 隐状态的余弦相似度 \(L_{\text{align}} = \sum_{m=1}^{S}\left(1 - \frac{H_{k^*}^m \cdot H_{k^*}^{S+m}}{\|H_{k^*}^m\|\,\|H_{k^*}^{S+m}\|}\right)\)（\(S\) 为视觉 token 总数），迫使该段学到视频与表征共享的、与模态无关的语义（空间布局、时序动态）；专属细节模块（\(k^*+1\) 层起）解除该约束，只给交互 token 隐状态加一个可学习的交互嵌入 \(d_{\text{HOI}}\)，注入模态特有的偏置，让网络各自捕捉两路独有的特性。此外每个 DiT 层还有两处适配：给同一时空位置的视觉/交互 token 赋相同的位置编码以显式编码对应关系；并在自注意力的 \(W_Q,W_K,W_V\) 上挂轻量 LoRA，但用二值掩码 \(M\) 只对交互 token 激活 LoRA 更新 \(X_z^\star = P_k W_z + \gamma \cdot \mathrm{diag}(M)\,\mathrm{LoRA}_z(P_k)\)，从而在适配 HOI 生成的同时保住预训练的视觉知识。

损失函数 / 训练策略¶

总损失把对齐损失和两路扩散损失合在一起：\(L = L_{\text{RGB}} + \lambda_{\text{HOI}} L_{\text{HOI}} + \lambda_{\text{align}} L_{\text{align}}\)。其中 \(L_{\text{RGB}}\)、\(L_{\text{HOI}}\) 可基于不同预测目标（原始噪声或 velocity）构造；实验中 \(\lambda_{\text{HOI}}=1.0\)、\(\lambda_{\text{align}}=0.1\)。SCAR 适配到两个预训练视频扩散模型上：CogVideoX-I2V-5B（记 SCAR\(_C\)，LoRA 维度 128）和 Wan2.1-I2V-14B（记 SCAR\(_W\)，LoRA 维度 256），对齐损失都施加在第 12 层 DiT 的隐状态上，保留底座 VDM 的原始 VAE、层数和隐藏维度。

实验关键数据¶

主实验¶

在 Taste-Rob（10 万+ 固定视角 HOI 视频）和 Taco（自我视角双手交互）两个真实数据集上，用 VBench 指标评测（均越高越好）。SCAR 的两个实例在几乎所有指标上都超过通用底座和两阶段方法 FLOVD。

数据集	方法	SC↑	IQ↑	ISC↑	IBC↑	VCS↑	TS↑
Taste-Rob	CogVideoX	0.959	0.688	0.955	0.954	0.187	8.959
Taste-Rob	Wan2.1	0.943	0.700	0.947	0.939	0.185	8.897
Taste-Rob	FLOVD（两阶段）	0.941	0.691	0.949	0.956	0.189	8.888
Taste-Rob	SCAR\(_C\)	0.964	0.696	0.960	0.959	0.193	9.043
Taste-Rob	SCAR\(_W\)	0.961	0.709	0.961	0.958	0.194	9.084
Taco	Wan2.1	0.905	0.717	0.933	0.947	0.189	8.792
Taco	FLOVD	0.903	0.686	0.927	0.947	0.177	8.619
Taco	SCAR\(_W\)	0.912	0.728	0.948	0.952	0.191	8.899

SCAR\(_C\)/SCAR\(_W\) 在两个底座上都稳定优于各自底座，说明方法对底座不挑食。FLOVD 因为初始光流不准、两阶段误差传播，会出现物体身份漂移（如凭空冒出红色物体），ISC（图到视频一致性）尤其差。

消融实验¶

在 Taco 上以 SCAR\(_C\) 为完整模型，对比「换成已有表征」和「拆掉本文表征分量」两类变体（VBench 指标，越高越好）。

配置	SC↑	IQ↑	ISC↑	IBC↑	VCS↑	说明
OF（光流）	0.889	0.660	0.935	0.942	0.177	缺结构/接触，物体会消失
HOM（手物掩码）	0.903	0.689	0.939	0.945	0.181	缺显式接触线索，抓取易失败
DM（仅深度）	0.889	0.682	0.940	0.944	0.180	缺接触，时空一致性差
w/o HOC（去手物轮廓）	0.899	0.689	0.937	0.945	0.181	缺空间定位，物体一致性差
w/o CG（去接触区）	0.906	0.687	0.945	0.948	0.179	精细任务（量杯）失败
w/o DM（去深度）	0.901	0.690	0.939	0.941	0.180	缺整体结构，物体一致性差
+ KP（加 2D 关键点）	0.891	0.691	0.940	0.943	0.183	辅助目标过复杂，反而拖累优化
SCAR（完整）	0.916	0.698	0.951	0.954	0.187	三分量互补

关键发现¶

任意单一已有表征（OF/HOM/DM）都只覆盖交互的一个侧面，全面落后于本文三分量组合；去掉本文任一核心分量（HOC/CG/DM）都掉点，证明三者互补而非冗余。
「越多越好」不成立：额外加 2D 手部关键点（+KP）反而降点，因为过于复杂的辅助生成目标会妨碍优化——表征要的是「全面且面向交互」，不是堆信息。
开放世界泛化：作者另收 200 个含未见物体的开放世界样本，用 Taste-Rob 训的 SCAR\(_W\) 评测；基线在未见物体+干扰项下普遍出现手物畸变、抓错物体、不按指令（如把胡萝卜移「向」杯子而非「移入」），SCAR 仍能生成物理真实且时序连贯、正确执行指令的视频。

亮点与洞察¶

「膨胀求交」当接触区代理是全文最「啊哈」的一笔：把需要 3D 动捕才能拿到的接触信息，换成两条 2D 轮廓膨胀后相交这个几乎零成本的几何操作，且物体半径按包围盒对角线自适应，稳健应对尺度变化——这是把昂贵监督换成可扩展监督的关键。
稀疏轮廓而非稠密掩码的选择很细：alpha 混合时稀疏轮廓不会盖住深度图，保住了结构信息——一个容易被忽略但直接影响表征质量的工程决定。
「共享+专属」两段式去噪把「视频和表征语义耦合、但又各有模态特性」这件事拆得很干净：前段强制对齐学共性、后段解除约束加交互嵌入学个性，比简单地把两路 token 一锅炖更有针对性，这个思路可迁移到任何「主信号 + 辅助结构信号」的联合生成任务。
联合生成替代多阶段：在统一潜空间一次性生成视频与表征，从机制上消除了两阶段方法「真值训练、预测推理」的误差累积，是对一类范式问题的结构性修复。

局限性 / 可改进方向¶

接触区用「膨胀轮廓相交」近似，本质是 2D 启发式代理，对重叠/遮挡严重或薄长物体的真实接触可能估不准；半径 \(r_h\)、\(\beta\)、\([r_{\min}, r_{\max}]\) 均为超参，跨数据集是否稳健未充分讨论。⚠️ 论文未在正文给这些半径的具体取值，以原文/补充材料为准。
深度来自尺度模糊的相对深度估计，只能提供相对结构序，对需要绝对几何的下游（如精确抓取规划）信息可能不够。
表征构造管线依赖 VLM+SAM2 且仍需人工核验掩码，「可扩展」是相对 3D 动捕而言，并非完全免人工。
评测主要用 VBench 的一致性/质量类指标，缺少对「接触/物理是否真实」的直接物理度量，物理真实性更多靠定性图和下游一致性间接体现。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「膨胀求交接触代理」+「视频与表征联合生成」两点组合，正面化解了 HOI 表征长期的扩展性-保真度两难。
实验充分度: ⭐⭐⭐⭐ 两数据集×两底座主实验 + 细致的表征消融 + 200 样本开放世界评测；但缺直接的物理真实性度量，部分定性结论靠补充材料。
写作质量: ⭐⭐⭐⭐⭐ 动机—两难—两个设计的逻辑链清晰，图 1/2/3 把表征构造和联合生成讲得很直观。
价值: ⭐⭐⭐⭐ 为可扩展 HOI 视频生成提供了一条免 3D 标注且能开放世界泛化的实用路线，表征构造与联合生成范式都可复用。