HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis¶

会议: CVPR 2026
论文: CVF Open Access
领域: 视频生成 / 扩散模型 / 手物交互
关键词: 手物交互视频生成、3D ControlNet、点云条件、CogVideoX、Sim-to-Real

一句话总结¶

HVG-3D 给图生视频扩散模型（CogVideoX-5B-I2V）接上一个吃 3D 点云序列与 3D 跟踪信号的 ControlNet，再配一条能同时从真实视频和仿真器构造条件的混合数据管线，让模型只用一张真实图 + 一段 3D 条件就能生成几何正确、时序连贯、可被仿真数据驱动的手物交互视频，在 TASTE-Rob 上取得 SOTA。

研究背景与动机¶

领域现状：基于扩散的视频生成（Sora、CogVideoX、Hunyuan Video 等）已经能产出高质量、时序一致的视频，因此一批工作把它用到「手物交互（Hand-Object Interaction, HOI）视频生成」上——这类视频对机器人抓取策略学习很有价值，相当于用生成模型批量造训练数据。

现有痛点：这些 HOI 生成方法几乎都靠 2D 控制信号来引导——点轨迹、光流、bounding box、mask。2D 信号天生缺乏空间表达力：它只给出部分的运动与几何线索，导致生成时常出现不真实的形变和物理上不成立的接触（手穿模、物体被捏扁）。更要命的是这些 2D 条件大多得从真实视频里抽，难以利用仿真器高效生成的合成数据，数据采集和标注成本居高不下。

核心矛盾：视觉真实感和精确物理控制之间存在张力。即使是较新的工作（如 Diffusion as Shader, DaS）已经开始引入 3D 跟踪视频做更丰富的运动引导，但它最终还是把 3D 线索投影回 2D 视频序列喂给模型，这一步投影丢掉了 3D 空间结构和深度关系——尤其遮挡严重、需要垂直于桌面运动（折叠、抬起）时，2D 表征根本撑不住深度推理。

本文目标：让视频扩散模型原生地吃 3D 条件，从而（1）提升手物交互的真实性与物理合理性；（2）打通仿真器，让合成的 3D 序列也能直接驱动生成，实现可扩展的数据生产。

核心 idea：用显式 3D 表征（点云序列 + 3D 跟踪）作为条件，通过一个专门的 3D ControlNet 把几何与运动线索注入冻结的图生视频骨干，并用一条混合管线让「真实 image + 来自真实或仿真的 3D 条件」可以自由配对——以此在「真实域」和「仿真域」之间架桥。

方法详解¶

整体框架¶

HVG-3D 解决的是「3D 条件下的手物交互图生视频（I2V）」任务：给一张真实输入图 \(I_0 \in \mathbb{R}^{H\times W\times 3}\)、一段表示 \(T\) 帧手物几何的 3D 点云序列 \(P=\{P_t\}_{t=1}^{T}\)（\(P_t\in\mathbb{R}^{N\times 3}\)）、以及一段可选的 3D 跟踪序列 \(\mathcal{T}=\{T_t\}_{t=1}^{T}\)，目标是生成视频 \(V_{out}=\{I_t\}_{t=1}^{T}\)，既视觉真实、时序连贯，又忠实遵守 3D 空间约束。

整套系统由两大块拼成：右半边是 3D-aware 扩散生成架构——以冻结的 CogVideoX-5B-I2V 为骨干，外挂一个可训练的 3D 点云 ControlNet，把点云与跟踪信号编码后通过零初始化层注入每一个 DiT block；左半边是混合数据管线——负责从真实视频或仿真器里恢复/构造出配对的「输入图 + mask + 点云 + 跟踪」，让训练和推理阶段都能灵活换条件源。最后再用一个聚焦手物区域的 mask 扩散损失把训练拉到关键区域上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实图 I0 + 真实视频/仿真序列"] --> B["混合数据管线<br/>检测→SAMURAI分割<br/>→VGGT重建点云"]
    B --> C["3D 点云序列 + 3D 跟踪序列"]
    C --> D["3D 点云 ControlNet<br/>点云编码+零初始化注入"]
    D -->|逐层注入| E["冻结 CogVideoX DiT 骨干"]
    A --> E
    E --> F["Mask 扩散损失<br/>聚焦手物区域"]
    F --> G["VAE 解码 → 输出视频"]

关键设计¶

1. 3D 点云 ControlNet：把显式 3D 几何注入冻结的视频骨干，而不是先投影回 2D

这一设计直击「2D 条件丢深度」的痛点。骨干用 CogVideoX-5B-I2V：输入图 \(I_0\) 与训练时的真值视频 \(V_{gt}\) 经 VAE 编码为隐变量 \(Z_{I_0}, Z_{gt}\in\mathbb{R}^{T\times \frac{H}{8}\times\frac{W}{8}\times 16}\)，图隐变量在时间维零填充到长度 \(T\) 后与加噪的 \(Z_{gt}\) 拼接，交给 Diffusion Transformer 迭代去噪，再由 3D VAE 解码出 \(V_{out}\)。条件侧，给定点云序列 \(P\in\mathbb{R}^{T\times N\times 3}\)，用一个点云编码器得到隐特征 \(Z_{pc}\in\mathbb{R}^{T\times L\times 768}\)（\(N\) 是点数、\(L\) 是 latent token 数），同时把 3D 跟踪信息编码为 \(Z_{tracking}\in\mathbb{R}^{T\times\frac{H}{8}\times\frac{W}{8}\times 16}\)。为了让异构条件能对齐，\(Z_{pc}\) 先过一个可学习线性层并重采样到与 \(Z_{tracking}\)、\(Z_{gt}\) 相同的维度，再拼接送进 ControlNet。

ControlNet 的结构是把骨干所有预训练 DiT block 复制一份专门学条件，每层输出经一个零初始化卷积后注入对应的主干 DiT block。零初始化保证训练初期注入项为 0、不破坏预训练能力，再逐渐学会把 3D 线索灌进去。和 DaS 那种「把 3D 投成 2D 图再当条件」不同，这里点云全程保持 3D 结构，扩散模型相当于被当成一个神经渲染器直接读 3D，因此在严重遮挡、复杂关节运动下的空间一致性和物理合理性明显更好。

2. 混合数据管线：在真实域与仿真域之间架桥，让一张真实图配上任意来源的 3D 条件

痛点是「2D 条件得从真实视频抽、用不上仿真数据」。HVG-3D 设计了一条三阶段管线（训练数据构造 → 训练 → 推理）来打通两域。训练阶段，TASTE-Rob 本身缺 mask 和点云标注，作者就从单目第一视角 RGB 视频里恢复这些信号：用「帧间差分图（应对静态背景）+ YOLOv8-X 检测（应对动态手部）」抽手和物体的 bounding box，用 SAMURAI 以 box 初始化并双向细化得到时序一致的实例 mask，融合成逐帧手物分割；再用 VGGT 在视频帧 + mask 上重建出逐帧点云 \(P\in\mathbb{R}^{T\times N\times 3}\)，3D 跟踪序列则由 SpatialTracker 估计。

真正的价值在推理阶段的条件源可换：模型只需一张真实图 + 一段 3D 条件，这段条件既可以（1）用训练同款管线从真实视频里抽，也可以（2）来自仿真——在 Blender 里编辑/生成 3D 手物网格序列、或直接采样 ARCTIC、HOT3D 这类现成 3D HOI 数据集。所有 3D 网格序列都会被处理成兼容的点云（必要时含跟踪序列），无缝接进同一个条件接口。这意味着可以在 Blender 里编出训练集里根本没有的新手物动作，再让模型「渲染」成真实视频——这正是「桥接真实与仿真」、低成本扩数据的关键。

3. Mask 扩散损失：把学习重心压到手物交互区域，抗背景干扰并加速收敛

显式 3D 条件给了强几何控制，但在杂乱场景里压不住背景干扰。作者借鉴 StableAnimator，在标准扩散损失上加了一个 mask 加权的重建项：

\[\mathcal{L}=\sum_{i=1}^{n}\mathbb{E}_{\varepsilon}\big\|(Z_{gt}-Z_{\varepsilon})\odot(1+M^{i})\big\|^{2}\]

其中 \(Z_{gt}\)、\(Z_{\varepsilon}\) 是真值与预测的视频隐变量，\(M^{i}\in\{0,1\}^{1\times H\times W}\) 是第 \(i\) 帧的手物 mask。\((1+M^i)\) 让落在手物区域的误差权重翻倍、背景仍保持权重 1，于是模型被逼着先把交互关键区域学准，而不是把注意力均摊到整张场景上。消融显示这一项不光提质，还能在相同 epoch 下更快收敛、对复杂场景里的其它物体更鲁棒。

损失函数 / 训练策略¶

训练时只微调复制出来的条件 DiT block，原去噪 DiT 骨干全程冻结以保住预训练的视频生成能力。每段视频中心裁剪并 resize 到 \(720\times 480\)、定长 49 帧；每个训练样本含输入图 \(I_0\)、真值视频 \(V_{gt}\)、手物 mask 序列、点云序列 \(P\)、跟踪序列。优化器 AdamW，学习率 \(1\times10^{-4}\)，训 20 epoch，用梯度累积达到有效 batch size 4，全程 8 张 H20 GPU。

实验关键数据¶

数据集为 TASTE-Rob（第一视角手物交互），取 Single Hand 子集中 office/dining/bedroom/kitchen/dressing table 场景，从每场景采 2% 候选再随机抽 100 段构成测试集。评测分两类：图像质量（L1、PSNR、SSIM、LPIPS、CLIP、FID、C-FID）和时空相似度（FVD、ST-SSIM、GMSD-T）。

主实验¶

全帧（Full Frame）评测下，HVG-3D 取得最低 FVD（13.8）、最低 FID（58.2）、最高 CLIP（0.96）和最好 GMSD-T（0.40）；部分逐像素指标略逊于 DaS，但下表的手物 mask 区域评测里全面领先——这块才是真正的交互关键区。

评测范围	方法	PSNR↑	SSIM↑	LPIPS↓	ST-SSIM↑	FID↓	C-FID↓
全帧	DaS	24.83	0.84	0.191	0.96	75.5	14.6
全帧	InterDyn	24.13	0.82	0.205	0.95	73.3	17.8
全帧	HVG-3D	24.15	0.81	0.193	0.97	58.2	14.6
手物区域	DaS	17.41	0.96	0.039	0.88	128.0	16.0
手物区域	InterDyn	19.03	0.96	0.034	0.92	104.5	14.5
手物区域	HVG-3D	19.08	0.97	0.032	0.93	88.5	13.1

定性上，只有 HVG-3D 能在保持手和物体形状不变的前提下完成指定操作；DaS 对桌面内平移尚可，一旦涉及折叠或垂直桌面的运动就出现明显形变，InterDyn 更不稳定，而 CogVideoX/Wan2.2/Kling/Sora2 这类通用大模型则难以可靠完成操作。

消融实验¶

配置	PSNR↑	SSIM↑	LPIPS↓	ST-SSIM↑	说明
full model	24.15	0.81	0.193	0.97	完整模型
w/o 3D 点云	18.44	0.37	0.5957	0.91	去掉点云条件，崩得最狠
w/o 3D 跟踪	22.76	0.75	0.2054	0.95	接触/轨迹对齐变差
w/o mask 损失	22.09	0.80	0.199	0.96	收敛变慢、抗干扰下降

关键发现¶

3D 点云条件贡献最大：去掉后 SSIM 从 0.81 暴跌到 0.37、LPIPS 从 0.193 飙到 0.5957，深度感知一旦缺失，需要折叠/垂直运动的场景里手物形状会严重扭曲——这正印证了 2D 条件做不了深度推理的论断。
3D 跟踪是互补的视角信息：去掉后物体形状还算合理，但接触位置和运动轨迹的空间对齐变差；由于模型本是带点云训练的，跟踪的缺失说明它编码了帮助点云表征学得更好的相机视角线索。
mask 损失主要加速收敛、提升抗干扰：相同 epoch 下去掉它各项指标一致变差，因为模型会把注意力摊到整个场景而非聚焦交互区。
mask 区域 FVD 进一步降到 9.6（全帧为 13.8），而其它方法在 mask 区域反而普遍退化，说明 HVG-3D 的优势恰在交互最关键的局部。

亮点与洞察¶

把「3D 投 2D 再生成」翻转成「让扩散模型当神经渲染器直接读 3D」：这是相对 DaS 的核心区别——保住点云全程的 3D 结构，遮挡和垂直运动场景因此受益最大，是很可迁移的思路。
真实/仿真同接口：同一条件接口既吃真实视频重建的点云，又吃 Blender 编辑或 ARCTIC/HOT3D 采样的合成序列，意味着可以在仿真里编出训练集没有的新动作来「渲染」真实视频，给机器人数据生产提供了低成本扩展路径。
全冻结骨干 + 零初始化注入：只训复制出的条件 DiT block，既保住大模型预训练能力又稳住训练，是 ControlNet 范式在视频 I2V 上的干净落地。
mask 加权损失的 \((1+M)\) 写法很轻量却同时换来「提质 + 加速收敛 + 抗背景干扰」三重收益，可直接迁移到其它区域敏感的生成任务。

局限与展望¶

强依赖 3D 条件质量：训练点云由 VGGT 从单目视频重建、跟踪由 SpatialTracker 估计，这些上游若在重遮挡/快速运动下出错，会直接传导到生成；论文未量化 3D 条件噪声的鲁棒性。
仅在 TASTE-Rob 单数据集、单手、定长 49 帧上验证，场景类别有限（5 类），跨数据集泛化与长序列生成未充分检验（作者也把长序列、更多交互场景列为未来工作）。
全帧逐像素指标略逊于 DaS：作者把领先点集中在 mask 区域，但若下游关心整帧质量（如背景一致性），这一权衡需注意。
未闭环到机器人策略：论文定位是为抓取策略造数据，但没给出「生成视频实际提升下游策略学习」的端到端证据，作者将闭环集成列为未来方向。
改进方向：引入对 3D 条件噪声的鲁棒训练、跨数据集联合训练、以及把生成数据真正接进机器人模仿学习做闭环验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把显式 3D 点云条件原生注入视频扩散、并用混合管线桥接真实与仿真，思路清晰且针对性强
实验充分度: ⭐⭐⭐ 主实验+三项消融到位且自洽，但仅单数据集、未验证跨域泛化与下游闭环
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，图表清楚（个别 typo 不影响理解）
价值: ⭐⭐⭐⭐ 为机器人抓取数据生产提供了可被仿真驱动的可控视频生成路径，应用前景明确