Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://wangzhumei.github.io/mocap-2-to-3/ (项目页)
领域: 人体理解 / 单目人体动作恢复 / 扩散模型
关键词: 单目动作捕捉, 多视角提升, 2D 预训练, 绝对位姿, 扩散模型

一句话总结¶

Mocap-2-to-3 把"从单目 2D 姿态恢复 3D 动作"重新表述成多视角合成问题：先用海量 2D 数据预训练一个单视角运动扩散模型、再在少量 3D 数据上做多视角微调，配合解耦的局部姿态/全局位移表征与地面点图约束，从单目输入恢复出带米制绝对位置的全身动作，在 RICH/AIST++ 上同时打败了相机空间与世界坐标的 SOTA。

研究背景与动机¶

领域现状：无标记动作捕捉要支撑与物理世界交互的下游任务（游戏、运动分析、多人交互、具身智能），就必须恢复世界坐标下的绝对位置。单目方案相比多相机系统硬件少、约束少、更实用。现有 SOTA（WHAM、GVHMR、TRAM 等）大多严重依赖在受控环境采集的精确 3D 动捕数据训练。

现有痛点：(1) 高质量 3D 数据昂贵、需专业设备和受控环境，限制了对分布外（OOD）场景的泛化，下游任务往往还得在领域专用数据上微调才准；(2) 多数单目方法只恢复相对全局位置（靠和真值首帧对齐），无法直接部署到需要环境感知和空间推理的真实交互；(3) 从单目观测估计米制尺度位姿本身就病态——深度（Z 轴）无法从 2D 直接推断。

核心矛盾：2D 数据海量易得（互联网视频、估计/标注的 2D 骨架）且动作多样，但缺 3D 监督；3D 数据有精确绝对定位、协调动力学和一致骨骼比例，但稀缺且受控。如何"两头通吃"——既借 2D 的多样性提泛化、又借 3D 的几何约束保精度？

本文目标：从单目 2D 姿态序列恢复带绝对米制位置、且动作细节精细的全身 3D 动作，并对 OOD 动作有强泛化。

切入角度：受 Motion-2-to-3 启发，不再"直接回归 3D"，而是把 3D 动作重新表述为多视角合成过程——从单目输入合成其它虚拟视角的 2D 动作，再三角化成 3D。这样就能让训练拆成"2D 预训练 + 3D 多视角微调"两段，把 2D 数据的多样性注入进来。

核心 idea：用"多视角提升"替代"直接 3D 回归"，配合解耦运动表征和地面点图约束，从单目恢复米制绝对位姿。

方法详解¶

整体框架¶

Mocap-2-to-3 是一个把单目 2D 姿态提升为全局一致 3D 动作的扩散框架。训练分两段：先用大量 2D 数据预训练一个任意单视角的 2D 运动扩散模型 \(\mathcal{D}_{2D}\) 建立运动先验；再用公开 3D 数据投影出的多视角 2D 监督做微调，插入 View Attention 层强制跨视角一致性，得到多视角扩散模型 \(\mathcal{D}_{mv}\)。为恢复世界坐标下的绝对位置，作者用一种解耦的运动表征把局部姿态和全局位移分开学习，并把相机位姿算出的地面方程编码成点图（pointmaps）作为条件输入以加速收敛。推理时给定单目 2D 输入，模型为各虚拟视角生成 2D 动作、经三角化重建带绝对位置的 3D 动作。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单目 2D 姿态序列输入<br/>（SMPL / COCO / H36M 格式）"] --> B["多视角提升 + 两阶段训练<br/>2D 预训练 → 多视角微调（View Attention）"]
    B --> C["解耦运动表征<br/>局部姿态 Ml + 全局位移 Mτ=[τ,s]"]
    C --> D["地面约束编码<br/>相机位姿→地面点图，加速收敛"]
    D --> E["多视角三角化"]
    E --> F["带绝对米制位置的<br/>全身 3D 动作"]

关键设计¶

1. 多视角提升 + 两阶段训练：用 2D 数据的多样性弥补 3D 数据的稀缺

痛点是只用受限的 3D 数据训练会导致 OOD 泛化差。作者把 3D 动作重写成多视角合成：第一阶段训一个 Transformer 扩散模型 \(\mathcal{D}_{2D}\)，输入随机噪声 \(\epsilon\)、输出 2D 运动序列 \(M\in\mathbb{R}^{T\times J\times2}\)（\(T\) 帧、\(J\) 关键点），学会从任意相机视角生成 2D 动作——这一步用真实/公开 2D 视频建立跨视角的运动先验，并加速后续收敛。第二阶段把 \(\mathcal{D}_{2D}\) 权重初始化到多视角模型 \(\mathcal{D}_{mv}\)，视角数 \(V=4\)（一个主相机 \(V_0\) 用于推理 + 三个虚拟相机，位姿从预训练见过的相机位姿随机采样），把 3D 动作投影到各视角得到几何一致的 2D 监督。因为无需图像对作输入，可对已有 3D 动作做旋转/平移/视角增强（pitch/yaw/roll/距离），从少量样本生成大规模虚拟训练数据。\(\mathcal{D}_{mv}\) 用 View Attention 层强制跨视角一致，输入主视角 2D 嵌入 \(M_0\) 和相机内外参 \(K,RT\)，生成各虚拟视角 2D 动作后三角化为 3D。扩散架构相比确定性回归骨干更擅长建模复杂分布、产出跨视角多样而连贯的样本。

2. 解耦运动表征：让位置不再压过动作细节

直接从给定视角预测投影后的全局坐标会失败：位置对 loss 的影响远大于骨架结构，网络会偏向位置线索而牺牲动作细节。作者提出把局部姿态和全局位移解耦独立优化。局部姿态 \(M_l\in\mathbb{R}^{T\times(J-1)\times2}\)（不含根关节位置）通过在包围盒内裁剪 2D 姿态、归一化到 \([-1,1]\)、把根关节中心化得到，去除根位置影响；全局位移 \(M_\tau=[\tau,s]\in\mathbb{R}^{T\times2\times2}\) 由根轨迹 \(\tau\)（包围盒中心的像素坐标）和运动尺度 \(s\)（水平/垂直方向的包围盒尺度）组成。多视角模型预测 \(M_v\in\mathbb{R}^{V\times T\times(J+1)\times2}\)，含根中心化局部姿态 \(M_v^l\) 和全局位移 \(M_v^\tau\)。从局部到全局坐标的变换为 \(\mathcal{M}_{v,\{1:J\}}^{g}=M_v^l\cdot s_v+\tau_v\)，再与根坐标拼接 \(\mathcal{M}_v^g=[\tau_v,\mathcal{M}_{v,\{1:J\}}^{g}]\)；多视角 \(\mathcal{M}_v^g\) 经相机参数和三角化重建绝对 3D 位姿。这样动作和轨迹各学各的，既全局一致又保留细节。

3. 地面约束编码：用点图把物理世界几何灌进网络、加速收敛

单目下深度有歧义，从源视角 \(V_0\) 学其它视角的 2D 运动位置即便给了相机嵌入也收敛很慢。作者引入显式几何约束：用已知相机位姿计算地面平面，表示成点图 \(P\in\mathbb{R}^{W\times H\times3}\)——把图像每个像素 \((u,v)\) 映射到世界坐标 3D 点 \((x_w,y_w,z_w)\)，每点是相机中心射线与地面的交点，形成视角相关的地面点云。注意只取地面而非完整环境点云，因为点图可直接由相机内外参算出、无需额外传感器或真值扫描，便于真实部署。点图先经 ResNet-18 编码成特征，再通过 View Attention 层（学跨视角相关）和 Cross Attention 层（引导运动 \(M_v\) 生成）整合进 \(\mathcal{D}_{mv}\)。它给网络提供了自然的 2D-到-3D 跨视角对应，是即插即用模块，可加速任意多视角全局估计任务的位置学习收敛。

损失函数 / 训练策略¶

2D 预训练用两类数据：HumanML3D 投影的 2D 关节（每批单随机视角）+ 与测试集同源的 2D 数据（如 RICH 训练集）；多视角微调用 HumanML3D、BEDLAM、Human3.6M。推理为 \(N\) 步去噪：每步 \(\mathcal{D}_{mv}\) 输入 \([\epsilon,M_0,K,RT,P]\) 预测 \(M_v^n\)，经 Eq.(1) 变换到 \(\mathcal{M}_v^{gn}\)、三角化得 3D 绝对位姿 \(W_{3d}^n\)，再投影回各视角重算 \(M_v^{ln}/M_v^{\tau n}\) 更新下一步，强制多视角一致；末步得带全局位置的 \(W_{3d}^0\)。如需 SMPL 参数，可用 SMPLify 作后处理拟合。

实验关键数据¶

训练用 HumanML3D（含 HumanAct12、AMASS）、BEDLAM、Human3.6M；评测用 RICH（户外）和 AIST++（室内舞蹈），含坐、躺、倒立等训练集少见动作，专测泛化。

指标说明：相机坐标系用根对齐 MPJPE 与 Procrustes 对齐 PA-MPJPE 评姿态精度；世界坐标用 W-MPJPE（前两帧对齐）、WA-MPJPE（全序列对齐）评全局轨迹；因本文预测绝对位置，还用 Abs-MPJPE（无任何对齐）；另有根平移误差 \(T_{root}\)、运动平滑度 Accel/Jitter、脚部滑动 FS。位置误差单位 mm，均越低越好。

主实验¶

RICH 上 SMPL 关键点提升（用真值 2D 关键点输入做公平比较）：

方法	PA-MPJPE↓	MPJPE↓	W-MPJPE↓	WA-MPJPE↓	Abs-MPJPE↓	Accel↓	FS↓
SMPLify*	83.8	155.3	284.4	165.7	406.2	28.6	57.9
WHAM*	40.1	74.4	182.5	106.1	–	4.9	3.5
GVHMR*	33.6	58.9	110.0	68.4	–	3.8	2.5
TRAM*†	36.3	67.1	169.3	107.9	533.8	4.3	27.6
GVHMR+SMPLify*†	30.7	58.7	109.4	68.6	430.4	3.7	5.6
Ours†	26.2	39.6	82.6	50.1	156.8	2.5	3.5

相比当前最强范式 GVHMR+SMPLify，本文 PA-MPJPE 降 4.5mm（动作细节更强），世界坐标带时间对齐的全局轨迹也更优；和同样用标定相机位姿的方法（†）比，Abs-MPJPE 大幅领先（156.8 vs 430.4），且无需 SA-HMR 那样的场景扫描。⚠️ FS（脚滑）3.5 略高于 GVHMR 的 2.5，因为本文没像 GVHMR 那样做脚滑后处理优化（作者列为 future work）。

AIST++ 上 COCO 关键点提升（用 ViTPose 检测器输入）：

方法	PA-MPJPE↓	MPJPE↓	Troot↓
MotionBERT	108.6	134.0	101.6
WHAM*	75.1	104.8	164.3
GVHMR+SMPLify*†	62.2	102.8	112.3
MVLift	79.2	110.7	67.6
Ours†	60.1	90.9	61.8

在动作精度（PA-MPJPE）和全局轨迹（\(T_{root}\)）上同时优于纯 2D 训练的 MVLift 和 GVHMR+SMPLify，证明框架可泛化到 COCO 骨架与高难度舞蹈动作。

消融实验（RICH）¶

配置	PA-MPJPE↓	MPJPE↓	Abs-MPJPE↓	W-MPJPE↓	Epoch
w/o decouple	65.1	121.3	544.2	161.2	–
w/o pointmaps	45.8	85.6	373.9	121.8	3.5k
w/o pointmaps	33.4	52.3	182.5	103.7	8k
w/ pointmaps	30.5	45.3	157.9	88.6	3.5k
w/ 2D RICH	26.2	39.6	156.8	82.6	3.5k

关键发现¶

解耦表征是地基：去掉解耦（第 1 行）PA-MPJPE 飙到 65.1、Abs-MPJPE 544.2，因为位置信号压过了动作细节学习。
点图主要加速收敛：同为 3.5k epoch，有点图（30.5）远好于无点图（45.8）；但把无点图训到 8k epoch 能追到相当水平（33.4）——说明点图非必需，却能省一半以上训练时间。
2D 域内数据小补一刀就显著提质：预训练时仅加入 175 段域内 RICH 2D 序列，PA/MPJPE 进一步从 30.5/45.3 提到 26.2/39.6；即便不加，本文也已超过 GVHMR+SMPLify，印证了"2D 数据增强 3D 估计"的有效性。

亮点与洞察¶

把 3D 回归改写成多视角合成，是个换框架的巧思：一举把"海量 2D 数据"接入了 3D 动捕训练，OOD 泛化的根因（3D 数据稀缺）被绕开。
解耦"局部姿态 vs 全局位移"直击 loss 失衡：位置量纲大会淹没骨架细节，分开优化让两者各得其所，这个观察对任何同时预测轨迹+姿态的任务都通用。
地面点图是即插即用的几何先验：只用相机位姿就能算、不需扫描或额外传感器，把"加速收敛"和"易部署"统一在一个轻量条件模块里。
格式无关：同框架重训即可提升 SMPL/COCO/H36M 任意 2D 骨架格式，工程通用性强。

局限与展望¶

依赖 2D 输入质量：从原始视频估的不准 2D 骨架会拖累 3D 重建——作者强调这非框架本身缺陷（给可靠 2D 即工作良好），并计划在训练中引入检测置信度提升鲁棒性。
脚滑（FS）略逊于做了后处理的 GVHMR，作者计划补脚滑约束等几何项。
⚠️ 主实验为公平比较多用真值 2D 关键点（SMPL 部分）或 ViTPose 检测（COCO 部分），端到端从原始视频的整体精度未在主表充分展开。
需要标定的相机位姿（†），在完全无标定的野外场景适用性受限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "多视角合成替代 3D 回归 + 解耦表征 + 地面点图"三件套组合出一个能从单目恢复米制绝对位姿的新范式。
实验充分度: ⭐⭐⭐⭐ RICH/AIST++ 双数据集、相机/世界/绝对三套坐标、SMPL/COCO 双格式、消融清晰；端到端原始视频整体精度展开略少。
写作质量: ⭐⭐⭐⭐ 动机层层递进、表征与点图讲得透；部分推理/相机配置细节放在补充材料。
价值: ⭐⭐⭐⭐⭐ 解决了"米制绝对定位 + OOD 泛化"的真实痛点，且用易得 2D 数据降低 3D 依赖，对游戏/具身交互很有用。