EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR¶
会议: CVPR2026
arXiv: 2603.04090
代码: 未开源
领域: 人体理解 (Human Understanding)
关键词: 自我中心姿态估计, Transformer, 半监督学习, 自动标注, AR/VR, 时序建模
一句话总结¶
提出 EgoPoseFormer v2 (EPFv2),通过端到端 Transformer 架构(单一全局查询 + 因果时序注意力 + 条件多视图交叉注意力)和基于不确定性蒸馏的自动标注系统,在 EgoBody3M 基准上以 0.8ms GPU 延迟实现了自我中心 3D 人体运动估计的 SOTA 精度(MPJPE 4.02cm,比前作提升 15-22%)。
研究背景与动机¶
AR/VR 核心需求:自我中心 3D 运动估计是 AR/VR 交互的基础能力,但从头戴设备摄像头恢复全身 3D 姿态仍是开放难题
视角受限:自我中心视角仅能覆盖少量身体区域,频繁出现自遮挡,且场景上下文有限
时序一致性差:早期方法(EgoGlass、UnrealEgo)依赖单帧热图回归,导致预测抖动和时序不一致;LSTM 方法(EgoBody3M)改善了平滑性但缺乏 3D 几何建模
前作架构局限:EgoPoseFormer v1 使用每个关节对应一个查询 token 的设计,计算量随关节数线性增长;两阶段架构无法端到端训练(梯度无法回传到粗估计阶段);依赖可变形注意力,难以部署到边缘设备
标注数据稀缺:真实世界自我中心数据采集和标注成本极高,大量无标签的野外数据无法被利用
部署约束严格:VR 设备要求极低延迟(<1ms)和边缘计算友好的算子,可变形注意力等操作不易在消费级设备上实现
方法详解¶
整体框架¶
EPFv2 采用编码器-解码器结构:图像编码器提取多视图特征,头戴位姿和辅助信息编码为单一全局姿态查询 token,两个架构相同的 Transformer 解码器分别完成粗估计(Pose Proposal)和精细估计(Pose Refinement)。整体架构端到端可微,梯度可在两阶段间自由流动。
关键设计¶
-
单一全局查询 token(Identity-Conditioned Query):
- 抛弃 v1 中每关节一个查询的设计,用一个 token 聚合所有信息,将计算量与身体表示解耦
- 查询 token 通过 MLP 编码头戴 6DoF 位姿等辅助元数据初始化:\(\mathbf{q}_t = \text{MLP}_{\text{query}}(\mathbf{H}_t)\)
- 既支持关键点表示,也支持参数化身体模型(关节旋转 + 身体尺度),计算预算恒定
-
条件多视图交叉注意力(Conditioned Multi-View Cross-Attention):
- 用标准交叉注意力替代可变形注意力,对每个视图独立做多头注意力后线性融合
- 粗估计阶段:以可学习相机嵌入 \(\xi^v\) 作为条件
- 精细阶段:额外加入 3D 粗估计关键点投影到 2D 的位置编码,实现空间锚定效果(类似 v1 的可变形立体注意力但更硬件友好)
-
因果时序注意力(Causal Temporal Attention):
- 使用 RoPE 位置编码的因果自注意力,当前帧查询 token 关注窗口 \(w\) 内的历史 token
- 训练时为标准因果 mask 自注意力,推理时使用 KV-Cache 节省资源
- 使不可见身体部位(如遮挡的腿/脚)也能从时序线索中推断出合理姿态
-
逐关键点不确定性估计:
- 每个关键点预测 6D 不确定性向量(协方差矩阵的 Cholesky 因子 \(\mathbf{L}\)),使用 Student-t 分布的负对数似然损失
- 相比 Laplacian 分布,Student-t 在原点更平滑、尾部更厚重,对大残差更鲁棒
- 不确定性对不可见关键点(脚、腿)预测值更高,符合直觉
损失函数¶
- \(w_d\) 采用余弦调度动态平衡 MSE 与不确定性似然损失的权重
- Jerk 损失鼓励时序平滑(\(\lambda_{\text{jerk}}=0.8\))
- 自动标注阶段额外添加不确定性蒸馏损失:\(\mathcal{L}_{\text{uncertainty}} = \|s_T - s_S\|\)
自动标注系统 (Auto-Labeling System, ALS)¶
- Teacher-Student 半监督学习:教师模型在标注数据上训练(DINOv3 初始化的 ViT 编码器),生成大规模无标签数据的伪标签
- 不对称增强:教师接收原始输入,学生接收强增强版本,确保伪标签稳定而学生学到泛化能力
- 不确定性蒸馏:学生不仅学习姿态估计,还模仿教师的逐关键点置信度结构
- 在 70M 帧的野外数据 (EGO-ITW-70M) 上验证了数据规模的持续增益
实验¶
主实验:EgoBody3M 基准对比¶
| 方法 | MPJPE (cm) ↓ | MPJVE ↓ | 手腕 MPJPE | 肩部 MPJPE | 腿部 MPJPE | 脚部 MPJPE |
|---|---|---|---|---|---|---|
| UnrealEgo (ECCV22) | 7.41 | 1.27 | - | - | - | - |
| EgoBody3M (ECCV24) | 5.18 | 0.54 | 6.14 | 2.80 | 8.40 | 10.25 |
| EgoPoseFormer v1 (ECCV24) | 4.75 | 0.87 | 6.01 | 2.72 | 7.95 | 10.16 |
| EPFv2 w/o ALS | 4.17 | 0.42 | 5.74 | 2.38 | 6.91 | 9.11 |
| EPFv2 with ALS | 4.02 | 0.42 | 4.99 | 2.33 | 6.66 | 8.69 |
消融实验¶
| 变体 | Overall MPJPE | 手腕 MPJPE | 腿部 MPJPE |
|---|---|---|---|
| ① 直接关键点头(无 FK) | 4.35 | 6.02 | 7.17 |
| ② 无时序注意力 | 4.35 | 6.04 | 7.21 |
| ③ 无投影条件 | 4.30 | 5.96 | 7.15 |
| ④ 无辅助信息 | 4.39 | 5.98 | 7.34 |
| ⑤ 无不确定性 | 4.25 | 5.83 | 7.00 |
| ⑥ EPFv2 完整(无 ALS) | 4.17 | 5.74 | 6.91 |
| ⑦ + ALS(无不确定性蒸馏) | 4.08 | 5.07 | 6.74 |
| ★ + ALS + 不确定性蒸馏 | 4.02 | 4.99 | 6.66 |
关键发现¶
- 精度大幅提升:EPFv2 比 EgoBody3M 提升 22.4%,比 EPFv1 提升 15.4%(MPJPE)
- 时序稳定性显著改善:MPJVE 比 EgoBody3M 降低 22.2%,比 EPFv1 降低 51.7%
- ALS 对手腕效果最显著:手腕 MPJPE 从 5.74→4.99(改善 13.1%),手腕因频繁遮挡和快速运动最难估计
- 轻量模型受益更多:MobileNetV4-S 从 ALS 中获得的比例增益大于 ResNet-18,说明 ALS 特别适合轻量部署场景
- 实时性能:0.8ms GPU 延迟,满足 VR 设备实时需求
- FK 建模优于直接回归:通过前向运动学预测关节旋转再计算位置,比直接回归 3D 关键点更准确(物理结构先验)
亮点¶
- 单一全局查询 token 设计简洁优雅,将模型计算与身体表示完全解耦,同时支持关键点和参数化表示
- 用标准交叉注意力 + 投影条件替代可变形注意力,精度相当但部署友好
- 自动标注系统思路清晰且有效,不确定性蒸馏是合理的补充,数据规模增益曲线令人信服
- 0.8ms 延迟,是目前最适合真实 VR 设备部署的方案之一
局限性¶
- 无标签数据集 EGO-ITW-70M 为私有数据,ALS 的可复现性受限
- 仅在 EgoBody3M 一个基准上评估,缺乏跨数据集定量对比
- 教师模型依赖 DINOv3-L 权重,半监督流程的适用范围可能受限于视觉基础模型的质量
- 野外泛化仅以定性结果展示(XR-MBT),缺乏定量验证
- 未讨论在遮挡极端场景(如长期全身不可见)下的失败案例
相关工作¶
- 自我中心姿态估计:EgoGlass、UnrealEgo(热图方法)→ EgoBody3M(LSTM 时序)→ EgoPoseFormer v1(可变形注意力 Transformer)→ EPFv2
- 自我中心数据集:EgoCap → Mo2Cap2 → xR-EgoPose → UnrealEgo → EgoBody3M(首个大规模真实数据集)→ Nymeria、EMHI
- 半监督/自动标注:经典 pseudo-labeling 范式,在自我中心运动估计领域此前几乎未被探索;最接近的 EgoPW 需要额外外部视角辅助
评分¶
- 新颖性: ⭐⭐⭐⭐ — 单一查询设计和条件注意力替代可变形注意力的思路新颖实用,ALS 在该领域的应用有开创意义
- 实验充分度: ⭐⭐⭐⭐ — 消融全面,数据规模实验有说服力,但基准单一且 ALS 私有数据不可复现
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,动机论述充分,与前作对比到位
- 价值: ⭐⭐⭐⭐ — 对 AR/VR 人体姿态估计有直接工程价值,0.8ms 延迟和边缘部署友好设计很实际