EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR¶

会议: CVPR2026
arXiv: 2603.04090
代码: 未开源
领域: 人体理解 (Human Understanding)
关键词: 自我中心姿态估计, Transformer, 半监督学习, 自动标注, AR/VR, 时序建模

一句话总结¶

提出 EgoPoseFormer v2 (EPFv2)，通过端到端 Transformer 架构（单一全局查询 + 因果时序注意力 + 条件多视图交叉注意力）和基于不确定性蒸馏的自动标注系统，在 EgoBody3M 基准上以 0.8ms GPU 延迟实现了自我中心 3D 人体运动估计的 SOTA 精度（MPJPE 4.02cm，比前作提升 15-22%）。

研究背景与动机¶

AR/VR 核心需求：自我中心 3D 运动估计是 AR/VR 交互的基础能力，但从头戴设备摄像头恢复全身 3D 姿态仍是开放难题

视角受限：自我中心视角仅能覆盖少量身体区域，频繁出现自遮挡，且场景上下文有限

时序一致性差：早期方法（EgoGlass、UnrealEgo）依赖单帧热图回归，导致预测抖动和时序不一致；LSTM 方法（EgoBody3M）改善了平滑性但缺乏 3D 几何建模

前作架构局限：EgoPoseFormer v1 使用每个关节对应一个查询 token 的设计，计算量随关节数线性增长；两阶段架构无法端到端训练（梯度无法回传到粗估计阶段）；依赖可变形注意力，难以部署到边缘设备

标注数据稀缺：真实世界自我中心数据采集和标注成本极高，大量无标签的野外数据无法被利用

部署约束严格：VR 设备要求极低延迟（<1ms）和边缘计算友好的算子，可变形注意力等操作不易在消费级设备上实现

方法详解¶

整体框架¶

EPFv2 采用编码器-解码器结构：图像编码器提取多视图特征，头戴位姿和辅助信息编码为单一全局姿态查询 token，两个架构相同的 Transformer 解码器分别完成粗估计（Pose Proposal）和精细估计（Pose Refinement）。整体架构端到端可微，梯度可在两阶段间自由流动。

关键设计¶

单一全局查询 token（Identity-Conditioned Query）：
- 抛弃 v1 中每关节一个查询的设计，用一个 token 聚合所有信息，将计算量与身体表示解耦
- 查询 token 通过 MLP 编码头戴 6DoF 位姿等辅助元数据初始化：\(\mathbf{q}_t = \text{MLP}_{\text{query}}(\mathbf{H}_t)\)
- 既支持关键点表示，也支持参数化身体模型（关节旋转 + 身体尺度），计算预算恒定
条件多视图交叉注意力（Conditioned Multi-View Cross-Attention）：
- 用标准交叉注意力替代可变形注意力，对每个视图独立做多头注意力后线性融合
- 粗估计阶段：以可学习相机嵌入 \(\xi^v\) 作为条件
- 精细阶段：额外加入 3D 粗估计关键点投影到 2D 的位置编码，实现空间锚定效果（类似 v1 的可变形立体注意力但更硬件友好）
因果时序注意力（Causal Temporal Attention）：
- 使用 RoPE 位置编码的因果自注意力，当前帧查询 token 关注窗口 \(w\) 内的历史 token
- 训练时为标准因果 mask 自注意力，推理时使用 KV-Cache 节省资源
- 使不可见身体部位（如遮挡的腿/脚）也能从时序线索中推断出合理姿态
逐关键点不确定性估计：
- 每个关键点预测 6D 不确定性向量（协方差矩阵的 Cholesky 因子 \(\mathbf{L}\)），使用 Student-t 分布的负对数似然损失
- 相比 Laplacian 分布，Student-t 在原点更平滑、尾部更厚重，对大残差更鲁棒
- 不确定性对不可见关键点（脚、腿）预测值更高，符合直觉

损失函数¶

\[\mathcal{L} = \lambda_{\text{pos}} w_d \mathcal{L}_{\text{mse}}(\mathbf{P}_r, \hat{\mathbf{P}}) + \lambda_{\text{pos}}(1-w_d) \mathcal{L}_{\text{tNLL}}(\mathbf{P}_r, \hat{\mathbf{P}}, \Sigma) + \lambda_{\text{pos}} \mathcal{L}_{\text{mse}}(\mathbf{P}_p, \hat{\mathbf{P}}) + \lambda_{\text{jerk}} [\mathcal{L}_{\text{jerk}}(\mathbf{P}_r) + \mathcal{L}_{\text{jerk}}(\mathbf{P}_p)]\]

\(w_d\) 采用余弦调度动态平衡 MSE 与不确定性似然损失的权重
Jerk 损失鼓励时序平滑（\(\lambda_{\text{jerk}}=0.8\)）
自动标注阶段额外添加不确定性蒸馏损失：\(\mathcal{L}_{\text{uncertainty}} = \|s_T - s_S\|\)

自动标注系统 (Auto-Labeling System, ALS)¶

Teacher-Student 半监督学习：教师模型在标注数据上训练（DINOv3 初始化的 ViT 编码器），生成大规模无标签数据的伪标签
不对称增强：教师接收原始输入，学生接收强增强版本，确保伪标签稳定而学生学到泛化能力
不确定性蒸馏：学生不仅学习姿态估计，还模仿教师的逐关键点置信度结构
在 70M 帧的野外数据 (EGO-ITW-70M) 上验证了数据规模的持续增益

实验¶

主实验：EgoBody3M 基准对比¶

方法	MPJPE (cm) ↓	MPJVE ↓	手腕 MPJPE	肩部 MPJPE	腿部 MPJPE	脚部 MPJPE
UnrealEgo (ECCV22)	7.41	1.27	-	-	-	-
EgoBody3M (ECCV24)	5.18	0.54	6.14	2.80	8.40	10.25
EgoPoseFormer v1 (ECCV24)	4.75	0.87	6.01	2.72	7.95	10.16
EPFv2 w/o ALS	4.17	0.42	5.74	2.38	6.91	9.11
EPFv2 with ALS	4.02	0.42	4.99	2.33	6.66	8.69

消融实验¶

变体	Overall MPJPE	手腕 MPJPE	腿部 MPJPE
① 直接关键点头（无 FK）	4.35	6.02	7.17
② 无时序注意力	4.35	6.04	7.21
③ 无投影条件	4.30	5.96	7.15
④ 无辅助信息	4.39	5.98	7.34
⑤ 无不确定性	4.25	5.83	7.00
⑥ EPFv2 完整（无 ALS）	4.17	5.74	6.91
⑦ + ALS（无不确定性蒸馏）	4.08	5.07	6.74
★ + ALS + 不确定性蒸馏	4.02	4.99	6.66

关键发现¶

精度大幅提升：EPFv2 比 EgoBody3M 提升 22.4%，比 EPFv1 提升 15.4%（MPJPE）
时序稳定性显著改善：MPJVE 比 EgoBody3M 降低 22.2%，比 EPFv1 降低 51.7%
ALS 对手腕效果最显著：手腕 MPJPE 从 5.74→4.99（改善 13.1%），手腕因频繁遮挡和快速运动最难估计
轻量模型受益更多：MobileNetV4-S 从 ALS 中获得的比例增益大于 ResNet-18，说明 ALS 特别适合轻量部署场景
实时性能：0.8ms GPU 延迟，满足 VR 设备实时需求
FK 建模优于直接回归：通过前向运动学预测关节旋转再计算位置，比直接回归 3D 关键点更准确（物理结构先验）

亮点¶

单一全局查询 token 设计简洁优雅，将模型计算与身体表示完全解耦，同时支持关键点和参数化表示
用标准交叉注意力 + 投影条件替代可变形注意力，精度相当但部署友好
自动标注系统思路清晰且有效，不确定性蒸馏是合理的补充，数据规模增益曲线令人信服
0.8ms 延迟，是目前最适合真实 VR 设备部署的方案之一

局限性¶

无标签数据集 EGO-ITW-70M 为私有数据，ALS 的可复现性受限
仅在 EgoBody3M 一个基准上评估，缺乏跨数据集定量对比
教师模型依赖 DINOv3-L 权重，半监督流程的适用范围可能受限于视觉基础模型的质量
野外泛化仅以定性结果展示（XR-MBT），缺乏定量验证
未讨论在遮挡极端场景（如长期全身不可见）下的失败案例

评分¶

新颖性: ⭐⭐⭐⭐ — 单一查询设计和条件注意力替代可变形注意力的思路新颖实用，ALS 在该领域的应用有开创意义
实验充分度: ⭐⭐⭐⭐ — 消融全面，数据规模实验有说服力，但基准单一且 ALS 私有数据不可复现
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，动机论述充分，与前作对比到位
价值: ⭐⭐⭐⭐ — 对 AR/VR 人体姿态估计有直接工程价值，0.8ms 延迟和边缘部署友好设计很实际