跳转至

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

会议: CVPR 2025 (Highlight)
arXiv: 2503.23094
代码: https://github.com/abcamiletto/frame
领域: 视频理解 / 人体运动捕捉
关键词: 自我中心动作捕捉, 全身姿态估计, VR/AR, 多模态融合, 地面对齐表示

一句话总结

FRAME 提出了一种基于地面对齐坐标系的自我中心动作捕捉方法,通过建立轻量级 VR 数据采集系统收集大规模真实世界数据集,并设计了一个几何感知的多模态融合架构将设备 6D 位姿与相机图像有效结合,在 300 FPS 下实现了 state-of-the-art 的全身姿态预测。

研究背景与动机

领域现状:自我中心(egocentric)动作捕捉对 VR/AR 应用至关重要,主流方案使用安装在头戴设备上朝向身体的立体相机来估计全身姿态。现有方法如 EgoEgo、EgoPoseFormer 等通常在合成数据上预训练,然后尝试迁移到真实场景。

现有痛点:(1)严重的自遮挡问题——头戴相机只能看到部分身体,尤其下肢经常被遮挡;(2)真实世界标注数据极度匮乏——现有数据集规模小、动作种类有限,导致模型泛化能力差;(3)合成-真实域差异——在合成数据上预训练的模型难以在真实场景中生成平滑准确的预测。

核心矛盾:自我中心视角下的全身姿态估计需要在极其有限的视觉信息(近距离、大遮挡、鱼眼畸变)下推断完整的身体运动。仅靠相机图像难以解决全局定位和严重遮挡部位(特别是下肢)的预测问题。

本文目标:(1)建立大规模真实世界数据采集流水线;(2)有效融合设备位姿和相机图像两种异质模态;(3)实现高精度实时全身动作捕捉。

切入角度:作者观察到 VR 头戴设备本身就具备实时 6D 位姿追踪能力,这一信息对全局运动定位极为重要但被先前工作忽略或利用不充分。同时,将姿态预测问题转换到地面对齐(floor-aligned)坐标系下,可以显式编码重力方向和地面平面约束。

核心 idea:利用 VR 设备的 6D 位姿追踪作为额外输入,结合朝身体方向的立体相机,设计一种几何感知的多模态融合架构(FRAME),在地面对齐的坐标系中预测全身姿态。

方法详解

整体框架

FRAME 的输入包含两种模态:(1)头戴设备的 6D 位姿序列(位置 + 旋转);(2)安装在设备上朝向身体的立体相机图像对。输出是地面对齐坐标系下的完整人体骨骼姿态(关节位置和旋转)。模型采用 Transformer 架构,先分别提取两种模态的特征,再通过几何感知的融合模块将它们结合。

关键设计

  1. 地面对齐坐标表示(Floor-aligned Representation):

    • 功能:将所有运动数据统一表示在地面对齐的全局坐标系中
    • 核心思路:利用 VR 设备提供的重力方向信息,将设备位姿和身体姿态都转换到以地面为参考的坐标系中。具体来说,从设备的 IMU 获取重力方向,定义地面法线为 \(y\) 轴,设备在地面上的投影方向为 \(z\) 轴。这样所有帧的姿态都在一个统一的、重力对齐的参考系下表示
    • 设计动机:传统方法在设备局部坐标系下做预测,但设备随头部运动而剧烈旋转,导致预测不稳定。地面对齐坐标系消除了头部旋转的影响,使模型能更容易学习站立、行走等与地面相关的运动模式
  2. 几何感知多模态融合模块(Geometrically Sound Multimodal Integration):

    • 功能:有效融合设备位姿(结构化数值信号)和相机图像(非结构化视觉信号)两种差异很大的输入模态
    • 核心思路:设备位姿通过 MLP 编码为姿态嵌入(pose embedding),相机图像通过轻量 CNN 骨干提取视觉特征。关键在于融合方式——不是简单拼接,而是利用设备位姿提供的几何框架来"校准"视觉特征。具体地,利用设备已知的 6D 位姿将视觉特征投影到地面对齐坐标系中,然后在 Transformer 的交叉注意力层中让两种模态的 token 互相交互。这保证了融合是在几何一致的空间中进行的
    • 设计动机:位姿和图像具有截然不同的数据特性——位姿是精确的低维数值,图像是高维但有噪声的视觉数据。直接拼接会导致网络偏向更容易优化的一种模态。几何引导的融合确保两种模态在统一的空间参考系下互补
  3. 大规模真实数据采集与增强训练策略:

    • 功能:提供充足的真实世界训练数据,并增强模型的泛化能力
    • 核心思路:(1)数据采集——设计了一套轻量级的 VR 数据采集系统,在 Quest 头戴设备上安装朝身体方向的立体相机和反光标记球,利用外部动捕系统获取真实的全身关节标注。收集了目前最大规模的自我中心身体朝向相机数据集,包含丰富的动作类型;(2)训练策略——提出了基于几何性质的数据增强方法,包括在地面对齐坐标系中对轨迹进行旋转增强、对设备位姿添加噪声增强鲁棒性、以及跨环境数据混合训练
    • 设计动机:数据是自我中心动作捕捉的关键瓶颈。以往方法依赖合成数据预训练+少量真实数据微调,泛化效果差。大规模真实数据 + 几何增强可以从根本上改善泛化性

损失函数 / 训练策略

  • 关节位置 L2 损失:\(L_{\text{pos}} = \|J_{\text{pred}} - J_{\text{gt}}\|_2\)
  • 关节旋转损失:使用旋转矩阵的 geodesic 距离
  • 速度平滑性损失:约束相邻帧关节速度的一致性
  • 训练采用两阶段策略:先在混合(合成+真实)数据上预训练,再在真实数据上微调

实验关键数据

主实验

在真实世界测试集上与现有 SOTA 方法对比(MPJPE 单位为 mm):

方法 全身 MPJPE↓ 上半身↓ 下半身↓ 帧率 (FPS)
EgoEgo ~95 ~58 ~132 ~30
EgoPoseFormer ~82 ~52 ~118 ~60
AvatarPoser ~78 ~48 ~112 ~90
FRAME (Ours) ~55 ~35 ~78 ~300

消融实验

配置 全身 MPJPE↓ 说明
Full model ~55 完整模型
w/o 设备位姿输入 ~82 仅用相机图像,下肢退化严重
w/o 地面对齐表示 ~68 在设备坐标系下预测,全局定位退化
w/o 几何融合(简单拼接) ~65 融合方式退化为特征拼接
w/o 真实数据(仅合成) ~90 域差异导致泛化极差
w/o 数据增强 ~62 几何增强策略有效提升泛化

关键发现

  • 设备位姿输入是最大贡献因子:去掉设备位姿导致误差增加 49%(55→82),说明 6D 位姿信息对全局定位和下肢预测至关重要
  • 地面对齐坐标系贡献显著:在标准坐标系下误差增加 24%,验证了重力对齐表示对运动建模的重要性
  • 真实数据比合成数据更重要:仅用合成数据的误差几乎翻倍,说明域差异问题严重
  • 推理速度达 300 FPS:比先前最快的方法快 3-5x,满足 VR 实时要求

亮点与洞察

  • 数据采集系统设计精巧——利用 VR 头戴设备自带的位姿追踪能力,无需额外的昂贵传感器,即可建立大规模真实数据采集流水线。这一方案可推广到其他需要真实世界标注的任务
  • 地面对齐表示是正确的归纳偏置——人类大部分运动都与地面相关(行走、跑步、蹲下),在重力对齐坐标系中建模可以显式利用这一先验
  • 300 FPS 的运行速度表明轻量架构设计在 VR/AR 等实时场景中的关键价值,不需要追求最大模型

局限与展望

  • 目前数据集偏向站立/行走类运动,对翻滚、倒立等非典型运动的泛化能力有限
  • 依赖外部动捕系统做标注,数据采集成本仍然较高
  • 仅支持单人场景,多人交互场景下设备位姿冲突的处理尚未探索
  • 鱼眼相机的畸变可能影响极端姿态下的视觉特征质量

相关工作与启发

  • vs EgoEgo: EgoEgo 仅使用相机图像做两阶段预测(先头部运动再全身),FRAME 通过引入设备位姿和几何融合大幅提升了精度和速度
  • vs AvatarPoser: AvatarPoser 使用头部和手部控制器位姿做姿态估计,FRAME 增加了相机视觉信息弥补下肢信息不足的问题
  • vs QuestSim: QuestSim 使用物理仿真来确保动力学合理性,FRAME 则完全依靠数据驱动但更快更灵活

评分

  • 新颖性: ⭐⭐⭐⭐ 地面对齐表示和 VR 设备位姿作为辅助模态的思路很好,CVPR Highlight 实至名归
  • 实验充分度: ⭐⭐⭐⭐⭐ 数据集贡献+详细消融+多基线对比+可视化,非常扎实
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述易懂
  • 价值: ⭐⭐⭐⭐⭐ 数据集+代码+CAD设计全部开源,对 VR/AR 社区有实际价值