RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance¶

会议: CVPR 2025
arXiv: 2503.12242
代码: 项目页面
领域: 人体理解
关键词: 体积视频, 3D高斯溅射, 动作迁移, Morton编码, 非刚体重建

一句话总结¶

提出 RePerformer，一种基于 3DGS 的体积视频表示方法，通过分层解耦运动高斯和外观高斯、Morton 编码参数化以及语义感知对齐模块，统一实现高保真回放和基于新动作的逼真再表演。

研究背景与动机¶

以人为中心的体积视频允许用户自由控制虚拟相机视角，在远程呈现、教育和娱乐中有重要应用。目前存在两类互补的工作流：(1) 回放型方法能高保真重建动态场景但无法泛化到新动作；(2) 可动画型方法（人体化身）可驱动新动作但严重依赖 SMPL 等参数化模型，且主要针对纯人体场景。

本文探索了一个新方向——"回放-再表演"范式：给定一段动态序列的密集多视角视频，不仅要实现精确的自由视角回放，还要能在相似但未见过的新动作下逼真地重新表演整个场景（包括人与物体交互）。这一设定要求方法兼具高保真渲染能力和对新动作的泛化能力，且需处理一般的非刚体场景而非仅限人体。

现有可动画方法依赖 SMPL 模型，无法处理人-物交互场景；而回放方法没有泛化能力。RePerformer 通过解耦运动与外观、利用 2D CNN 的泛化能力来同时满足两个需求。

方法详解¶

整体框架¶

RePerformer 是一个三阶段流水线：(1) 跟踪阶段——将动态场景解耦为稀疏运动高斯（~50K）和稠密外观高斯（~200K），通过运动高斯驱动外观高斯的非刚体变形实现拓扑一致的跟踪；(2) 训练阶段——通过 Morton 编码将外观高斯映射到 2D 位置图，用 U-Net 学习从位置图到属性图的可泛化映射；(3) 再表演阶段——通过语义感知对齐模块关联新表演者的运动高斯与原始外观高斯，实现动作迁移。

关键设计1：分层运动-外观解耦¶

功能：将动态场景解耦为拓扑一致的运动表示和可泛化的外观表示。

核心思路：稀疏运动高斯仅优化位置和旋转来捕获全局非刚体运动，通过 as-rigid-as-possible (ARAP) 约束保持局部刚性。稠密外观高斯在 canonical 空间初始化并通过最近邻搜索与运动高斯关联。变形通过加权插值实现：\(p_{i,t}^{\mathcal{T}} = \sum_{k \in \mathcal{N}} w(p_i, p_k)(R(\Delta q_k) p_i + \Delta p_k)\)。

设计动机：分层解耦使运动捕获和外观渲染各司其职——运动高斯负责几何变形的泛化，外观高斯负责高保真渲染。这种设计类似于传统的 Embedded Deformation Graph + Mesh Tracking 的思想，但用 3DGS 替代。

关键设计2：Morton 编码参数化¶

功能：将 3D 外观高斯高效编码到 2D 位置/属性图中，保持空间邻近性以支持 2D CNN 学习。

核心思路：对 canonical 空间外观高斯的位置进行量化后进行 Morton 排序（Z-order curve），将三维坐标的二进制表示交错排列以保持 3D 空间连续性。每个高斯 \(i\) 被分配 \((u,v)\) 坐标，形成保持空间邻近关系的 \(i \to (u,v)\) 映射，在所有帧间保持一致。

设计动机：SMPL 的 UV atlas 无法表示人-物交互场景。Morton 编码是一种通用的 3D-to-2D 映射，不依赖任何参数化人体模型，可处理任意拓扑的非刚体场景。同时保持局部空间一致性，有利于 2D CNN 的卷积操作。

关键设计3：语义感知动作迁移¶

功能：将新表演者的动作转移到原始场景的外观高斯上，实现保拓扑的再表演。

核心思路：利用 Language-SAM + GroundingDINO + SAM2 为高斯分配语义标签（如头、手、脚等），通过 K-means 聚类建立两序列间的粗对齐。然后通过优化目标 \(E_{\text{re}} = \mathcal{L}_2(\mathcal{G}_t^{s'}, f(\mathcal{G}_c^{s'}, \mathcal{G}_t^r)) + \lambda_2 E_{\text{arap}}\) 进行动作转移，同时保持外观高斯的原始拓扑。

设计动机：传统变形迁移需要手动指定网格对应关系，对大规模高斯点云不可行。语义感知对齐自动建立两序列之间身体部件的对应，ARAP 约束确保变形过程中的拓扑保持。

损失函数¶

跟踪阶段：\(E_{\text{init}} = \lambda_{iso} E_{\text{iso}} + \lambda_{size} E_{\text{size}} + E_{\text{color}}\) 加 ARAP 约束。训练阶段：预训练用 \(\mathcal{L}_2\) 监督属性回归，主训练用 \((1-\lambda_{\text{color}}) \mathcal{L}_1 + \lambda_{\text{color}} \mathcal{L}_{\text{D-SSIM}}\)。再表演阶段：对齐损失 + 语义损失 + ARAP 正则化。

实验关键数据¶

主实验：新视角渲染（DualGS 数据集，500帧）¶

方法	PSNR ↑	SSIM ↑	LPIPS ↓	训练时间(min/帧) ↓
NeuS2	29.59	0.967	0.056	3.23
Spacetime Gaussian	31.69	0.981	0.029	2.24
DualGS	35.51	0.990	0.019	12.22
RePerformer	34.57	0.986	0.023	1.68

泛化实验：新动作渲染（3000帧，训练2500/测试500）¶

方法	新视角PSNR	新视角SSIM	新动作PSNR	新动作SSIM
AP-NeRF	28.26	0.939	26.85	0.944
TAVA	21.57	-	-	-
RePerformer	33.57	0.979	32.88	0.973

关键发现¶

RePerformer 在回放质量上仅次于逐帧优化的 DualGS（差~1 dB PSNR），但训练速度快 7.3 倍（1.68 vs 12.22 min/帧）。
在新动作泛化上显著超越所有基线方法，PSNR 提升超过 5 dB，证明了 Morton 编码 + U-Net 的泛化能力。
成功处理了复杂的人-物交互场景（小提琴演奏、气球互动等），这是依赖 SMPL 的方法无法做到的。

亮点与洞察¶

新范式定义：首次提出"回放-再表演"范式，填补了回放方法和可动画方法之间的空白，具有实际应用价值。
Morton 编码替代 UV Atlas：用空间填充曲线替代参数化模型依赖的 UV 映射，使方法可处理任意非刚体场景。
CNN 泛化替代逐帧优化：用 2D CNN 学习位置到属性的映射，训练速度快且具备泛化能力。

局限与展望¶

再表演仅支持"相似"的新动作，对差异较大的动作可能产生伪影。
语义对齐需要文本 prompt 指定身体部件，自动化程度有限。
依赖密集多视角视频输入（最多 81 个视角），对捕获设备要求高。
Morton 编码虽然保持局部一致性但仍可能将空间相近的高斯映射到远距 UV 坐标。

评分¶

⭐⭐⭐⭐ — 新范式定义有价值，Morton 编码参数化是亮点，技术方案完整。回放质量接近逐帧优化 SOTA 且泛化能力强。局限在于对密集多视角输入的依赖和新动作的"相似性"约束。