PersPose: 3D Human Pose Estimation with Perspective Encoding and Perspective Rotation¶

会议: ICCV 2025
arXiv: 2508.17239
代码: GitHub
领域: 3D视觉
关键词: 3D人体姿态估计, 透视编码, 透视旋转, 相机内参, 单目

一句话总结¶

提出PersPose框架，通过透视编码(PE)将裁剪后相机内参编码为2D映射、透视旋转(PR)将人体居中以消除透视畸变，解决了现有方法忽略FOV信息导致深度估计不准确的问题。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：现有3D HPE方法使用裁剪图像作为输入存在两个被忽视的问题：

裁剪丢失深度信息：相同裁剪图像可能对应不同相对深度（图2示例：subjects a和b裁剪图像相同但深度不同）；不同裁剪图像可能有相同深度（subjects a和c）

FOV对深度至关重要：即使使用全图，缺少FOV信息也会导致错误深度估计（图3示例：两个不同FOV相机拍摄同一人获得视觉差异很大但深度标签相同的图像）

核心洞见：裁剪操作等价于修改相机内参。裁剪后内参 $K^{\text{crop}} = AK$ 包含了裁剪和FOV信息。

方法详解¶

透视编码 (Perspective Encoding)¶

将裁剪内参 $K^{\text{crop}}$ 编码为2D PE映射 $M^{xy}$：将每个像素坐标 $(u_i, v_i)$ 投影到 $z=1$ 平面：

\[(K^{\text{crop}})^{-1} \begin{bmatrix} u_i \\ v_i \\ 1 \end{bmatrix} = \begin{bmatrix} x_i \\ y_i \\ 1 \end{bmatrix}\]

投影区域在 $z=1$ 平面上几何编码了唯一的视锥体。不同焦距对应不同大小的投影区域，偏轴的主点对应偏移的区域。

PE映射与裁剪图像分别通过不同卷积层后逐元素相加。

透视旋转 (Perspective Rotation)¶

人体可出现在图像任意位置，导致主点 $(c_x^{\text{crop}}, c_y^{\text{crop}})$ 变化大，增加拟合难度。PR通过旋转使人体居中：

计算人体边界框中心在 $z=1$ 平面的投影 $(x_c, y_c, 1)$
计算旋转轴和角度： $$\mathbf{n} = \frac{(x_c, y_c, 1) \times (0,0,d)^\top}{\|(x_c, y_c, 1) \times (0,0,d)^\top\|}$$ $$\phi = \arccos\frac{(x_c, y_c, 1) \cdot (0,0,d)}{\|(x_c, y_c, 1)\| \cdot \|(0,0,d)\|}$$
通过Rodrigues公式得旋转矩阵 $R$，透视变换矩阵 $M = KRK^{-1}$

PR后映射函数从4输入简化为2输入： $$f_\theta: (I^{\text{crop}}, f^{\text{crop}}, c_x^{\text{crop}}, c_y^{\text{crop}}) \rightarrow P_{\text{XYZ}}$$ 简化为： $$\tilde{f}_\theta: (I^{\text{crop}}, f^{\text{crop}}) \rightarrow P_{\text{XYZ}}$$

推理流程¶

原图经PR得到居中图像 $I'$，从中心裁剪
计算 $K^{\text{crop}}$ 并编码为PE映射
网络预测2D关节坐标+相对深度 $P_{\text{UVD}}$ 和尺度因子 $\hat{s}$
结合内参转为旋转后3D姿态 $P'_{\text{XYZ}}$
逆旋转 $P_{\text{XYZ}} = R^\top P'_{\text{XYZ}}$

实验¶

主实验 - 3DPW数据集¶

方法	PA-MPJPE↓	MPJPE↓
HMR	81.3	130.0
SPIN	59.2	96.9
CLIFF	43.0	69.0
前SOTA	-	65.0
PersPose	38.7	60.1

在野外数据集3DPW上MPJPE降低7.54%，达到SOTA。

多数据集对比¶

数据集	指标	PersPose
3DPW	MPJPE↓	60.1
Human3.6M	MPJPE↓	竞争性
MPI-INF-3DHP	PCK↑	SOTA

PersPose在多个基准上取得一致的SOTA或竞争性结果。

亮点与洞察¶

洞察力强：清晰论证了裁剪操作等价于修改内参，揭示了长期被忽视的问题
解决方案优雅：PE和PR模块各自简洁但针对性强
物理原理清晰：基于相机成像几何原理设计，而非黑盒方法
即插即用：PE和PR可嵌入任意现有HPE框架

局限与展望¶

需要已知或可获取的相机焦距信息
PR操作需要额外的图像变换计算
对极端广角镜头的非线性畸变未建模
未探索视频序列中的时序一致性

评分¶

新颖性: ⭐⭐⭐⭐ (PE和PR的设计巧妙)
技术深度: ⭐⭐⭐⭐ (几何推导完整清晰)
实验充分度: ⭐⭐⭐⭐ (三个数据集+消融)
实用价值: ⭐⭐⭐⭐⭐ (实际HPE的核心改进)