RHINO: Reconstructing Human Interactions with Novel Objects from Monocular Videos¶

会议: CVPR 2026
arXiv: 2605.17014
代码: https://lxxue.github.io/RHINO (有)
领域: 3D视觉
关键词: 人-物交互重建, 单目视频, 神经SDF, 相机-物体运动解耦, 接触先验

一句话总结¶

从一段移动视角的单目 RGB 视频里，在同一个世界坐标系下把"人 + 被操纵的未知物体 + 静态场景"全部重建成 4D 几何——靠 3D 基础模型稳住低纹理物体的运动估计、靠相机运动减法把物体真实运动从"表观运动"里抠出来、再用逐组件神经 SDF 联合优化并施加可微接触先验，在新视角合成和 4D 重建上都超过现有最强基线。

研究背景与动机¶

领域现状：从单目 RGB 视频做 3D 重建是智能系统的长期目标。但现有工作几乎都是"分而治之"：要么只重建无人的静态场景，要么只重建孤立的人体，少数能在世界坐标系下联合重建"人 + 场景"（如 SotA 方法 HSR）。

现有痛点：一旦人手里拿着东西操纵它，这些方法就崩。HSR 能把静态场景和走动的人重建得很好，但人推动桌子时桌子的重建直接退化成一团乱（论文 Fig. 2）。另一类手-物重建方法（HOLD）只在相机坐标系里做手和物体，不涉及全身、不涉及场景；HOI 重建方法（InterTrack 等）则往往依赖已知物体模板、或只输出稀疏点云、或对训练集外的新物体泛化很差。更普遍地，很多方法假设已知物体/场景形状或已标定相机，落地不现实。

核心矛盾：移动相机带来一个根本性的纠缠——"表观运动"（apparent motion）把相机运动和物体运动揉在了一起，无法直接分离；同时日常物体常常低纹理、对称、在画面里只占一小块，传统稀疏关键点（SuperPoint）和稠密匹配（LoFTR）都给不出稳定一致的对应，导致基于特征的 SfM 失效。

本文目标：在统一世界坐标系下，从单个移动视角的单目 RGB 视频，同时恢复人体、未知（unseen）被操纵物体、静态场景三者的细节 3D 形状与外观，且不需要预扫描物体模板、不需要标定相机。

切入角度：作者的两个关键观察——(1) 近期 3D 感知基础模型（MASt3R）把对应当作 3D 点图回归而非 2D 图像匹配，在低纹理区域反而格外鲁棒，可以撑起物体的 SfM；(2) 神经 SDF 不只编码几何，它给出的是连续可微的"到物体表面的有符号距离"，天然就是推理接触的理想信号。

核心 idea："先解耦再联合"——先用 3D 基础模型 + 相机运动减法把人/物/景对齐进一个世界坐标系，再用逐组件神经 SDF 联合优化恢复细节，并复用同一套 SDF 距离构造可微接触损失把手"吸"到物体表面、同时惩罚穿模。

方法详解¶

整体框架¶

RHINO 是一个三阶段框架。输入是单段移动视角的单目 RGB 视频（一个人在操纵一个刚性物体），输出是世界坐标系下人体、物体、场景三者的细节 4D 几何 + 外观。整体逻辑是：第一阶段用现成模型在各自坐标系下拿到粗初始化（场景点云 + 相机运动、物体表观运动、相机系人体）；第二阶段把这三者对齐进同一个世界坐标系，核心是把相机运动从物体表观运动里"减掉"得到真实物体运动；第三阶段用逐组件神经 SDF + 外观场做联合体渲染优化恢复细节，并在最后用 SDF 距离构造的接触/碰撞损失做两阶段交替精修，提升物理合理性。

在世界坐标系（而非各自相机系）里做联合优化是关键：它把所有帧、所有组件放在同一空间里多帧约束，从而缓解逐帧初始化的误差。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单目移动视角<br/>RGB 视频"] --> B["SAM2 分割<br/>人 / 物 / 景三路像素"]
    B -->|场景背景像素| C["相机运动 + 场景点云<br/>(SfM)"]
    B -->|物体像素| D["3D 基础模型物体位姿初始化<br/>MASt3R 稠密对应 → 表观运动"]
    B -->|人体像素| E["AiOS 估 SMPL-X<br/>相机系人体"]
    C --> F["相机-物体运动解耦<br/>从表观运动减相机运动"]
    D --> F
    E --> F
    F --> G["逐组件神经 SDF<br/>世界系联合优化 + 体渲染"]
    G --> H["SDF 可微接触/碰撞先验<br/>两阶段交替精修位姿"]
    H --> I["世界系 4D 人-物-景重建"]

关键设计¶

1. 3D 基础模型驱动的物体位姿初始化：用点图对应救活低纹理物体的 SfM

物体重建的第一道坎是它在全身视频里往往低纹理、对称、还被遮挡、只占画面一小块，传统稀疏关键点（SuperPoint）会因为关键点不可重复检测而失败，无关键点的稠密匹配（LoFTR）又在帧间不一致。作者不去改 SfM 本身，而是换掉它的对应来源：用 MASt3R 在相邻帧的物体像素上建立稠密对应。MASt3R 把对应建模成基于点图（pointmap）回归的 3D 任务，而不是图像空间里的 2D 问题，因此在低纹理区域得到的对应更准更稳。基于这些可靠匹配做三角化，就得到一条"假设物体静止"时的合成相机轨迹 \(\mathbf{C}_{\text{obj}}\)。消融里这一替换直接体现为物体位姿质量的代差：在 SP+SG、LoFTR、本文三者对比中，物体重建 CD 从 4.25 / 3.97 cm 降到 1.09 cm，F1 从 60 / 63% 升到 91.4%。

2. 相机-物体运动解耦：把相机运动从表观运动里"减掉"才能拿到真实物体运动

移动相机让物体的"表观运动"同时包含相机运动和物体自身运动，二者纠缠。作者先在静态背景像素上做 SfM 得到真实相机轨迹 \(\mathbf{C}_{\text{scn}}\)，再把上一步得到的物体轨迹 \(\mathbf{C}_{\text{obj}}\)（表观）对齐过来。世界系物体位姿序列 \(\mathbf{P}_{\text{obj}}\) 满足 \(\mathbf{T}\cdot\mathbf{S}\cdot\mathbf{C}_{\text{obj}}=\mathbf{C}_{\text{scn}}\cdot\mathbf{P}_{\text{obj}}\)，其中 \(\mathbf{S}\) 是尺度、\(\mathbf{T}=[\mathbf{R},\mathbf{t};\mathbf{0},1]\) 是刚性变换。关键技巧是用 RANSAC 找出"物体静止帧"\(i'\)（此时 \(\mathbf{P}_{\text{obj}}^{i'}=I\)），方程退化成 \(\mathbf{T}\cdot\mathbf{S}\cdot\mathbf{C}_{\text{obj}}=\mathbf{C}_{\text{scn}}\)，于是能用 Umeyama 最小二乘求出尺度/旋转/平移：

\[\min_{\mathbf{s},\mathbf{R},\mathbf{t}}\sum_{i'=1}^{n}\|\mathbf{s}\mathbf{R}\mathbf{c}_{\text{obj}}^{i}+\mathbf{t}-\mathbf{c}_{\text{scn}}^{i}\|^{2}\]

求得对齐后，世界系物体位姿即 \(\mathbf{P}_{\text{obj}}=\mathbf{C}_{\text{scn}}^{-1}\cdot\mathbf{T}\cdot\mathbf{S}\cdot\mathbf{C}_{\text{obj}}\)——本质就是先 Procrustes 把 \(\mathbf{C}_{\text{obj}}\) morph 到真实尺度坐标，再把真实相机运动 \(\mathbf{C}_{\text{scn}}\) 除掉，剩下的就是纯物体运动。人体同理：把相机系下弱透视假设的 SMPL-X 轨迹，靠 2D 投影约束 + 在场景点云上 RANSAC 估出的地面接触约束，恢复到世界系透视相机下。这一步是整个世界系重建的命门：消融里去掉运动解耦（w/o MD），CD 从 2.65 暴涨到 10.21 cm、F1 从 56% 崩到 26%。

3. 逐组件神经 SDF 的组合式联合优化：在世界系里多帧约束、各自规范空间建模

初始化只是粗形状，细节靠组合式神经场恢复。人体 \(H\)、物体 \(O\)、场景 \(S\) 各有一个神经 SDF \(f_{\text{sdf}}^{(\cdot)}\)，把 3D 点映射到有符号距离 \(\xi^{(\cdot)}\) 和几何特征 \(\mathbf{z}^{(\cdot)}\)；其中人体场额外以身体关节 \(\boldsymbol{\theta}_b\)（不含全局朝向/平移）为条件以捕捉衣物褶皱等姿态相关形变。各组件还配一个外观场 \(f_{\text{rgb}}^{(\cdot)}\) 输出 RGB，且都以形状特征 \(\mathbf{z}\) 和法向 \(\mathbf{n}\)（由 SDF 梯度算出）为条件以解耦形状与外观；物体/场景外观还引入逐帧隐码以捕捉阴影高光。人体场在规范空间建模、用逆 LBS 与世界系互映（\(\mathbf{x}^H=LBS^{-1}(\mathbf{x}'^{H},\boldsymbol{\theta})\)），物体则直接用位姿映射（\(\mathbf{x}^O=\mathbf{P}_{obj}^{-1}\mathbf{x}'^{O}\)）。渲染时对每条相机射线在三组件包围盒内各采 \(N\) 点、按到相机距离排序做组合式体渲染 \(C(r)=\sum_{i=1}^{3N}\tau_i\mathbf{c}^{(\cdot)}(\mathbf{x}^i)\)，自然处理组件间遮挡。训练用逐像素 RGB 损失 + mask/深度/法向辅助损失，在所有帧上全局优化。针对近距离 HOI 的严重互遮挡，作者还在 SMPL-X 体内采点（负 SDF）、体外采点（正 SDF）做约束，并用一个由 SMPL-X 网格引导的手部专属 SDF 损失防止手几何糊成一团。

4. SDF 可微接触先验 + 两阶段交替精修：让手真正贴上物体而不穿模

像素对齐好不代表 3D 里彼此对齐——深度歧义会让手悬在物体上方或扎进物体内部。作者复用物体的神经 SDF 把这件事变成可微：对每个身体接触点 \(x_c\)，定义 \(\xi^{O}_{x_c}=f_{sdf}^{O}(x_c)\) 作为它到物体表面的有符号距离，据此构造接触/碰撞损失

\[\mathcal{L}_{\text{contact}}=\alpha_1\tanh(\xi^{O}_{x_c}/\alpha_2)^2\ \ (\xi^{O}_{x_c}\!\geq\!0),\qquad \mathcal{L}_{\text{collision}}=\beta_1\tanh(\xi^{O}_{x_c}/\beta_2)^2\ \ (\xi^{O}_{x_c}\!<\!0)\]

即点在体外（\(\xi\geq0\)）就被吸向表面、点在体内（\(\xi<0\)）就被推出表面。接触点本身由图像级 InteractVLM 估计，但它有误检和时序抖动；作者用一个巧妙的物理线索过滤：物体只有被操纵时才会动，所以"有物体运动的帧"才标为接触帧，从而压掉无交互帧上的假阳性，再加时序滤波。最后是两阶段交替策略：一开始就上物理损失会因穿模破坏物体形状，所以第一阶段只用 RGB/mask/形状损失优化一切；第二阶段冻结形状网络和外观网络、只优化人体与物体位姿、并加入物理损失；两阶段在整个优化中交替进行，使物理损失只修位姿、不腐蚀物体形状。消融显示它把穿透深度 PD 几乎减半（1.088→0.477 cm）、接触召回率近乎三倍（18.4%→63.6%）。

损失函数 / 训练策略¶

第一阶段（形状/外观学习）：逐像素 RGB 损失 + mask/深度/法向辅助损失 + SMPL-X 体内外 SDF 约束 + 手部专属 SDF 损失，在世界系全帧全局优化。
第二阶段（物理精修）：冻结所有形状/外观网络，仅优化人/物位姿，加入接触损失 \(\mathcal{L}_{\text{contact}}\) 与碰撞损失 \(\mathcal{L}_{\text{collision}}\)。
两阶段交替执行，避免物理损失破坏物体几何。

实验关键数据¶

主实验¶

评测数据集 BenchRHINO：手持移动相机在含 106 台同步相机（53 RGB + 53 IR，12MP@30FPS）的体素 4D 采集棚里拍摄，7 个序列、4 个被试操纵 6 个物体，提供 4D HOI 几何与相机运动真值；另有 WildRHINO（5 序列、室内自然场景）做定性评测。形状用 Chamfer(CD)/Hausdorff(HD)/F1@2cm 评测（基线在相机系，先 ICP 对齐到真值），新视角合成用 PSNR/SSIM/LPIPS。

形状重建（Table 1，CD / HD / F1，列 H=人 O=物 S=景）：

方法	重建 H/O/S	CD-H ↓	CD-O ↓	F1-H ↑	F1-O ↑
HSR	H, S	2.69	—	55.17	—
HOLD	O	—	4.41	—	33.64
InterTrack	H, O	4.66	11.16	29.41	16.81
RHINO	H, O, S	2.65	1.21	56.16	90.42

RHINO 是唯一同时重建人/物/景的方法；物体重建 CD 1.21 cm、F1 90.42%，把只做物体的 HOLD（4.41 cm / 33.64%）和做 HOI 的 InterTrack（11.16 cm / 16.81%）甩开一大截。

新视角合成（Table 2，BenchRHINO 全序列）：

方法	PSNR ↑	SSIM ↑	LPIPS ↓
HSR	22.65	0.791	0.246
HOLD	17.92	0.646	0.513
RHINO	25.80	0.832	0.212

消融实验¶

配置	关键指标	说明
物体位姿：SP+SG	CD 4.25 / HD 25.43 / F1 60.06	大块无纹理物体上关键点不可重复，退化
物体位姿：LoFTR	CD 3.97 / HD 20.19 / F1 62.80	复杂运动下对应不够准
物体位姿：RHINO(MASt3R)	CD 1.09 / HD 10.94 / F1 91.38	3D 点图对应，鲁棒准确
w/o MD（无运动解耦）	CD 10.21 / F1 26.32 / PSNR 22.89	直接用表观运动，世界系重建崩溃
完整 RHINO	CD 2.65 / F1 56.16 / PSNR 25.80	—
w/o Contact Opt（无接触精修）	PD 1.088 / Recall 18.39 / F1 20.84	手悬空或穿模
完整 RHINO	PD 0.477 / Recall 63.57 / F1 36.57	穿透深度减半、召回近三倍

自定义/关键指标说明：PD（penetration depth, 穿透深度，cm) 衡量手等部位扎进物体内部的深度，越低越物理合理；接触 Precision/Recall/F1 以真值接触为参照评测预测接触点的准确率/召回率。

关键发现¶

运动解耦（MD）是最关键的一环：去掉它 CD 直接从 2.65 飙到 10.21 cm，因为相机运动没减掉，物体在世界系里的位置就全错了——这是"移动相机单目"这个设定下绕不过去的核心难点。
物体位姿初始化的质量决定上限：把 MASt3R 换成传统特征匹配，物体重建 F1 从 91% 掉到 60% 量级；甚至给 HOLD 喂上 RHINO 的物体位姿（HOLD*），其物体形状就显著变好，说明瓶颈确实在位姿而非形状网络。
接触精修主要改物理合理性而非纯几何：它把穿透深度减半、接触召回从 18% 提到 64%，让手"真正贴上"物体，这是新视角下肉眼可见的差异（论文 Fig. 8 红圈）。
基线的失败模式很统一：HOLD 物体位姿噪声大就崩、且不建模交互；InterTrack 对训练分布外的新物体泛化差、且只出稀疏点云；HSR 干脆处理不了动态物体。

亮点与洞察¶

"减法"思路解纠缠：把相机运动从表观运动里减掉这一步，配合"RANSAC 找静止帧 → 退化方程 → Umeyama 闭式解"，用一套经典几何工具干净地解决了移动单目最棘手的运动纠缠，没有引入额外学习负担。
一物两用的神经 SDF：同一个 SDF 既当几何表示又当接触距离场，省掉了显式接触检测，把"手该不该贴着物体"变成可微优化目标，这个 repurpose 很优雅、可直接迁移到任何带 SDF 的多组件重建。
用物体运动给接触检测去噪：把"物体在动的帧才可能有接触"作为先验来压 InteractVLM 的假阳性，是一个几乎零成本但非常 specific 的工程洞察。
两阶段交替防止物理损失反噬形状：先学形状再只修位姿、交替进行，避免了"上来就加接触损失把物体形状压扁"的常见坑，值得在所有"先重建后施加物理约束"的 pipeline 里借鉴。
配套的 BenchRHINO 数据集：首个移动视角 + 全身 HOI + 4D 真值的基准（用 AprilTag + SAM2 mask loss 标定 iPhone 相机轨迹），填补了"现有 HOI 数据集都是静态相机"的空白。

局限性 / 可改进方向¶

只支持单人单刚体：多人或多物体的复杂场景目前处理不了（作者明确承认）。
假设物体刚性：非刚性/铰接物体（如可开合的箱子）不在能力范围内，是重要的未来方向。
优化慢：当前是逐场景优化，速度慢，AR/VR 和机器人应用需要的快速 4D 捕获还做不到。
依赖良好的物体可见度：在稀疏观测/物体覆盖差时性能下降，鲁棒性还有提升空间。
强依赖多个现成模型（SAM2 / MASt3R / AiOS / Sapiens / InteractVLM），任一环节失败会向下游传播；且评测仅 7 个标注序列，规模偏小。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个从移动单目视频在世界系联合重建"人+未知物体+场景"的框架，运动解耦 + SDF 接触先验两处都很扎实。
实验充分度: ⭐⭐⭐⭐ 主实验 + 三组消融都清楚证明了各阶段贡献，但标注序列仅 7 个、规模偏小。
写作质量: ⭐⭐⭐⭐⭐ 三阶段逻辑递进、图（Fig. 2/3/4）与公式配合讲清了"为什么纠缠、怎么解"，可读性强。
价值: ⭐⭐⭐⭐⭐ 给 AR/VR、机器人、从网络视频学操纵提供了免模板免标定的 4D HOI 重建基线 + 配套基准数据集。