跳转至

Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

会议: ICCV 2025
arXiv: 2504.07961
代码: https://geo4d.github.io
领域: 3D视觉
关键词: 4D重建, 视频扩散模型, 多模态几何, 点云图, 视差图, 射线图, 动态场景

一句话总结

将预训练视频扩散模型(DynamiCrafter)改造为单目4D动态场景重建器——同时预测点云图、视差图和射线图三种互补几何模态,通过多模态对齐融合算法和滑动窗口推理,仅用合成数据训练即可零样本泛化至真实视频,大幅超越当前视频深度估计SOTA。

研究背景与动机

核心问题

单目视频的前馈式4D重建,即从单眼视频直接恢复动态场景的3D几何(含相机运动和动态物体运动),是计算机视觉中一个极度困难但影响深远的问题——广泛应用于视频理解、计算机图形学和机器人技术。

现有方法的不足

迭代优化方法(NeRF/3DGS-based):需要逐视频优化,计算开销大且需要精确的单目深度先验(如MegaSaM、Uni4D)。

前馈方法(如MonST3R):基于DUSt3R扩展至动态场景,但模型架构高度定制化,需要大量带3D标注的真实训练数据。此类数据对动态场景极难获取,退而使用合成数据又存在域差距问题。

深度扩散模型(如DepthCrafter):仅估计深度,未恢复完整的4D几何(相机运动+3D结构)。

关键洞察

视频生成模型(world simulator proxy)隐含了对相机运动、透视效果和物体运动的理解,但仅生成像素而非可操作的3D信息。Geo4D的核心思想是将这种隐式3D理解显式化——通过微调视频扩散模型使其直接输出几何模态。

为什么需要多模态?

单一的视点不变点云图(viewpoint-invariant point map)虽然能编码完整4D几何,但动态范围有限:远处物体和天空(深度无穷)无法表示。因此引入: - 视差图(disparity map):零即表示无穷远,动态范围更好 - 射线图(ray map):编码相机参数,对所有像素有定义,与场景几何无关

三种模态原理上冗余,但实践中互补——融合后显著提升鲁棒性。

方法详解

整体框架

输入单目视频 \(\mathcal{I}=\{I^i\}_{i=1}^N\),网络 \(f_\theta\) 同时输出每帧的三种几何模态: $\(f_\theta: \{I^i\}_{i=1}^N \mapsto \{(D^i, X^i, r^i)\}_{i=1}^N\)$ 其中 \(D^i \in \mathbb{R}^{H \times W \times 1}\) 为视差图,\(X^i \in \mathbb{R}^{H \times W \times 3}\) 为视点不变点云图(参考第一帧坐标系),\(r^i \in \mathbb{R}^{H \times W \times 6}\) 为Plücker坐标射线图。无需输入任何相机参数。

关键设计

1. 多模态潜在编码

基于DynamiCrafter的VAE编解码器: - 视差图和射线图:直接复用预训练的图像编解码器,无需修改 - 点云图:对VAE decoder进行微调,使用带不确定性的重建损失: $\(\mathcal{L} = -\sum_{uv} \ln \frac{1}{\sqrt{2}\sigma_{uv}} \exp \frac{-\sqrt{2}\ell_1(\mathcal{D}(\mathcal{E}(X))_{uv}, X_{uv})}{\sigma_{uv}}\)$ 其中 \(\sigma\) 是decoder附加分支预测的不确定性,encoder保持冻结以最小化潜空间改变。点云图归一化至 \([-1,1]\) 以适配预训练encoder。

2. 视频条件注入(双流)

  • 全局流:每帧 \(I^i\) 经CLIP编码后通过轻量query transformer,在U-Net各block中以cross-attention注入
  • 局部流:VAE encoder提取空间特征,与三种几何模态的噪声潜变量在channel维度拼接

3. 多模态对齐融合(核心推理算法)

推理时使用滑动窗口(\(V=16\)帧,步幅\(s=4\))分割长视频为重叠clip,然后通过以下四项损失联合优化实现全局一致融合:

点云图对齐(group-wise扩展DUSt3R): $\(\mathcal{L}_p = \sum_{g \in \mathcal{G}} \sum_{i \in g} \sum_{uv} \left\| \frac{X^i_{uv} - \lambda_p^g P_p^g X^{i,g}_{uv}}{\sigma^{i,g}_{uv}} \right\|_1\)$ 从中恢复每帧的 \(K_p^i, R_p^i, o_p^i, D_p^i\)(相机内参、旋转、中心、视差)。

视差图对齐: $\(\mathcal{L}_d = \sum_{g} \sum_{i \in g} \|D_p^i - \lambda_d^g D_d^{i,g} - \beta_d^g\|_1\)$

射线图对齐(相机轨迹对齐): $\(\mathcal{L}_c = \sum_{g} \sum_{i \in g} (\|R_p^{i\top} R_c^g R_c^{i,g} - I\|_f + \|\lambda_c^g o_c^{i,g} + \beta_c^g - o_p^i\|_2)\)$

轨迹平滑正则: $\(\mathcal{L}_s = \sum_{i=1}^N (\|R_p^{i\top} R_p^{i+1} - I\|_f + \|o_p^{i+1} - o_p^i\|_2)\)$

最终目标:\(\mathcal{L}_{all} = \alpha_1 \mathcal{L}_p + \alpha_2 \mathcal{L}_d + \alpha_3 \mathcal{L}_c + \alpha_4 \mathcal{L}_s\)

训练策略

  • 仅用5个合成数据集(Spring, BEDLAM, PointOdyssey, TarTanAir, VirtualKitti)
  • 渐进式训练:先训点云图单模态 → 多分辨率训练 → 逐步加入射线图和深度图
  • 4×H100 GPU,约一周
  • 推理用DDIM 5步采样

实验

主实验:视频深度估计

方法 Sintel AbsRel↓ Sintel δ<1.25↑ Bonn AbsRel↓ Bonn δ<1.25↑ KITTI AbsRel↓ KITTI δ<1.25↑
Depth-Anything-V2 0.367 55.4 0.106 92.1 0.140 80.4
DepthCrafter 0.270 69.7 0.071 97.2 0.104 89.6
MonST3R 0.335 58.5 0.063 96.4 0.104 89.5
Geo4D 0.205 73.5 0.059 97.2 0.086 93.7

Geo4D在三个数据集上全面领先:相比同源DepthCrafter,Sintel上AbsRel降低24%,KITTI降低17.3%。

相机位姿估计

方法 Sintel ATE↓ Sintel RPE-R↓ TUM ATE↓ TUM RPE-R↓
MonST3R 0.108 0.732 0.063 1.217
Geo4D 0.185 0.547 0.073 0.635

首个用生成模型估计动态场景相机参数的方法。旋转估计(RPE-R)大幅优于判别式方法,平移估计可比。

消融实验:多模态训练与推理

训练模态 推理模态 Sintel AbsRel↓ ATE↓ RPE-R↓
仅点云图 仅点云图 0.232 0.335 0.731
三模态 仅点云图 0.223 0.237 0.566
三模态 仅视差图 0.211
三模态 全部融合 0.205

关键发现: - 多模态训练即使只用点云图推理也提升效果(辅助任务效应) - 视差图在纯深度指标上表现最好(更好的动态范围) - 三模态融合全面最优

亮点与洞察

  1. 范式创新:首次证明通用视频扩散模型可被有效改造为4D几何重建器,不需要定制化3D架构
  2. 多模态互补设计精巧:点云图编码完整结构但动态范围受限,视差图处理远景,射线图处理相机参数——每种模态覆盖其他模态的弱点
  3. 合成数据零样本泛化:得益于视频生成模型的强先验,仅合成数据训练即可很好泛化至真实视频
  4. 不确定性驱动的对齐:VAE decoder预测的不确定性\(\sigma\)直接参与多模态融合优化,自动降低不可靠预测的权重

局限性

  1. 点云图的scale ambiguity——单目视频无法确定绝对尺度,仅能恢复up-to-scale的几何
  2. 推理速度受限于扩散采样(虽然DDIM 5步已加速,但仍非实时)
  3. 对极端动态场景(快速遮挡/出现)的鲁棒性需要进一步验证
  4. 滑动窗口策略在超长视频上的误差累积问题

相关工作

  • 动态场景重建: DUSt3R → MonST3R → Easi3R(静态→动态的渐进扩展)
  • 几何扩散模型: Marigold(图像深度)、DepthCrafter(视频深度)、Aether(深度+射线图)、GeometryCrafter(点云图VAE)
  • 视频基础模型: DynamiCrafter、SVD等作为3D/4D理解的基座

评分

  • 新颖性:⭐⭐⭐⭐⭐ — 视频扩散→4D几何的完整流水线,多模态设计原创性强
  • 技术深度:⭐⭐⭐⭐⭐ — 多模态编码/解码/对齐的完整数学框架
  • 实验充分度:⭐⭐⭐⭐ — 多基准对比、消融完整,缺少效率分析
  • 实用价值:⭐⭐⭐⭐ — 零样本泛化能力强,但推理速度需改进