Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction¶
会议: ICCV 2025
arXiv: 2504.07961
代码: https://geo4d.github.io
领域: 3D视觉
关键词: 4D重建, 视频扩散模型, 多模态几何, 点云图, 视差图, 射线图, 动态场景
一句话总结¶
将预训练视频扩散模型(DynamiCrafter)改造为单目4D动态场景重建器——同时预测点云图、视差图和射线图三种互补几何模态,通过多模态对齐融合算法和滑动窗口推理,仅用合成数据训练即可零样本泛化至真实视频,大幅超越当前视频深度估计SOTA。
研究背景与动机¶
核心问题¶
单目视频的前馈式4D重建,即从单眼视频直接恢复动态场景的3D几何(含相机运动和动态物体运动),是计算机视觉中一个极度困难但影响深远的问题——广泛应用于视频理解、计算机图形学和机器人技术。
现有方法的不足¶
迭代优化方法(NeRF/3DGS-based):需要逐视频优化,计算开销大且需要精确的单目深度先验(如MegaSaM、Uni4D)。
前馈方法(如MonST3R):基于DUSt3R扩展至动态场景,但模型架构高度定制化,需要大量带3D标注的真实训练数据。此类数据对动态场景极难获取,退而使用合成数据又存在域差距问题。
深度扩散模型(如DepthCrafter):仅估计深度,未恢复完整的4D几何(相机运动+3D结构)。
关键洞察¶
视频生成模型(world simulator proxy)隐含了对相机运动、透视效果和物体运动的理解,但仅生成像素而非可操作的3D信息。Geo4D的核心思想是将这种隐式3D理解显式化——通过微调视频扩散模型使其直接输出几何模态。
为什么需要多模态?¶
单一的视点不变点云图(viewpoint-invariant point map)虽然能编码完整4D几何,但动态范围有限:远处物体和天空(深度无穷)无法表示。因此引入: - 视差图(disparity map):零即表示无穷远,动态范围更好 - 射线图(ray map):编码相机参数,对所有像素有定义,与场景几何无关
三种模态原理上冗余,但实践中互补——融合后显著提升鲁棒性。
方法详解¶
整体框架¶
输入单目视频 \(\mathcal{I}=\{I^i\}_{i=1}^N\),网络 \(f_\theta\) 同时输出每帧的三种几何模态: $\(f_\theta: \{I^i\}_{i=1}^N \mapsto \{(D^i, X^i, r^i)\}_{i=1}^N\)$ 其中 \(D^i \in \mathbb{R}^{H \times W \times 1}\) 为视差图,\(X^i \in \mathbb{R}^{H \times W \times 3}\) 为视点不变点云图(参考第一帧坐标系),\(r^i \in \mathbb{R}^{H \times W \times 6}\) 为Plücker坐标射线图。无需输入任何相机参数。
关键设计¶
1. 多模态潜在编码¶
基于DynamiCrafter的VAE编解码器: - 视差图和射线图:直接复用预训练的图像编解码器,无需修改 - 点云图:对VAE decoder进行微调,使用带不确定性的重建损失: $\(\mathcal{L} = -\sum_{uv} \ln \frac{1}{\sqrt{2}\sigma_{uv}} \exp \frac{-\sqrt{2}\ell_1(\mathcal{D}(\mathcal{E}(X))_{uv}, X_{uv})}{\sigma_{uv}}\)$ 其中 \(\sigma\) 是decoder附加分支预测的不确定性,encoder保持冻结以最小化潜空间改变。点云图归一化至 \([-1,1]\) 以适配预训练encoder。
2. 视频条件注入(双流)¶
- 全局流:每帧 \(I^i\) 经CLIP编码后通过轻量query transformer,在U-Net各block中以cross-attention注入
- 局部流:VAE encoder提取空间特征,与三种几何模态的噪声潜变量在channel维度拼接
3. 多模态对齐融合(核心推理算法)¶
推理时使用滑动窗口(\(V=16\)帧,步幅\(s=4\))分割长视频为重叠clip,然后通过以下四项损失联合优化实现全局一致融合:
点云图对齐(group-wise扩展DUSt3R): $\(\mathcal{L}_p = \sum_{g \in \mathcal{G}} \sum_{i \in g} \sum_{uv} \left\| \frac{X^i_{uv} - \lambda_p^g P_p^g X^{i,g}_{uv}}{\sigma^{i,g}_{uv}} \right\|_1\)$ 从中恢复每帧的 \(K_p^i, R_p^i, o_p^i, D_p^i\)(相机内参、旋转、中心、视差)。
视差图对齐: $\(\mathcal{L}_d = \sum_{g} \sum_{i \in g} \|D_p^i - \lambda_d^g D_d^{i,g} - \beta_d^g\|_1\)$
射线图对齐(相机轨迹对齐): $\(\mathcal{L}_c = \sum_{g} \sum_{i \in g} (\|R_p^{i\top} R_c^g R_c^{i,g} - I\|_f + \|\lambda_c^g o_c^{i,g} + \beta_c^g - o_p^i\|_2)\)$
轨迹平滑正则: $\(\mathcal{L}_s = \sum_{i=1}^N (\|R_p^{i\top} R_p^{i+1} - I\|_f + \|o_p^{i+1} - o_p^i\|_2)\)$
最终目标:\(\mathcal{L}_{all} = \alpha_1 \mathcal{L}_p + \alpha_2 \mathcal{L}_d + \alpha_3 \mathcal{L}_c + \alpha_4 \mathcal{L}_s\)
训练策略¶
- 仅用5个合成数据集(Spring, BEDLAM, PointOdyssey, TarTanAir, VirtualKitti)
- 渐进式训练:先训点云图单模态 → 多分辨率训练 → 逐步加入射线图和深度图
- 4×H100 GPU,约一周
- 推理用DDIM 5步采样
实验¶
主实验:视频深度估计¶
| 方法 | Sintel AbsRel↓ | Sintel δ<1.25↑ | Bonn AbsRel↓ | Bonn δ<1.25↑ | KITTI AbsRel↓ | KITTI δ<1.25↑ |
|---|---|---|---|---|---|---|
| Depth-Anything-V2 | 0.367 | 55.4 | 0.106 | 92.1 | 0.140 | 80.4 |
| DepthCrafter | 0.270 | 69.7 | 0.071 | 97.2 | 0.104 | 89.6 |
| MonST3R | 0.335 | 58.5 | 0.063 | 96.4 | 0.104 | 89.5 |
| Geo4D | 0.205 | 73.5 | 0.059 | 97.2 | 0.086 | 93.7 |
Geo4D在三个数据集上全面领先:相比同源DepthCrafter,Sintel上AbsRel降低24%,KITTI降低17.3%。
相机位姿估计¶
| 方法 | Sintel ATE↓ | Sintel RPE-R↓ | TUM ATE↓ | TUM RPE-R↓ |
|---|---|---|---|---|
| MonST3R | 0.108 | 0.732 | 0.063 | 1.217 |
| Geo4D | 0.185 | 0.547 | 0.073 | 0.635 |
首个用生成模型估计动态场景相机参数的方法。旋转估计(RPE-R)大幅优于判别式方法,平移估计可比。
消融实验:多模态训练与推理¶
| 训练模态 | 推理模态 | Sintel AbsRel↓ | ATE↓ | RPE-R↓ |
|---|---|---|---|---|
| 仅点云图 | 仅点云图 | 0.232 | 0.335 | 0.731 |
| 三模态 | 仅点云图 | 0.223 | 0.237 | 0.566 |
| 三模态 | 仅视差图 | 0.211 | — | — |
| 三模态 | 全部融合 | 0.205 | — | — |
关键发现: - 多模态训练即使只用点云图推理也提升效果(辅助任务效应) - 视差图在纯深度指标上表现最好(更好的动态范围) - 三模态融合全面最优
亮点与洞察¶
- 范式创新:首次证明通用视频扩散模型可被有效改造为4D几何重建器,不需要定制化3D架构
- 多模态互补设计精巧:点云图编码完整结构但动态范围受限,视差图处理远景,射线图处理相机参数——每种模态覆盖其他模态的弱点
- 合成数据零样本泛化:得益于视频生成模型的强先验,仅合成数据训练即可很好泛化至真实视频
- 不确定性驱动的对齐:VAE decoder预测的不确定性\(\sigma\)直接参与多模态融合优化,自动降低不可靠预测的权重
局限性¶
- 点云图的scale ambiguity——单目视频无法确定绝对尺度,仅能恢复up-to-scale的几何
- 推理速度受限于扩散采样(虽然DDIM 5步已加速,但仍非实时)
- 对极端动态场景(快速遮挡/出现)的鲁棒性需要进一步验证
- 滑动窗口策略在超长视频上的误差累积问题
相关工作¶
- 动态场景重建: DUSt3R → MonST3R → Easi3R(静态→动态的渐进扩展)
- 几何扩散模型: Marigold(图像深度)、DepthCrafter(视频深度)、Aether(深度+射线图)、GeometryCrafter(点云图VAE)
- 视频基础模型: DynamiCrafter、SVD等作为3D/4D理解的基座
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 视频扩散→4D几何的完整流水线,多模态设计原创性强
- 技术深度:⭐⭐⭐⭐⭐ — 多模态编码/解码/对齐的完整数学框架
- 实验充分度:⭐⭐⭐⭐ — 多基准对比、消融完整,缺少效率分析
- 实用价值:⭐⭐⭐⭐ — 零样本泛化能力强,但推理速度需改进