ARTDECO:用分层高斯结构 + 前馈先验做高保真在线 3D 重建¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=QxvDyJP7g9
代码: https://city-super.github.io/artdeco/(项目主页,承诺录用后开源)
领域: 3D 视觉 / 在线 3D 重建 / SLAM / 3D Gaussian Splatting
关键词: On-the-fly Reconstruction, Monocular SLAM, 3D Gaussian Splatting, Feed-forward Foundation Model, Level-of-Detail
一句话总结¶
ARTDECO 把前馈 3D 基础模型(MASt3R / π³)当作模块化的位姿与点云先验,接上一个能从多尺度特征解码出结构化高斯的 Gaussian decoder,再配上带 LoD 的分层半隐式高斯表示,从单目视频流里同时拿到 SLAM 级速度、前馈级鲁棒性和接近逐场景优化的渲染质量。
研究背景与动机¶
领域现状:从单目图像序列做在线(on-the-fly)3D 重建是 real-to-sim、AR/VR、机器人等应用的刚需。3D Gaussian Splatting(3DGS)凭借显式表示和高效光栅化成为主流场景表示,但单目设置下缺乏可靠几何线索(尺度模糊、视差有限、运动模糊、重叠不足),很难同时兼顾精度、速度和鲁棒性。
现有痛点:当前 3DGS 重建分两条路线,各有硬伤。逐场景优化派(MonoGS、On-the-fly-NVS 等)依赖 SfM/SLAM 估计的位姿,精度高但计算昂贵,且鲁棒性受限于这些管线的脆弱性;前馈派(用大规模数据学单目先验、直接回归位姿和高斯基元)推理快、跨场景鲁棒,但渲染保真度低、全局一致性弱。此外 3DGS 对场景尺度极其敏感——场景一大,所需高斯基元数量暴涨,效率骤降;已有的事后锚点剪枝会引入边界伪影、增加显存,训练期加多尺度高斯又缺乏显式结构组织。
核心矛盾:效率与精度不可兼得,叠加缺乏一个原则化的 level-of-detail(LoD)机制来应对大尺度可漫游场景。
本文目标:造一个统一系统,把前馈模型的效率与逐场景优化的可靠性合到一起,做到精确、鲁棒、实时的在线重建。
核心 idea:「前馈先验当模块 + 分层 LoD 高斯当表示」。一方面把前馈基础模型拆成位姿估计、闭环检测、稠密点云预测三个即插即用模块塞进 SLAM 式管线,用它们压住单目歧义又保住交互速度;另一方面设计一个挂在稀疏空间网格上的分层半隐式高斯结构,用 LoD-aware 致密化在保真度和渲染效率之间做原则化权衡。
方法详解¶
整体框架¶
ARTDECO(名字取自 Accurate localization + Robust reconstruction + Decoder-based rendering,也呼应 Art Deco 风格对结构与几何的强调)以流式 SLAM 风格处理单目序列,分三个模块串联。
flowchart LR
A[单目 RGB 帧流] --> B[前端 Frontend]
B -->|MASt3R 匹配<br/>估相对位姿| C{帧分类}
C -->|关键帧/建图帧| D[后端 Backend]
C -->|普通帧| F[建图模块]
D -->|π³ 闭环检测<br/>全局 BA| E[一致位姿 + 点云置信度]
E --> F[建图模块 Mapping]
F -->|LoG 选点初始化<br/>分层半隐式高斯| G[结构化 3D 高斯场]
G -->|LoD-aware 光栅化| H[新视角渲染]
前端给每帧估计相对最新关键帧的位姿,并把帧分成普通帧 / 建图帧 / 关键帧三类;后端通过闭环和全局 BA 精修关键帧位姿,并估计点云置信度;建图模块用所有类型的帧把逐图点云初始化成高斯并增量优化。三类帧各司其职是这套设计的关键——不像传统 3DGS-SLAM 只用关键帧。
关键设计¶
1. 前馈基础模型作即插即用先验:用 MASt3R 跟踪、用 π³ 闭环。 前端把 MASt3R 当作两视图重建与匹配先验,拿到逐帧点云、置信度和当前帧与最新关键帧之间的像素对应,再把当前帧 3D 点投影到关键帧像平面、用 Gauss–Newton 最小化重投影残差求出 \(T_{KC} \in \mathrm{SIM}(3)\) 相对位姿;焦距未知时与位姿联合优化。由于 MASt3R 在物体边界处预测不稳,作者对每个点从半径 \(\delta\) 邻域估一个局部协方差 \(\Sigma_c\) 来加权残差、过滤掉不可靠的重投影。后端则在 ASMK 粗筛闭环候选后,再用 3D 基础模型 π³ 对当前帧和 top-\(N_a\) 候选生成点云、按角度误差挑出三个几何最一致的关键帧连进因子图,比单纯 ASMK 更抗弱对应和噪声。值得注意的是消融显示把前端骨干从 MASt3R(成对推理)换成 π³(多图推理)反而更差——π³ 缺乏 metric-scale 能力、在视角变化下保不住物体比例。
2. 三类帧分流 + 重投影置信度。 关键帧在与最新关键帧的有效对应数低于阈值 \(\tau_k\) 时创建,送后端精修位姿、送建图重建;建图帧在能提供足够视差时选出(当前帧与最新关键帧像素位移的第 70 百分位超过 \(\tau_m\)),用来初始化新高斯;普通帧两个条件都不满足,只参与已有细节的梯度精修、不引入新结构。置信度不直接信 MASt3R 的预测值,而是用重投影误差:把点云投到 ASMK 分最高的 \(N_c\) 个先前关键帧上算平均重投影误差 \(\bar e\),定义 \(C=1\)(当 \(\bar e \le \varepsilon_c\))否则 \(C=\frac{1}{\bar e - \varepsilon_c + 1}\),给出更可靠的跨帧几何一致性度量,后续用来下调低置信区域高斯的初始不透明度。
3. LoG 引导的概率化高斯插入 + 半隐式区域-个体特征。 为避免在每个像素都铺高斯,作者只在需要精修的区域插入:用高斯拉普拉斯(LoG)算子在多分辨率图上算插入概率 \(P_a(u,v)=\max\big(\min(\|\nabla^2(G_\sigma)*I\|,1)-\min(\|\nabla^2(G_\sigma)*\tilde I\|,1),\,0\big)\)(\(I\)、\(\tilde I\) 为真值与渲染图),优先填高频和重建差的区域,超过阈值 \(\tau_a\) 才加。每个高斯参数化为中心 \(\mu\)、球谐 SH、不透明度 \(\alpha\)、基础尺度 \(S_b\)、个体特征 \(f_l\) 和体素索引 \(v_{id}\);基础尺度由图像空间尺度 \(s'\) 与深度推得 \(S_b=\frac{d_i s'}{f}\),再用两个 MLP 从区域特征 \(f_r\) 与个体特征 \(f_l\) 联合细化尺度与旋转:\(S=S_b\cdot\mathrm{MLP}_s(f_r\oplus f_l)\),\(R=\mathrm{MLP}_r(f_r\oplus f_l)\)。其中 \(f_r\) 编码体素局部上下文(空间按 \(\epsilon\) 体素化、每体素特征初始化为零),这种「区域共享 + 个体独有」的半隐式设计兼顾全局一致与局部区分度。
4. 距离感知的分层 LoD 高斯。 把高斯按 level \(l<L\) 组织(level 0 最细、\(L{-}1\) 最粗),初始化时 level-\(l\) 的高斯对应原图 \(2^{2l}\) 像素的 patch,逐级下采样输入帧并从各分辨率初始化。除基础尺度按 \(2^{2l}\) 加权外,每个高斯还带一个距离参数 \(d_{max}=D\cdot 2^{2l}\)(\(D\) 为高斯到相机距离)。渲染时按观察距离 \(d_r\) 决定取舍:\(d_r\le d_{max}\) 纳入、\(d_r>2d_{max}\) 剔除、中间区间按 \(\alpha'=\alpha\cdot(2d_{max}-d_r)/d_{max}\) 平滑淡出。这种距离感知 LoD 抑制了闪烁、在不同尺度下保持稳定渲染质量同时维持效率。训练上采用分阶段流式策略:建图帧/关键帧到来时初始化新高斯并优化 \(K\) 次迭代,普通帧只触发 \(K/2\) 次且不加新高斯,训练帧以 0.2 概率采当前帧、0.8 采历史帧防局部过拟合;序列流式处理完后再对所有帧做一遍全局优化,并把位置/旋转的梯度传给相机位姿做联合优化。
实验关键数据¶
主实验:渲染质量(八大室内外基准,节选)¶
| 数据集 | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | 训练时间↓ |
|---|---|---|---|---|---|
| ScanNet++ | LongSplat | 24.94 | 0.827 | 0.260 | 442.96 min |
| ScanNet++ | OnTheFly-NVS | 18.01 | 0.761 | 0.386 | 2.29 min |
| ScanNet++ | Ours | 29.12 | 0.918 | 0.167 | 5.33 min |
| TUM | LongSplat | 25.09 | 0.804 | 0.272 | — |
| TUM | Ours | 26.18 | 0.850 | 0.224 | 5.33 min |
| Fast-LIVO2 | LongSplat | 26.37 | 0.792 | 0.276 | 313.60 min |
| Fast-LIVO2 | Ours | 29.54 | 0.894 | 0.158 | 6.58 min |
| Waymo | S3PO-GS | 27.28 | 0.865 | 0.352 | 34.89 min |
| Waymo | Ours | 28.75 | 0.880 | 0.276 | 6.58 min |
ARTDECO 在室内外全部数据集上质量最优,尤其在 TUM、ScanNet 这类带结构复杂度、运动模糊和噪声的挑战集上领先明显;训练时间仅次于 OnTheFly-NVS,但比 LongSplat(动辄数百分钟)快了一两个量级。
主实验:跟踪精度(ATE RMSE,越低越好)¶
| 数据集 | MonoGS | S3PO-GS | MASt3R-SLAM | OnTheFly-NVS | Ours |
|---|---|---|---|---|---|
| ScanNet++ | 1.217 | 0.632 | 0.025 | 0.891 | 0.018 |
| TUM | 0.244 | 0.117 | 0.031 | — | 0.025 |
| Waymo | 7.370 | 1.236 | — | 3.118 | 1.213 |
在 TUM fr1 上与纯 SLAM 系统比,ARTDECO(0.028)也优于 DROID-SLAM(0.038)、Go-SLAM(0.035)、MASt3R-SLAM(0.030)。
消融实验(ScanNet++)¶
| 组件 | 配置 | 指标变化 |
|---|---|---|
| 前/后端 | Full(ATE 0.018) | 换 π³ 做骨干 → 0.374;π³→vggt 闭环 → 0.096;去掉 loop → 0.057;密集关键帧 → 0.094 |
| 建图 | Full(PSNR 29.12 / SSIM 0.918 / LPIPS 0.167) | 去 LoD → 28.13;去半隐式结构 → 28.54;去全局特征 → 28.89;去建图帧 → 26.38;去普通帧 → 27.20 |
关键发现¶
- MASt3R > π³ 当前端骨干:成对推理保 metric-scale,多图推理虽数据更丰富但视角变化下比例失真,ATE 从 0.018 暴涨到 0.374。
- 闭环不可或缺:去掉后 ATE 翻三倍(0.018→0.057)。
- 建图帧贡献最大:去掉建图帧 PSNR 掉 2.74 dB(29.12→26.38),多视图约束最关键;普通帧也贡献约 1.9 dB。
- 不是帧越密越好:用建图帧+关键帧一起做跟踪推理反而降精度——3D 基础模型在小视差稠密输入下会产生 ghosting 和模糊,污染点云与对应。
亮点与洞察¶
- 模块化前馈先验的工程美学:不重训大模型,而是把 MASt3R、π³ 当作可替换的「位姿/闭环/点云」组件嵌进经典 SLAM 因子图,既吃到大规模预训练先验,又保留了 SLAM 的全局优化与闭环能力,可解释、可调、可换。
- 重投影置信度替代模型自报置信度:MASt3R 边界预测不稳,作者用跨帧重投影误差重新定义置信度并下调低置信高斯不透明度,是个朴素但有效的可靠性补丁。
- 距离感知 LoD 的连续淡出:用 \(d_{max}=D\cdot2^{2l}\) 把 level 与观察距离绑定,并在 \((d_{max},2d_{max}]\) 区间线性插值不透明度,避免了 LoD 切换时的硬跳变/闪烁。
- 三类帧分流:把「该不该建新结构、该不该精修」量化成对应比例阈值 \(\tau_k\) 和视差百分位阈值 \(\tau_m\),让普通帧也物尽其用做梯度精修,是质量提升的重要来源。
局限与展望¶
- 强依赖前馈基础模型:correspondence 与几何部分靠前馈 3D 基础模型,在噪声、模糊、光照变化或输入落在训练分布外时鲁棒性下降。
- 场景假设较强:默认场景静态刚性、光照一致、视差充足;低纹理表面、重复结构或近退化轨迹会导致漂移或伪影。
- 作者展望:引入不确定性估计、自适应模型选择和更强先验,提升真实场景下的泛化与可靠性。
相关工作与启发¶
- 逐场景优化 3DGS-SLAM(MonoGS、S3PO-GS、SEGS-SLAM、On-the-fly-NVS):精度高但慢/脆,是本文要在速度和鲁棒性上超越的对象。
- 前馈 3D 基础模型(MASt3R、π³、VGGT、pose-free 重建):本文不与之竞争,而是把它们当模块化先验复用——这是「前馈 vs 优化」二选一困境的一种务实折中范式。
- LoD / 大尺度 3DGS(锚点剪枝、多尺度高斯):ARTDECO 用挂在稀疏网格上的分层半隐式高斯 + 距离感知淡出,给出了比事后剪枝更原则化的 LoD 方案,对做大场景可漫游 3DGS 的工作有借鉴价值。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 把前馈基础模型模块化嵌入经典 SLAM 因子图,并配距离感知分层半隐式高斯 LoD,组合新颖且工程化扎实,单点创新偏整合型。
- 实验充分度: ⭐⭐⭐⭐⭐ — 八大室内外基准、渲染+跟踪双指标、对前后端骨干/闭环/帧分类/LoD/半隐式结构全面消融,附录还有大量逐场景结果。
- 写作质量: ⭐⭐⭐⭐ — 结构清晰、动机与设计对应明确,公式与图示到位;部分符号(如 \(f_r\) 来源、staged training 细节)需翻附录补全。
- 价值: ⭐⭐⭐⭐ — 直击在线单目重建的速度-精度-鲁棒三难,给出可落地的 real-to-sim/AR-VR/机器人路径,承诺开源,实用价值高。