Dark3R: Learning Structure from Motion in the Dark¶
会议: CVPR2026
arXiv: 2603.05330
代码: 项目主页
领域: 3D视觉
关键词: 低光照3D重建, 运动恢复结构, 知识蒸馏, 特征匹配, 新视角合成, NeRF
一句话总结¶
提出 Dark3R 框架,通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照(SNR < −4 dB)原始图像上,实现了传统方法完全失败的暗光环境下的运动恢复结构(SfM)和新视角合成。
研究背景与动机¶
传统SfM在低光下崩溃:现有SfM流水线(COLMAP等)依赖特征检测与匹配,当图像信噪比(SNR)低于0 dB时,噪声主导信号,特征提取完全失效,导致位姿估计和三角化无法进行。
学习型方法同样失败:MASt3R、VGGT等3D基础模型在大规模数据上预训练,但其训练分布不包含低SNR原始图像,面对极端噪声时泛化能力严重不足。
单帧去噪无法保持多视图一致性:对每帧独立应用去噪器(如BM3D、神经网络去噪)虽可提升单图质量,但会破坏跨视图的特征一致性,导致后续匹配和位姿估计失败。
Burst去噪假设不成立:连拍去噪方法假设帧间运动很小,但3D重建场景中相机具有大视差和显著运动,无法满足对齐前提。
已有低光NeRF依赖外部位姿:RawNeRF等方法可在原始图像上重建辐射场,但必须依赖COLMAP提供的相机位姿,因此存在一个"位姿估计不了就无法重建"的死锁。
缺乏合适的数据集:此前没有包含精确3D标注的大规模低光照多视图原始图像数据集,阻碍了该方向的研究与评估。
方法详解¶
整体框架¶
Dark3R 要解决的是极端低光(SNR < 0 dB)下传统 SfM 彻底崩溃的问题——噪声淹没信号,特征检测匹配失效,位姿估计无从谈起。它的办法是教师-学生蒸馏:把预训练 MASt3R 当成冻结的教师,学生网络从同一权重初始化、只用 LoRA 微调。教师吃高 SNR 干净 raw 图像对,学生吃对应的低 SNR 噪声 raw 图像对,训练目标是让学生的编码器特征、解码器特征和对应关系图都对齐教师的输出。推理时只用学生网络,配合 MASt3R-SfM 的全局优化和 BA 完成多视图位姿恢复,重建好的稠密点图还能进一步喂给 Dark3R-NeRF 做新视角合成。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["噪声-干净原始图像对<br/>原始图像输入·无需 3D 监督"]
subgraph TRAIN["教师-学生蒸馏(训练)"]
direction TB
T["教师:冻结 MASt3R<br/>吃干净高 SNR raw"]
B["学生:LoRA 微调<br/>吃噪声低 SNR raw"]
T -->|"三层特征对齐<br/>编码器/解码器/对应图 + Clean 正则化"| B
end
A --> T
A --> B
B --> C["推理:仅用学生网络<br/>输入噪声 raw"]
C --> D["MASt3R-SfM 全局优化 + BA<br/>已知内参约束"]
D --> E["相机位姿 + 稠密点图"]
E --> F["新视角合成 Dark3R-NeRF<br/>raw 域辐射场重建"]
F --> G["新视角图像"]
关键设计¶
1. 原始图像输入:绕过 ISP,别在去噪前就丢信息
ISP 流水线里的黑电平减除和截断会在极低 SNR 下抹掉本就微弱的有用信号。Dark3R 直接用最简单的去马赛克(子采样 Bayer 各通道、两个绿通道取平均)后的 raw 图像作为输入,把信息尽量留住。实验也确认在高 SNR 下 MASt3R 吃 raw 和吃 sRGB 表现相当,说明换成 raw 不会有副作用。
2. LoRA 微调:低秩适配既迁得准又省
把 MASt3R 的 3D 先验搬到低光域,全参微调既贵又容易过拟合噪声。Dark3R 改用 LoRA,只更新低秩适配器——消融里 LoRA 把位姿 ATE 从全参微调的 0.476 直接降到 0.050,训练效率也更高。
3. 三层特征对齐:从编码器到对应图全程对齐教师
只对齐最终输出不足以把教师的几何知识完整传下来。Dark3R 同时对齐编码器特征 \(\mathbf{F}_{\mathcal{E}}\)、解码器特征 \(\mathbf{F}_{\mathcal{D}}\) 和对应关系图 \(\mathbf{C}\),三者都用 L2 距离监督,让学生在多个层级上复刻教师的表征。
4. Clean 正则化:让学生在宽 SNR 范围都不掉链子
只学噪声会让学生在干净图上退化。训练时把干净图像对也过一遍学生网络并对齐教师输出(\(\lambda_{\text{clean}}=0.3\)),保证学生在从干净到极噪的宽 SNR 范围内都保持性能。
5. 无需 3D 监督的训练数据:只要噪声-干净配对
低光多视图的深度/位姿 GT 极难获取。Dark3R 的训练只需噪声-干净原始图像对——可以直接拍摄,也可以用标定好的泊松-高斯噪声模型合成,完全不需要任何深度或位姿真值,因此扩展性很强。
6. 已知内参约束:BA 里把内参拉回标定值
推理假设相机内参已知,在 BA 中加入正则项让优化得到的内参贴近标定值,避免低光下噪声把内参带偏。
7. 新视角合成(Dark3R-NeRF):在 raw 域稳住低光辐射场重建
有了位姿和稠密点图,最后一步在 raw 域重建辐射场,但高噪声会让优化不稳。Dark3R-NeRF 用三招应对:粗到细优化引入随机预条件(stochastic preconditioning),对光线采样位置加高斯噪声并从 \(\sigma=10^{-3}\) 退火至 0(前 30k 步,后续 90k 步继续优化),避免过拟合噪声;深度监督把 Dark3R 预测的稠密点图当深度先验,仿 DS-NeRF 的指数衰减加权逐步降约束强度以保留细节;保留黑电平则不做减除和截断,在极低 SNR 下留住接近黑电平的有用信号,靠多视图聚合提升 SNR。
损失函数¶
其中 \(\mathbf{F}\) 是教师在干净图像对上的输出(编码器、解码器、对应关系图拼接),\(\tilde{\mathbf{F}}\) 是学生的对应输出。
实验¶
数据集¶
自采集数据集:约42,000张多视图曝光包围原始图像(12个三脚架场景,每个~400视角×9曝光)+ ~20,000张手持高SNR图像(92个室内场景)。Sony Alpha I相机,评估SNR低至−5 dB。
位姿估计主要结果¶
| 方法 | 输入 | ATE ↓ | RPE T ↓ | RPE R ↓ | AbsRel ↓ | δ<1.25 ↑ |
|---|---|---|---|---|---|---|
| COLMAP | sRGB | 0.669 | 0.155 | 1.644 | 0.638 | 54.38 |
| MASt3R | raw | 0.787 | 0.472 | 2.802 | 0.318 | 39.66 |
| VGGT | sRGB | 0.252 | 0.216 | 1.047 | 0.232 | 63.28 |
| MASt3R-SfM | raw | 0.088 | 0.038 | 0.201 | 0.196 | 79.39 |
| Dark3R | raw | 0.050 | 0.020 | 0.121 | 0.091 | 93.14 |
在平均SNR约−3.87 dB条件下(120张输入),Dark3R全面超越所有基线。
新视角合成结果¶
| 方法 | 位姿来源 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|---|
| Dark3R-NeRF | MASt3R-SfM | 34.60 | 0.835 | 0.308 |
| RawNeRF | Dark3R | 34.24 | 0.848 | 0.291 |
| LE3D | Dark3R | 35.77 | 0.878 | 0.339 |
| Dark3R-NeRF | Dark3R | 36.17 | 0.866 | 0.257 |
| Dark3R-NeRF | Oracle | 37.16 | 0.882 | 0.228 |
Dark3R位姿 + Dark3R-NeRF组合在无Oracle条件下取得最优综合表现。
消融实验关键发现¶
- LoRA vs 全参微调:LoRA优势显著,ATE从0.476降至0.050
- Raw vs sRGB输入:raw图像保留线性传感器响应,位姿精度更高
- 模拟+真实数据:混合训练优于单独使用任一数据源
- 仅微调编码器:ATE最低(0.030)但旋转误差略高,微调全部组件更均衡
- Clean loss:移除后性能几乎不变,说明主要增益来自噪声L2对齐
- NeRF消融:深度监督(+1.26 PSNR)、不做黑电平截断(+1.19 PSNR)、随机预条件(+0.12 PSNR)均有贡献
亮点¶
- 开创性问题定义:首次系统性解决SNR < 0 dB的极端低光SfM问题,打破了"位姿需要好图像→好图像需要位姿"的死锁
- 优雅的蒸馏策略:无需3D监督,仅通过噪声-干净图像对即可将MASt3R的3D先验迁移到低光域,设计简洁且扩展性强
- 首个低光多视图数据集:42,000张曝光包围原始图像带精确3D标注,填补了社区空白
- 端到端系统:从SfM到NeRF重建完整覆盖,并在iPhone 16上验证跨相机泛化能力
局限性¶
- 相机内参需已知(需预标定),限制了在未标定消费级设备上的完全自动化部署
- 训练需要8块RTX A6000 GPU约15小时,计算资源要求较高
- NeRF重建采用体渲染而非3DGS(作者发现高噪声下高斯点云优化困难),渲染速度较慢
- NeRF优化需120k步迭代,单场景重建时间较长
- 数据集场景以室内静态为主,对动态场景和室外场景的泛化尚未验证
- 500张以上输入时位姿精度略有下降,大规模场景的可扩展性待改进
- 蒸馏依赖MASt3R的能力上限,若教师在特定场景类型上弱则学生也会受限
相关工作¶
- MASt3R / MASt3R-SfM:Dark3R的教师模型和推理流水线基础,在高SNR下仍是最强基线之一
- RawNeRF:同样在raw域做NeRF,但需要COLMAP位姿,仅能工作在COLMAP可行的光照条件下
- VGGT:前馈3D重建基础模型,在低光下表现优于COLMAP但不及MASt3R-SfM
- LE3D:基于3DGS的低光重建方法,Dark3R-NeRF在LPIPS上大幅优于它
- DS-NeRF:Dark3R-NeRF的深度监督策略参考了该工作的指数衰减加权设计
- SuperPoint/SuperGlue:学习型特征检测匹配代表,在低光下同样退化严重
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次解决极端低光SfM,问题定义和蒸馏方案均具原创性
- 实验充分度: ⭐⭐⭐⭐⭐ — 自建大规模数据集,全面消融,多基线对比,跨相机验证
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,图表精美,问题动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ — 打开了暗光被动3D感知的新方向,数据集和方法均有长期影响