Dark3R: Learning Structure from Motion in the Dark¶

会议: CVPR2026
arXiv: 2603.05330
代码: 项目主页
领域: 3D视觉
关键词: 低光照3D重建, 运动恢复结构, 知识蒸馏, 特征匹配, 新视角合成, NeRF

一句话总结¶

提出 Dark3R 框架，通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照（SNR < −4 dB）原始图像上，实现了传统方法完全失败的暗光环境下的运动恢复结构（SfM）和新视角合成。

研究背景与动机¶

传统SfM在低光下崩溃：现有SfM流水线（COLMAP等）依赖特征检测与匹配，当图像信噪比（SNR）低于0 dB时，噪声主导信号，特征提取完全失效，导致位姿估计和三角化无法进行。

学习型方法同样失败：MASt3R、VGGT等3D基础模型在大规模数据上预训练，但其训练分布不包含低SNR原始图像，面对极端噪声时泛化能力严重不足。

单帧去噪无法保持多视图一致性：对每帧独立应用去噪器（如BM3D、神经网络去噪）虽可提升单图质量，但会破坏跨视图的特征一致性，导致后续匹配和位姿估计失败。

Burst去噪假设不成立：连拍去噪方法假设帧间运动很小，但3D重建场景中相机具有大视差和显著运动，无法满足对齐前提。

已有低光NeRF依赖外部位姿：RawNeRF等方法可在原始图像上重建辐射场，但必须依赖COLMAP提供的相机位姿，因此存在一个"位姿估计不了就无法重建"的死锁。

缺乏合适的数据集：此前没有包含精确3D标注的大规模低光照多视图原始图像数据集，阻碍了该方向的研究与评估。

方法详解¶

整体框架¶

Dark3R 要解决的是极端低光（SNR < 0 dB）下传统 SfM 彻底崩溃的问题——噪声淹没信号，特征检测匹配失效，位姿估计无从谈起。它的办法是教师-学生蒸馏：把预训练 MASt3R 当成冻结的教师，学生网络从同一权重初始化、只用 LoRA 微调。教师吃高 SNR 干净 raw 图像对，学生吃对应的低 SNR 噪声 raw 图像对，训练目标是让学生的编码器特征、解码器特征和对应关系图都对齐教师的输出。推理时只用学生网络，配合 MASt3R-SfM 的全局优化和 BA 完成多视图位姿恢复，重建好的稠密点图还能进一步喂给 Dark3R-NeRF 做新视角合成。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["噪声-干净原始图像对<br/>原始图像输入·无需 3D 监督"]
    subgraph TRAIN["教师-学生蒸馏（训练）"]
        direction TB
        T["教师：冻结 MASt3R<br/>吃干净高 SNR raw"]
        B["学生：LoRA 微调<br/>吃噪声低 SNR raw"]
        T -->|"三层特征对齐<br/>编码器/解码器/对应图 + Clean 正则化"| B
    end
    A --> T
    A --> B
    B --> C["推理：仅用学生网络<br/>输入噪声 raw"]
    C --> D["MASt3R-SfM 全局优化 + BA<br/>已知内参约束"]
    D --> E["相机位姿 + 稠密点图"]
    E --> F["新视角合成 Dark3R-NeRF<br/>raw 域辐射场重建"]
    F --> G["新视角图像"]

关键设计¶

1. 原始图像输入：绕过 ISP，别在去噪前就丢信息

ISP 流水线里的黑电平减除和截断会在极低 SNR 下抹掉本就微弱的有用信号。Dark3R 直接用最简单的去马赛克（子采样 Bayer 各通道、两个绿通道取平均）后的 raw 图像作为输入，把信息尽量留住。实验也确认在高 SNR 下 MASt3R 吃 raw 和吃 sRGB 表现相当，说明换成 raw 不会有副作用。

2. LoRA 微调：低秩适配既迁得准又省

把 MASt3R 的 3D 先验搬到低光域，全参微调既贵又容易过拟合噪声。Dark3R 改用 LoRA，只更新低秩适配器——消融里 LoRA 把位姿 ATE 从全参微调的 0.476 直接降到 0.050，训练效率也更高。

3. 三层特征对齐：从编码器到对应图全程对齐教师

只对齐最终输出不足以把教师的几何知识完整传下来。Dark3R 同时对齐编码器特征 \(\mathbf{F}_{\mathcal{E}}\)、解码器特征 \(\mathbf{F}_{\mathcal{D}}\) 和对应关系图 \(\mathbf{C}\)，三者都用 L2 距离监督，让学生在多个层级上复刻教师的表征。

4. Clean 正则化：让学生在宽 SNR 范围都不掉链子

只学噪声会让学生在干净图上退化。训练时把干净图像对也过一遍学生网络并对齐教师输出（\(\lambda_{\text{clean}}=0.3\)），保证学生在从干净到极噪的宽 SNR 范围内都保持性能。

5. 无需 3D 监督的训练数据：只要噪声-干净配对

低光多视图的深度/位姿 GT 极难获取。Dark3R 的训练只需噪声-干净原始图像对——可以直接拍摄，也可以用标定好的泊松-高斯噪声模型合成，完全不需要任何深度或位姿真值，因此扩展性很强。

6. 已知内参约束：BA 里把内参拉回标定值

推理假设相机内参已知，在 BA 中加入正则项让优化得到的内参贴近标定值，避免低光下噪声把内参带偏。

7. 新视角合成（Dark3R-NeRF）：在 raw 域稳住低光辐射场重建

有了位姿和稠密点图，最后一步在 raw 域重建辐射场，但高噪声会让优化不稳。Dark3R-NeRF 用三招应对：粗到细优化引入随机预条件（stochastic preconditioning），对光线采样位置加高斯噪声并从 \(\sigma=10^{-3}\) 退火至 0（前 30k 步，后续 90k 步继续优化），避免过拟合噪声；深度监督把 Dark3R 预测的稠密点图当深度先验，仿 DS-NeRF 的指数衰减加权逐步降约束强度以保留细节；保留黑电平则不做减除和截断，在极低 SNR 下留住接近黑电平的有用信号，靠多视图聚合提升 SNR。

损失函数¶

\[\mathcal{L} = \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{noisy}}\|_2^2 + \lambda_{\text{clean}} \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{clean}}\|_2^2\]

其中 \(\mathbf{F}\) 是教师在干净图像对上的输出（编码器、解码器、对应关系图拼接），\(\tilde{\mathbf{F}}\) 是学生的对应输出。

实验¶

数据集¶

自采集数据集：约42,000张多视图曝光包围原始图像（12个三脚架场景，每个~400视角×9曝光）+ ~20,000张手持高SNR图像（92个室内场景）。Sony Alpha I相机，评估SNR低至−5 dB。

位姿估计主要结果¶

方法	输入	ATE ↓	RPE T ↓	RPE R ↓	AbsRel ↓	δ<1.25 ↑
COLMAP	sRGB	0.669	0.155	1.644	0.638	54.38
MASt3R	raw	0.787	0.472	2.802	0.318	39.66
VGGT	sRGB	0.252	0.216	1.047	0.232	63.28
MASt3R-SfM	raw	0.088	0.038	0.201	0.196	79.39
Dark3R	raw	0.050	0.020	0.121	0.091	93.14

在平均SNR约−3.87 dB条件下（120张输入），Dark3R全面超越所有基线。

新视角合成结果¶

方法	位姿来源	PSNR ↑	SSIM ↑	LPIPS ↓
Dark3R-NeRF	MASt3R-SfM	34.60	0.835	0.308
RawNeRF	Dark3R	34.24	0.848	0.291
LE3D	Dark3R	35.77	0.878	0.339
Dark3R-NeRF	Dark3R	36.17	0.866	0.257
Dark3R-NeRF	Oracle	37.16	0.882	0.228

Dark3R位姿 + Dark3R-NeRF组合在无Oracle条件下取得最优综合表现。

消融实验关键发现¶

LoRA vs 全参微调：LoRA优势显著，ATE从0.476降至0.050
Raw vs sRGB输入：raw图像保留线性传感器响应，位姿精度更高
模拟+真实数据：混合训练优于单独使用任一数据源
仅微调编码器：ATE最低(0.030)但旋转误差略高，微调全部组件更均衡
Clean loss：移除后性能几乎不变，说明主要增益来自噪声L2对齐
NeRF消融：深度监督(+1.26 PSNR)、不做黑电平截断(+1.19 PSNR)、随机预条件(+0.12 PSNR)均有贡献

亮点¶

开创性问题定义：首次系统性解决SNR < 0 dB的极端低光SfM问题，打破了"位姿需要好图像→好图像需要位姿"的死锁
优雅的蒸馏策略：无需3D监督，仅通过噪声-干净图像对即可将MASt3R的3D先验迁移到低光域，设计简洁且扩展性强
首个低光多视图数据集：42,000张曝光包围原始图像带精确3D标注，填补了社区空白
端到端系统：从SfM到NeRF重建完整覆盖，并在iPhone 16上验证跨相机泛化能力

局限性¶

相机内参需已知（需预标定），限制了在未标定消费级设备上的完全自动化部署
训练需要8块RTX A6000 GPU约15小时，计算资源要求较高
NeRF重建采用体渲染而非3DGS（作者发现高噪声下高斯点云优化困难），渲染速度较慢
NeRF优化需120k步迭代，单场景重建时间较长
数据集场景以室内静态为主，对动态场景和室外场景的泛化尚未验证
500张以上输入时位姿精度略有下降，大规模场景的可扩展性待改进
蒸馏依赖MASt3R的能力上限，若教师在特定场景类型上弱则学生也会受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次解决极端低光SfM，问题定义和蒸馏方案均具原创性
实验充分度: ⭐⭐⭐⭐⭐ — 自建大规模数据集，全面消融，多基线对比，跨相机验证
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，图表精美，问题动机阐述充分
价值: ⭐⭐⭐⭐⭐ — 打开了暗光被动3D感知的新方向，数据集和方法均有长期影响