InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction¶

会议: CVPR 2026
arXiv: 2603.11298
代码: 无（论文称review后发布）
领域: 3D重建 / 高动态范围成像
关键词: HDR新视角合成, 前馈3D重建, 3D高斯溅射, 多曝光融合, 色调映射元网络

一句话总结¶

提出首个前馈HDR新视角合成方法InstantHDR，设计几何引导的外观建模模块解决多曝光融合中的外观不一致问题，并通过MetaNet预测场景特定色调映射参数实现泛化，从未标定多曝光LDR图像中秒级重建HDR 3D高斯场景，稀疏4视角下PSNR超GaussianHDR +2.90 dB，速度快约700倍。

研究背景与动机¶

领域现状：HDR新视角合成（HDR-NVS）旨在从多曝光LDR图像重建HDR场景并渲染任意曝光的新视角。现有方法（HDR-GS、GaussianHDR）基于优化范式，已能产出高质量结果。

现有痛点：

优化方法严重依赖已知相机位姿+SfM密集点云初始化+逐场景优化（GaussianHDR需约30分钟/场景），实际部署受限
多曝光导致外观不一致→SfM点云坍缩→稀疏视角下优化方法完全失败
前馈3D模型（AnySplat等）假设外观一致，直接用于多曝光输入产生严重鬼影（同一白墙在不同曝光下亮度差异巨大）
不同相机应用不同色调曲线（AgX/Filmic/Standard），难以学习统一的色调映射
公开HDR数据集极为稀缺（HDR-NeRF仅12场景），无法支撑前馈模型预训练

核心矛盾：前馈范式的速度优势 vs HDR场景的曝光不一致+CRF多样性+数据稀缺。

本文目标 如何在无需逐场景优化的情况下，从未标定、曝光不一致的多视角LDR图像中快速重建高质量HDR 3D场景？

切入角度：冻结几何backbone + 可训练外观分支解耦几何与外观；复用几何编码器中间层attention map做跨视角融合引导；元网络预测CRF参数实现一次前向适配多相机。

核心 idea：几何引导的外观建模解决曝光不一致融合 + 元网络预测色调映射实现泛化 = 单次前向HDR重建。

方法详解¶

整体框架¶

输入V张未标定多曝光LDR图像{Iᵥ, ℓᵥ} → 双分支架构：①几何分支（冻结的VGGT/AnySplat预训练交替注意力Transformer）估计深度Dᵥ和位姿pᵥ → ②外观分支：曝光归一化F_E → 几何引导跨视角注意力融合F_A → DoG高分辨率上采样F_U → 高斯头F_G合并两分支输出HDR 3D高斯 → MetaNet F_M预测色调映射参数θ → 任意曝光ℓ的LDR渲染。

关键设计¶

几何引导外观建模（Geo-guided Appearance Modeling）

三阶段流水线：
- (a) 曝光归一化F_E：计算相对log曝光 \(\tilde{\ell}_v = \ell_v - \bar{\ell}\)，正弦位置编码为d维嵌入eᵥ，FiLM层生成逐视角仿射参数 \((\gamma_v, \beta_v) = \text{FiLM}(\mathbf{e}_v, \bar{a}_v, \bar{a})\) 调制外观token → 所有视角对齐到同一辐照度水平
- (b) 几何引导跨视角注意力F_A：关键发现——冻结几何编码器第14层的Q、K矩阵已编码可靠的跨视角几何对应（即使曝光差异达0.5s~32s也能精准匹配同一物体）。直接复用这些Q、K引导外观特征的跨视角融合 \(\tilde{t}_v^A = \text{softmax}(QK^\top/\sqrt{d}) \hat{t}_v^A\) → 零额外计算开销
- (c) DoG高分辨率上采样F_U：patch级特征丢失高频纹理细节。用浅层CNN提取全分辨率特征gᵥ，计算高频残差(gᵥ - gᵥ↓↑)加到上采样后的辐照度特征上 → 恢复像素级纹理
色调映射元网络（MetaNet）
- 色调映射器g_θ是两层MLP（3→h→3, ReLU+sigmoid），将log辐照度映射到[0,1] LDR值
- 不同于优化方法对每场景过拟合一个MLP，MetaNet从场景上下文（LDR特征gᵥ + 曝光嵌入eᵥ + 预测HDR高斯G）预测g_θ的全部权重和偏置
- 输入级联后经strided卷积编码+全局池化 → 场景级描述符θ ∈ R^{d_θ}
- 支持一次前向适配不同相机色调曲线（AgX/Filmic/Standard），无需逐场景优化
HDR-Pretrain数据集
- 168个Blender渲染室内场景，基于HSSD开源室内资产
- 每场景5×7视角网格(2.5°/5°步进)、5级曝光包围、32bit HDR GT、深度和法线图
- 随机应用3种色调映射算子（AgX/Filmic/Standard）增加CRF多样性
- 448×448分辨率，Cycles路径追踪渲染
- 填补了前馈HDR预训练数据的社区空白（此前最大HDR数据集仅16场景）

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{\text{RGB}} + \lambda_g \mathcal{L}_g\)，其中\(\mathcal{L}_{\text{RGB}} = \text{MSE}(I_v, L_v(\ell_v)) + \lambda_{\text{perc}} \mathcal{L}_{\text{perc}}\)
\(\mathcal{L}_g\)为深度一致性损失，仅在置信度top 30%像素上监督——避免反光/天空等不可靠区域影响
几何编码器+decoder head完全冻结，仅训练外观分支、高斯头和MetaNet
AdamW + cosine lr, peak 2e-4, 1K warmup, 30K iterations, bf16, 8×A6000训练约2天
λ_perc=0.05, λ_g=0.1, 每次迭代采样2~10个上下文视角
后优化：剪枝低opacity高斯(σ<0.01)后MSE+SSIM联合优化1K iterations

实验关键数据¶

主实验（HDR-NeRF Real数据集）¶

方法	4视角PSNR↑	4视角SSIM↑	8视角PSNR↑	18视角PSNR↑	时间↓
AnySplat	12.10	0.517	13.30	13.91	~1-2s
GaussianHDR	~19.26	~0.691	~24.96	~29.36	~1833s
HDR-GS	~15.40	-	-	~28.90	~910s
InstantHDR(零样本)	18.44	0.721	18.95	19.48	~1-2s
InstantHDR_1K	22.16	0.762	25.32	29.19	~30-40s

消融实验（HDR-NeRF Real, 8视角）¶

配置	PSNR↑	SSIM↑	LPIPS↓
完整InstantHDR	18.95	0.724	0.269
去除曝光归一化	13.72	-	-
去除MetaNet	16.32	-	-
去除跨视角注意力	17.63	-	-
去除高分辨率上采样	-	-	0.386

关键发现¶

零样本模式比AnySplat高+5.65~+8.07 dB PSNR——曝光归一化+跨视角融合是核心差异
稀疏4视角下InstantHDR_1K超GaussianHDR +2.90 dB(22.16 vs 19.26)——前馈几何先验有效弥补稀疏输入
速度：InstantHDR_1K约30-40s/scene vs GaussianHDR约1833s → 约50倍加速
消融显示曝光归一化影响最大(-5.23 dB)——亮度不一致会彻底破坏跨视角融合
去除MetaNet导致训练不稳定(16.32 dB)——模型无法适配不同CRF
密集18视角下与GaussianHDR性能接近(29.19 vs 29.36)但速度快约50倍

亮点与洞察¶

首个将前馈3D重建范式引入HDR-NVS：速度从30分钟降至1秒级的质变
复用冻结几何编码器中间层attention map的思路精巧——零额外计算开销即获得可靠的跨视角几何对应引导
MetaNet预测CRF全部参数实现"一网适配多相机"——从per-scene MLP到meta-learned参数的范式转变
构建HDR-Pretrain数据集填补社区空白——168场景比此前最大HDR数据集大10倍以上

局限与展望¶

零样本HDR输出偏亮——极端辐射值在单次前向中难以准确预测
合成场景dense view下与GaussianHDR仍有PSNR差距(约2-6 dB)——后者有专门的3D-2D双分支tone mapping
仅使用单分支简单色调映射(两层MLP)，更精细的CRF建模是改进方向
需在HDR-Plenoxels真实场景上finetune才能泛化到HDR-NeRF真实场景——存在域间gap
未探索动态场景HDR重建

评分¶

新颖性: ⭐⭐⭐⭐ 首个前馈HDR-NVS，几何引导外观建模和MetaNet设计新颖
实验充分度: ⭐⭐⭐⭐ 多视角设置、LDR/HDR双评估、完整消融、定性结果丰富
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，方法图示直观，实验组织有条理
价值: ⭐⭐⭐⭐ 开创前馈HDR-NVS方向，速度提升具有实际应用价值，但dense view下与优化方法仍有差距