跳转至

MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References

会议: ECCV 2024
arXiv: 2407.13745
代码: 项目页面
领域: 3D视觉
关键词: 新视角增强, 参考图像超分辨率, 特征匹配, 渲染优化, 3D重建

一句话总结

提出MaRINeR方法,利用附近参考图像通过深度特征匹配和层次化细节传输来增强3D重建的渲染图像质量,适用于显式(mesh)和隐式(NeRF)等多种3D表示的渲染后处理。

研究背景与动机

领域现状: 3D重建方法(点云、mesh、NeRF、高斯溅射)各有局限,产生的渲染图像包含几何噪声、外观伪影和不一致性,直接影响下游任务。

现有痛点: - 现有伪影去除方法(如NeRFLiX)通常针对特定管线设计,无法跨管线通用 - RefSR方法设计用于解决分辨率差异,无法处理渲染图像中的几何伪影和外观不一致 - 风格迁移方法要么破坏内容结构,要么无法去除伪影

核心矛盾: 需要一个通用的后处理方法,既能去除多种3D表示的渲染伪影,又能从参考图像传输真实细节

本文目标: 提出一个与3D重建管线无关的渲染增强方法,利用已有的参考图像恢复渲染质量

切入角度: 将问题建模为参考图像引导的渲染增强——从RefSR借鉴特征匹配与传输思路,但适配到render-to-real的域差距

核心 idea: 用共享编码器提取渲染和参考图像的多层特征,通过粗到精匹配建立对应关系,层次化融合参考细节到渲染图像中

方法详解

整体框架

MaRINeR基于MASA RefSR管线改造,包含四个阶段:(1) 共享卷积编码器提取渲染图像 \(I\) 和参考图像 \(R\) 的多层特征;(2) 在最深层特征上做粗到精匹配;(3) 根据匹配关系warp参考特征到渲染视角;(4) 解码器层次化融合渲染和warped参考特征。支持迭代精炼。

关键设计

  1. 共享多层卷积编码器: 编码器提取三个层次的特征,每层分辨率减半:
\[\{\mathcal{F}_1^I \in \mathbb{R}^{H \times W \times F_1}, \mathcal{F}_2^I \in \mathbb{R}^{H/2 \times W/2 \times F_2}, \mathcal{F}_3^I \in \mathbb{R}^{H/4 \times W/4 \times F_3}\}\]

渲染和参考共享编码器权重。关键改动:与RefSR在低分辨率浅层特征上匹配不同,MaRINeR在最深层特征 \(\mathcal{F}_3\) 上做匹配,利用深层特征对渲染伪影的更强鲁棒性。编码器每层包含1个卷积层和4个残差块,通道数固定为 \(F_i = 64\)

  1. 匹配与提取模块 (MEM): 使用MASA的粗到精匹配策略:先在粗网格(带步长)上做余弦相似度匹配,再在匹配点周围固定窗口内做密集匹配。生成映射和匹配分数:
\[m_{I \to R}: (x,y) \in \mathcal{F}_3^I \to \{(u,v) \in \mathcal{F}_3^R, s \in \mathbb{R}\}\]

匹配分数 \(s\) 用于加权warped参考特征——高置信度匹配区域多用参考信息,低置信度区域保留渲染特征。这使模型能自适应地决定何时使用参考。

  1. 层次化融合解码器: 使用SAM(空间适配模块)和DRAM(双残差聚合模块)进行渲染-参考特征融合:
\[\mathcal{O}_3 = P_3(\text{SAM}(\mathcal{F}_3^I, \mathcal{F}_3^{R \to I}) \oplus \mathcal{F}_3^I)$$ $$\mathcal{O}_2 = P_2(\text{DRAM}(\text{SAM}(\mathcal{O}_3^\uparrow, \mathcal{F}_2^{R \to I}), \mathcal{O}_3))$$ $$\mathcal{O}_1 = P_1(\text{DRAM}(\text{SAM}(\mathcal{O}_2^\uparrow, \mathcal{F}_1^{R \to I}), \mathcal{O}_2))\]

SAM学习将参考特征分布重映射到渲染特征分布(对齐域间差异),DRAM融合不同分辨率特征并用转置卷积上采样。与RefSR不同,MaRINeR在相同空间分辨率下合并特征,允许接受参考的结构信息来修补伪影。

  1. 迭代精炼: 因渲染伪影可能遮挡真实几何导致初次匹配不佳,采用多次迭代:第一次迭代去除伪影并粗增强,后续迭代在更干净的图像上建立更好的对应关系。每次迭代都有监督信号。实验发现2次迭代效果提升最大。

损失函数 / 训练策略

\[\mathcal{L} = \lambda_{\text{rec}}\mathcal{L}_{\text{rec}} + \lambda_{\text{per}}\mathcal{L}_{\text{per}} + \lambda_{\text{adv}}\mathcal{L}_{\text{adv}}\]
  • 重建损失: \(\mathcal{L}_{\text{rec}} = \|I_{\text{GT}} - I_{\text{ER}}\|_1\),L1范数
  • 感知损失: \(\mathcal{L}_{\text{per}} = \frac{1}{3}\sum_{i=1}^{3}\|\phi_i(I_{\text{GT}}) - \phi_i(I_{\text{ER}})\|_2^2\),使用VGG16的relu1_1/relu2_2/relu3_3浅层特征(比标准RefSR更浅,因为深层特征在render-real域间差异大会引入伪影)
  • 对抗损失: Relativistic GAN公式,\(\lambda_{\text{adv}} = 0.001\)

训练策略:先用重建+感知损失训练60 epoch,再加入对抗损失微调20 epoch。

数据增强: - Mesh降采样增强:训练时混入仅保留10%三角面的低质量mesh渲染,提升对不同mesh质量的鲁棒性 - 随机参考增强:在5秒时间窗内随机选参考图像,模拟参考与目标视角差异较大的情况

实验关键数据

主实验 - 与RefSR和风格迁移方法对比

方法 类别 CAB PSNR↑ CAB LPIPS↓ LIN PSNR↑ LIN LPIPS↓ HGE PSNR↑ HGE LPIPS↓
Render(基线) - 15.60 0.380 14.39 0.392 15.84 0.364
MASA RSR 15.47 0.367 14.17 0.397 15.62 0.360
DATSR RSR 15.63 0.364 14.34 0.438 15.80 0.376
NNST ST 16.33 0.370 18.53 0.315 18.48 0.315
MaRINeR RE 20.03 0.180 21.73 0.155 20.96 0.176

MaRINeR在所有指标上大幅超越RefSR和ST方法。在未见过的HGE场景上表现与训练场景相当,展示强泛化能力。

消融实验 - 数据增强效果

Mesh大小 有增强 PSNR 无增强 PSNR 有增强 SSIM 无增强 SSIM
100% 19.80 19.45 0.687 0.686
50% 19.41 18.83 0.677 0.673
10% 19.10 17.98 0.650 0.626

Mesh降采样增强在低质量mesh上带来显著提升(10%时PSNR差1.12dB),证明增强策略的有效性。

应用实验 - 同态估计改进

方法 匹配数量 内点率 同态误差
原始渲染↔图像 39.21 61.24% 4.86
+MaRINeR↔图像 58.89 78.16% 1.88

关键发现

  • RefSR方法保持低分辨率输入的结构和颜色,无法去除渲染伪影
  • 风格迁移方法能调整颜色分布但不区分真实内容和伪影,引入失真
  • MaRINeR成功实现了颜色传输+伪影去除+缺失部分填充的三合一
  • 浅层VGG特征(relu1_1/2_2/3_3)比深层更适合render-real域间的感知损失
  • 模型对灰度渲染+彩色参考、不同重建方法(LiDAR/RGB-D SLAM)都有效
  • 2次迭代精炼效果最佳,更多迭代收益递减但线性增加推理时间

亮点与洞察

  • 管线无关性: 适用于mesh渲染、NeRF渲染、IBR渲染等多种3D表示/渲染管线,是通用后处理工具
  • 从RefSR到render增强的适配: 关键改动(深层匹配、同分辨率合并、浅层感知损失、迭代精炼)既简单又有效
  • 实用下游应用: 自动化伪GT验证(替代人工检查)、合成轨迹增强、NeRF后处理,展示了清晰的应用价值
  • 对抗弱参考的鲁棒性: 匹配分数加权机制让模型在参考内容较少时自动退化为仅使用渲染特征

局限与展望

  • 目前在160×160分辨率训练,更高分辨率需要先降采样再超分辨率(两步处理)
  • 可能错误地将真实内容识别为伪影并移除
  • 基于纹理级别匹配而非语义级别,物体需要有相似纹理
  • 序列帧间可能引入闪烁,缺乏时间一致性约束
  • 可考虑替换为更先进的匹配管线(LoFTR/CroCo),但会增加推理时间

相关工作与启发

  • MASA [CVPR 2021]: 粗到精对应匹配的RefSR方法→MaRINeR的直接基础
  • DATSR [ECCV 2022]: Swin-Transformer增强匹配→实验中的对比基线
  • NeRFLiX [ICCV 2023]: 针对NeRF的渲染增强→仅限NeRF,不跨管线
  • WCT2 [CVPR 2019]: 基于小波的照片风格迁移→保持结构但不去伪影

评分

  • 新颖性: ⭐⭐⭐ 核心思路是将RefSR适配到rendering enhancement,创新更多在应用层面
  • 实验充分度: ⭐⭐⭐⭐ 对比充分,消融详尽,多个下游应用验证,跨场景泛化测试
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法与RefSR/ST的区别阐述得当
  • 价值: ⭐⭐⭐⭐ 作为通用后处理工具有实际价值,特别是自动化伪GT验证的应用