Exploiting Dual-Correlation for Multi-frame Time-of-Flight Denoising¶

会议: ECCV 2024
代码: https://github.com/gtdong-ustc/multi-frame-tof-denoising
领域: 图像复原
关键词: 飞行时间深度去噪, 多帧融合, 双相关性, 多路径干扰, 置信度引导

一句话总结¶

提出首个基于学习的多帧ToF深度去噪框架，通过双相关性估计模块（利用帧内和帧间相关性）和置信度引导的残差回归模块，有效利用多帧ToF数据之间的关联来指导噪声去除，在强噪声区域显著优于现有单帧方法。

研究背景与动机¶

领域现状：飞行时间（Time-of-Flight, ToF）深度相机通过测量光信号的往返时间来获取场景的深度信息，广泛应用于3D感知、增强现实和自动驾驶等领域。ToF深度图面临两类主要噪声：多路径干扰（Multi-Path Interference, MPI）和散粒噪声（shot noise）。MPI是指光信号在到达传感器之前经历了多次反射，导致测量的深度值偏离真实值；散粒噪声源于光子探测的量子统计特性。近年来，基于深度学习的ToF去噪方法已经取得了令人印象深刻的效果。

现有痛点：现有的ToF去噪方法几乎全部只利用单帧数据进行处理，完全忽略了多帧之间的关联信息。然而，在实际应用中，ToF相机通常以30fps或更高帧率连续采集数据——相邻帧之间存在丰富的相关性：(1) 场景的几何结构在短时间内保持不变或缓慢变化，不同帧的深度信息可以互相验证和补充；(2) ToF噪声（特别是散粒噪声）在不同帧之间具有独立的随机分布，多帧平均本身就能显著降噪；(3) MPI噪声的强度在不同帧之间可能因微小的视角变化而不同，为识别MPI区域提供了线索。

核心矛盾：多帧数据包含丰富的互补信息可用于降噪，但现有方法只使用单帧数据，浪费了帧间相关性这一重要信息源。同时，简单的多帧平均虽然能降低随机噪声，但对MPI等系统性误差无效，需要更智能的多帧融合策略。

本文目标 (1) 设计首个基于学习的多帧ToF去噪框架。(2) 有效利用帧内和帧间两种相关性来指导去噪。(3) 重点提升强噪声区域（如MPI严重的角落、边缘区域）的去噪效果。

切入角度：作者提出"双相关性"（dual-correlation）的概念——将多帧ToF去噪中的有用信息分解为帧内相关性（intra-correlation，空间位置与几何结构的关联）和帧间相关性（inter-correlation，同一位置在不同帧之间噪声分布的变化），并设计专门的模块来分别提取和利用这两种相关性。

核心 idea：利用帧内空间相关性初始化深度残差，利用帧间噪声分布相关性定位强噪声区域，通过置信度引导聚焦去噪。

方法详解¶

整体框架¶

框架接收多帧连续的ToF原始数据（包括多个相位/频率的测量值）作为输入，输出去噪后的深度图。核心pipeline分为三个阶段：(1) 特征提取——对每一帧独立提取初始特征；(2) 双相关性估计——通过Dual-Correlation Estimation Module同时估计帧内相关性和帧间相关性，前者帮助初始化深度残差（即真实深度与测量深度之间的差），后者帮助定位强噪声区域；(3) 置信度引导的残差回归——通过Confidence-guided Residual Regression Module根据帧间相关性生成置信度图，引导残差回归优先处理强噪声区域，最终得到去噪深度图。

关键设计¶

帧内相关性估计（Intra-Correlation Estimation）:
- 功能：建立场景中空间位置与几何结构之间的关联，辅助深度残差初始化
- 核心思路：在单帧ToF数据内部，不同空间位置的深度值之间存在结构性的关联——例如，同一平面上的点应该具有一致的深度梯度，物体边缘对应深度突变等。帧内相关性模块通过卷积注意力机制显式建立空间位置之间的相关性矩阵，其中每个元素表示两个位置在几何结构上的关联强度。这个相关性矩阵被用来加权聚合不同位置的特征，生成具有全局上下文感知能力的特征表示。然后利用这个上下文增强的特征来初始化深度残差估计——相比直接从单个像素预测残差，利用空间相关性可以获得更准确的初始估计，特别是在MPI导致局部深度严重偏差的区域，周围正确区域的信息可以通过相关性传播来纠正。
- 设计动机：MPI噪声具有空间局部性（通常集中在角落、凹面处），而几何结构信息可以帮助判断哪些区域的深度值是可靠的。通过显式建模空间相关性，网络可以利用可靠区域的信息来修正不可靠区域。
帧间相关性估计（Inter-Correlation Estimation）:
- 功能：分辨不同帧之间ToF噪声分布的变化，定位强噪声区域
- 核心思路：ToF噪声在不同帧之间的表现不完全相同——散粒噪声是随机的，不同帧的噪声值独立；MPI噪声虽然更具系统性，但由于微小的传感器移动或场景变化，其强度也会帧间变化。帧间相关性模块将当前帧与参考帧（相邻帧或多帧）进行对齐和比较，计算同一空间位置在不同帧之间的深度值变化。变化大的位置意味着噪声较强（因为真实深度在短时间内应该不变或变化很小），变化小的位置意味着噪声较弱。这个帧间变化分析产生一个"噪声强度图"，指示每个位置的噪声程度，为后续的置信度引导提供依据。
- 设计动机：单帧方法无法区分"测量值因MPI偏移"和"测量值本身就是对的"——两者在单帧中看起来可能完全一样。但在多帧中，MPI导致的偏移通常更稳定（系统性误差），而散粒噪声在帧间有随机变化。帧间相关性利用了这种差异来定位不同类型的噪声区域。
置信度引导的残差回归模块（Confidence-guided Residual Regression Module）:
- 功能：根据噪声强度分布，引导残差回归优先关注强噪声区域
- 核心思路：基于帧间相关性估计生成的噪声强度图，本模块预测一个置信度图（confidence map），其中每个像素的值表示"该位置的初始残差估计有多可靠"。置信度低的区域（即强噪声区域）需要更多的残差修正，置信度高的区域保持初始估计即可。具体实现上，置信度图被用作残差回归网络的注意力权重——通过逐元素乘法将残差回归的输出与置信度图相乘，使网络的回归能力集中在最需要修正的区域。这种"软聚焦"机制避免了在已经准确的区域浪费计算资源，同时确保强噪声区域获得足够的修正力度。
- 设计动机：均匀地对整张深度图进行残差回归是低效的——大部分区域的噪声较弱（初始估计已经够好），只有少数强噪声区域需要大幅修正。置信度引导的机制实现了"按需去噪"，提高了效率和效果。

损失函数 / 训练策略¶

损失函数主要包含两部分：(1) 深度重建损失——去噪深度图与真实深度图之间的L1/L2距离；(2) 置信度监督损失——可选地对置信度图进行弱监督，使其与实际的噪声分布对齐。训练数据来自合成的ToF多帧数据（可以精确控制MPI和散粒噪声的参数），以及真实的ToF数据集。多帧输入通常取3~5帧连续数据。

实验关键数据¶

主实验¶

数据集	指标	本文（多帧）	之前SOTA（单帧）	提升
合成ToF数据集	MAE (mm)	最优	单帧方法	显著降低
真实ToF数据集	MAE (mm)	最优	单帧方法	特别在强噪声区域优势明显
MPI严重场景	MAE (mm)	大幅优于单帧	单帧方法	多帧信息对MPI去噪贡献最大

消融实验¶

配置	关键指标	说明
仅帧内相关性	MAE较高	缺少帧间信息，无法定位噪声区域
仅帧间相关性	MAE较高	缺少空间上下文，残差初始化不准
双相关性（完整）	MAE最低	两种相关性互补
无置信度引导	MAE较高	均匀回归效率低，强噪声区域修正不足
有置信度引导	MAE最低	聚焦强噪声区域有效
不同帧数（1/3/5）	MAE逐步降低	更多帧提供更多互补信息

关键发现¶

多帧方法在所有评估设置下均优于单帧方法，验证了利用帧间信息的价值
在MPI严重的区域（角落、凹面），多帧方法的优势最为突出——这正是单帧方法最困难的场景
帧内和帧间相关性的贡献是互补的，缺少任一都导致性能明显下降
置信度引导机制有效地将回归能力聚焦在强噪声区域
随着输入帧数增加，性能持续提升，但边际收益递减（3帧已获得大部分增益）

亮点与洞察¶

"双相关性"的分解视角很清晰：帧内->空间结构，帧间->噪声定位，两者各司其职
置信度引导的残差回归实现了"按需去噪"的优雅设计，避免在无噪声区域浪费计算
首个基于学习的多帧ToF去噪框架，为该方向开辟了新的研究线路
方法论贡献（双相关性+置信度引导）具有通用性，可能适用于其他多帧降噪任务

局限与展望¶

多帧输入需要帧间对齐，动态场景中的对齐误差可能引入额外噪声
计算开销随帧数线性增长，实时性需要关注——特别是在嵌入式ToF系统上
只考虑了短时间窗口（3~5帧）内的帧间相关性，更长时间跨度的信息利用值得探索
对于运动物体的处理策略不明确——帧间对齐假设场景基本静态
合成数据训练到真实数据的域迁移效果需要更充分的验证
与传统的多帧平均方法（如时间滤波器）的对比可以更详细

评分¶

新颖性: ⭐⭐⭐⭐ 首个多帧ToF去噪框架，双相关性分解视角新颖
实验充分度: ⭐⭐⭐ 合成+真实数据验证，有消融，但真实场景覆盖可更广
写作质量: ⭐⭐⭐⭐ 问题分析透彻，方法描述层次分明
价值: ⭐⭐⭐⭐ 为ToF深度去噪开辟新的多帧方向，方法具有通用性