跳转至

Camera Height Doesn't Change: Unsupervised Training for Metric Monocular Road-Scene Depth Estimation

会议: ECCV 2024
arXiv: 2312.04530
代码: 无
领域: 3D视觉
关键词: 单目深度估计, 度量尺度, 自监督学习, 相机高度不变性, 车辆尺寸先验

一句话总结

提出FUMET训练框架,利用道路上检测到的车辆尺寸先验聚合为相机高度估计,并利用相机高度在同一视频序列中不变的事实作为度量尺度监督,使任意单目深度网络无需辅助传感器即可学习绝对尺度。

研究背景与动机

单目深度估计(MDE)对自动驾驶至关重要。自监督方法降低了对GT深度的依赖,但存在尺度模糊问题。现有解决方案需要辅助传感器: 速度(GPS)、IMU/重力、相机高度(人工标注),无法利用互联网上大量行车视频。

核心洞察: 道路上的车辆是刚性物体,其实际尺寸不变且对每个品牌型号唯一。将不同帧中的车辆尺寸线索聚合为相机高度,利用其在同一序列中不变的事实作为监督信号。

方法详解

整体框架

FUMET在标准自监督MDE训练基础上增加度量尺度学习,包含深度/位姿网络、相机高度估计、Silhouette Projector和学习型尺寸先验(LSP)。

关键设计

1. 尺度感知自监督学习

对道路区域像素,从深度图计算法向量后得到逐像素相机高度,取中位数作为帧级估计。通过Silhouette Projector获取尺度因子得到缩放后的相机高度。跨epoch用加权移动平均优化伪标签,使监督信号越来越准确。

2. Silhouette Projector

利用两个事实鲁棒估计尺度因子: 物体轮廓投影到垂直于地面平面的高度不随姿态变化; 只要顶部可见即使部分遮挡也可计算。流程: 深度重建点云 -> 正交投影 -> 轮廓高度 -> 与LSP对比得到尺度因子。离群点过滤阈值T=0.2。

3. 学习型尺寸先验(LSP)

从车辆掩码图像预测三维尺寸(高度+宽度+长度)。训练数据来自网络爬取,无需人工标注。丰富数据增强模拟遮挡和截断。预测宽度/长度有助于提升高度精度。

损失函数 / 训练策略

总损失 = 重建损失(SSIM+L1) + 平滑损失 + 相机高度损失 + 辅助粗几何损失。

关键策略: 对数动态调权——辅助损失权重从1减小,相机高度损失权重从0增大,mid epoch后固定。因为训练初期深度不可靠,过度依赖相机高度损失不稳定; 训练后期辅助损失的平面假设不精确会降低精度。α=0.01, β=1.0, 50 epochs。

实验关键数据

主实验: KITTI Eigen测试集(640x192)

方法 监督信号 AbsRel↓ SqRel↓ RMSE↓ δ<1.25↑
G2S GPS 0.109 0.860 4.855 0.865
PackNet-SfM 速度 0.111 0.829 4.788 0.864
VADepth 相机高度(GT) 0.120 0.975 4.971 0.867
DynaDepth IMU+V+G 0.109 0.787 4.705 0.869
FUMET 0.108 0.785 4.736 0.871
VADepth+FUMET 0.108 0.809 4.572 0.883

Cityscapes数据集

方法 AbsRel↓ RMSE↓ δ<1.25↑
G2S 4.156 58.89 0.046
VADepth 0.363 11.95 0.295
FUMET 0.125 6.359 0.858

弱监督方法因依赖不可靠传感器数据大幅退化,FUMET因仅依赖RGB视频而稳健。

混合数据集训练(Argoverse2+Lyft+A2D2+DDAD)

训练数据 AbsRel↓ RMSE↓ δ<1.25↑
KITTI 0.103 4.708 0.903
Mixed 0.113 5.009 0.883
Mixed+KITTI 0.082 4.307 0.923

消融实验

  • 相机高度损失贡献大于辅助几何损失
  • 跨帧高度优化比逐帧独立使用先验更稳定
  • 动态调权+两种损失联合使用效果最好(AbsRel 0.108)
  • 离线预计算固定相机高度甚至略优于在线优化
  • 离线预训练+在线微调可达最高精度

关键发现

  1. 最简单的Monodepth2+FUMET即优于需要GT尺度标签的弱监督方法
  2. FUMET不仅学会度量尺度,还提升几何精度(median scaling后仍有改善)
  3. VADepth需要GT相机高度但精度反而不如FUMET,说明精确测量相机高度本身困难

亮点与洞察

  1. 核心洞察精妙: 相机高度不变将分散的车辆尺寸线索聚合为稳定的监督信号
  2. 架构无关性: 可即插即用到任意单目深度网络
  3. 真正的无监督度量深度: 仅需单目行车视频+相机内参
  4. 混合数据集训练: 不同相机高度的数据集可统一训练
  5. 推理零开销: 计算成本与原始MDE模型完全相同

局限与展望

  1. 依赖车辆检测: 对无车场景可能失效
  2. LSP泛化性: 对非常见车型可能不准确
  3. 限于驾驶场景: 假设道路场景中的车辆和地面平面
  4. 未来可扩展到其他已知尺寸物体(行人、交通标志)

相关工作与启发

  • 与弱监督方法的根本区别在于不需要辅助传感器
  • 加权移动平均优化策略可推广到其他跨帧一致性任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 相机高度不变性作为监督信号极其巧妙
  • 实用性: ⭐⭐⭐⭐⭐ — 真正实现无辅助传感器的度量深度
  • 实验充分度: ⭐⭐⭐⭐⭐ — 多数据集、多架构、全面消融
  • 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,各组件动机明确