跳转至

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

会议: CVPR 2026
arXiv: 2511.12370
代码: https://chumsy0725.github.io/O-SCD/
领域: 3D视觉
关键词: 场景变化检测, 3D高斯泼溅, 在线推理, 自监督融合, 场景更新

一句话总结

提出首个同时具备在线、姿态无关、无标注、多视角一致性的场景变化检测(SCD)方法,通过自监督融合损失将像素级和特征级变化线索集成到 3DGS 变化表示中,在超过 10 FPS 的实时速率下超越了所有已有离线方法的检测精度。

研究背景与动机

领域现状:场景变化检测(SCD)是场景理解的核心任务,应用于环境监测、基础设施检查和损伤评估。近年来方法利用 NeRF 和 3DGS 构建场景的三维表示来实现姿态无关的 SCD。

现有痛点: - 最强的 SCD 方法(如 MV3DCD、GeSCD)都是离线的——需要预先收集所有前后时刻的观测数据才能推理,不适用于实时决策场景。 - 现有在线方法精度远低于离线方法,且多数无法维持实时性能(<1 FPS)。 - MV3DCD 使用硬阈值和交集启发式融合变化线索,容易丢失细微但重要的变化信号。

核心矛盾:在线场景下需要实时、逐帧地检测变化,同时还要保持跨视角一致性,但现有方法要么牺牲精度(在线方法),要么牺牲实时性(离线方法)。

本文目标:(a) 如何在线实时推理变化?(b) 如何避免硬阈值导致的信息丢失?(c) 如何高效更新场景表示?

切入角度:用 3DGS 的变化表示作为跨视角的"持久记忆",配合自监督损失自动学习融合多视角变化线索,同时设计基于 PnP 的轻量级姿态估计和变化引导的选择性场景更新。

核心idea:用一个自监督融合损失替代硬阈值启发式,让变化信息在 3DGS 表示中自然积累和传播,同时仅重建变化区域来实现秒级的场景更新。

方法详解

整体框架

系统分为:(1) 离线构建参考场景的 3DGS 表示;(2) 在线处理:对每帧推理图像估计姿态→提取变化线索→融合到变化表示中→推理变化 mask;(3) 完成所有观测后,选择性更新场景表示。

关键设计

  1. 轻量级 PnP 姿态估计

    • 功能:将每帧推理图像注册到参考场景坐标系
    • 核心思路:用 XFeat 提取参考图像的关键点和描述符,预先三角化为 3D 点集。对每帧推理图像,提取描述符并匹配 top-4 参考帧,通过 PnP+RANSAC 建立 2D-3D 对应关系估计位姿,再用 GPU 并行 miniBA 精化。
    • 设计动机:姿态估计完全基于固定大小的参考帧集合,实现 \(O(1)\) 复杂度且无漂移累积,相比 SplatPose 等直接对 3DGS 优化姿态的方法快得多。
  2. 像素级+特征级变化线索提取

    • 功能:从推理图像和参考渲染图像对中提取互补的变化信号
    • 核心思路:
      • 像素级线索 \(C_{\text{pixel}}^k = (1-\lambda)L_1 + \lambda L_{\text{D-SSIM}}\),捕获细粒度外观差异但对光照/反射/阴影敏感
      • 特征级线索:用 SAM2-Tiny 提取密集特征图,\(C_{\text{feature}}^k = \sum_i |f_{\text{inf}}^{k,i} - f_{\text{ren}}^{k,i}|\),对干扰更鲁棒但可能漏检语义相似物体的细微变化
      • 最终组合 \(C^k = C_{\text{pixel}}^k + C_{\text{feature}}^k\),简单相加保留两者互补优势
    • 设计动机:MV3DCD 分别对两种线索硬阈值化再取交集,会丢失只被一种线索捕获的有效变化信息。简单相加配合后续自监督损失可更好地整合信息。
  3. 自监督融合损失 (SSF Loss)

    • 功能:将多视角变化线索融合到 3DGS 变化表示中,推理多视角一致的变化 mask
    • 核心思路:从参考 3DGS 初始化变化表示 \(\mathcal{R}_{\text{change}}\)(丢弃颜色参数,引入可学习变化参数 \(c\))。对每帧推理图像,用 SSF Loss 优化 \(n=16\) 步: \(L_{\text{SSF}} = C^i \odot (1 - \tilde{M}^i) + \log(1 + \text{mean}(\tilde{M}^i)^2)\) 第一项鼓励在变化线索强的区域预测高变化概率,第二项正则化防止平凡解 \(\tilde{M}=1\)。每步随机采样历史帧 \(i\)(1/3 概率偏向最新帧 \(k\))。
    • 设计动机:\(\mathcal{R}_{\text{change}}\) 作为持久记忆,自动积累所有已观测视角的变化信息并保证 3D 一致性。这避免了硬阈值和交集操作带来的信息丢失。
  4. 变化引导的选择性场景更新

    • 功能:高效地将参考场景表示更新为当前场景状态
    • 核心思路:用精化后的变化 mask 仅重建变化区域:\(\hat{I}_{\text{inf}}^k = I_{\text{inf}}^k \odot M_{\text{refined}}^k\)。重建出 \(\mathcal{R}_{\text{change}}^*\)(仅变化区域的高斯),与未变化区域的参考高斯 \(\mathcal{R}_{\text{ref}}^*\) 融合。最后做一轮受限的全局优化——只在变化像素对应的高斯上做自适应密度控制。
    • 设计动机:避免每次巡检后从零重建整个场景,复用未变化区域的高质量高斯,渲染速度超过 400 FPS,整体更新在数十秒内完成,比从头重建快 8-13 倍。

损失函数 / 训练策略

  • SSF Loss: \(L_{\text{SSF}} = C^i \odot (1 - \tilde{M}^i) + \log(1 + \text{mean}(\tilde{M}^i)^2)\)
  • 参考场景构建:标准 3DGS(Speedy-Splat 加速版)+ SfM 姿态估计
  • 在线推理:每帧 16 步优化变化表示,采样偏向最新帧
  • 场景更新:标准 3DGS 优化 pipeline + 受限密度控制

实验关键数据

主实验

在 PASLCD 数据集(10 个室内外房间级场景,20 个实例)上的 SCD 结果:

方法 无标注 姿态无关 多视角 在线 mIoU ↑ F1 ↑ 速度
GeSCD (离线) 0.477 0.611 298s
MV3DCD (离线) 0.478 0.628 479s
Ours (离线) 0.552 0.694 156s
SplatPose+ (在线) 0.237 0.358 <1 FPS
CS+CYWS2D (在线) 0.243 0.360 8.2 FPS
Ours (在线) 0.486 0.638 11.2 FPS

场景表示更新(PASLCD + CL-Splats):

方法 PSNR ↑ SSIM ↑ LPIPS ↓ 时间(s) ↓
3DGS (从零) 22.21 0.756 0.243 550
3DGS-LM 22.26 0.756 0.242 340
CLNeRF 22.27 0.624 0.391 451
Ours 23.70 0.787 0.249 42

消融实验

变体 mIoU ↑ F1 ↑
Full model 0.486 0.638
去掉 \(L_1\) 0.320 0.464
去掉 \(L_{\text{D-SSIM}}\) 0.447 0.620
仅用 \(C_{\text{pixel}}\) ✗ (不收敛)
仅用 \(C_{\text{feature}}\) ✗ (不收敛)
去掉正则化项 ✗ (平凡解)
用 MV3DCD 硬阈值+交集 0.350 0.495

关键发现

  • 像素级和特征级线索缺一不可:单独使用任何一种都无法让 SSF loss 收敛,说明两种线索提供了互补的监督信号。
  • SSF Loss vs 硬阈值:用 MV3DCD 的硬阈值+交集替换 SSF Loss,F1 从 0.638 降到 0.495,说明自监督融合显著优于启发式方法。
  • 在线模型甚至超过离线 SOTA:在线版本的 mIoU (0.486) 已超过所有离线竞争者中的最强方法 MV3DCD (0.478),这是一个非常有意义的结果。
  • 速度-精度 tradeoff:减少融合迭代次数可以在 11-20 FPS 之间调节,F1 仅下降 3.6%。
  • 场景更新比从零重建快 8-13 倍:复用未变化区域的高斯是关键,同时还能获得更好的 PSNR。

亮点与洞察

  • 3DGS 作为变化的持久记忆:将变化参数嵌入 3DGS 基元中,使得多视角变化信息自然地在 3D 空间中累积和传播。这个设计既简洁又有效,可以迁移到任何需要在 3DGS 中做时序信息融合的任务。
  • SSF Loss 设计精妙:仅两项的简单损失就实现了端到端的多模态线索融合 + 多视角一致性 + 防平凡解,无需任何人工标注。核心洞察是让损失函数"学习融合"而非"手动融合"。
  • 选择性重建+融合的更新策略:变化区域仅需少量高斯就能建模,渲染速度 >400 FPS,极大加速优化。这为长周期场景监控提供了实用方案。

局限与展望

  • XFeat 在极端外观变化(如季节变换)下匹配可能失败,影响姿态估计
  • 当前仅使用 SAM2-Tiny 的特征作为语义线索,更强的视觉基础模型可能进一步提升检测精度
  • 场景更新策略假设变化在单次巡检内是静态的,不适用于持续动态场景
  • 在小物体级别的变化检测上仍有提升空间

相关工作与启发

  • vs MV3DCD: 最直接的竞争者。MV3DCD 使用硬阈值+交集启发式融合,本文用可学习的 SSF Loss 替代,mIoU 提升约 15%,同时在线版本也能超越之。
  • vs SplatPose/SplatPose+: 这些方法直接对 3DGS 优化相机位姿,导致速度极慢(<1 FPS)。本文的 PnP 方案 O(1) 复杂度且无漂移。
  • vs CL-Splats/GaussianUpdate: 场景更新方面的竞争者,它们需要更长的训练时间。本文的选择性重建策略简单高效。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个集成在线+姿态无关+无标注+多视角一致的 SCD 方法
  • 实验充分度: ⭐⭐⭐⭐⭐ 全面对比在线/离线 baseline,消融详实,速度分析到位
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表丰富,问题-方案对应关系明确
  • 价值: ⭐⭐⭐⭐⭐ 对机器人巡检和长期场景监控有直接实用价值