Changes in Real Time: Online Scene Change Detection with Multi-View Fusion¶

会议: CVPR 2026
arXiv: 2511.12370
代码: https://chumsy0725.github.io/O-SCD/
领域: 3D视觉
关键词: 场景变化检测, 3D高斯泼溅, 在线推理, 自监督融合, 场景更新

一句话总结¶

提出首个同时具备在线、姿态无关、无标注、多视角一致性的场景变化检测（SCD）方法，通过自监督融合损失将像素级和特征级变化线索集成到 3DGS 变化表示中，在超过 10 FPS 的实时速率下超越了所有已有离线方法的检测精度。

研究背景与动机¶

领域现状：场景变化检测（SCD）是场景理解的核心任务，应用于环境监测、基础设施检查和损伤评估。近年来方法利用 NeRF 和 3DGS 构建场景的三维表示来实现姿态无关的 SCD。

现有痛点： - 最强的 SCD 方法（如 MV3DCD、GeSCD）都是离线的——需要预先收集所有前后时刻的观测数据才能推理，不适用于实时决策场景。 - 现有在线方法精度远低于离线方法，且多数无法维持实时性能（<1 FPS）。 - MV3DCD 使用硬阈值和交集启发式融合变化线索，容易丢失细微但重要的变化信号。

核心矛盾：在线场景下需要实时、逐帧地检测变化，同时还要保持跨视角一致性，但现有方法要么牺牲精度（在线方法），要么牺牲实时性（离线方法）。

本文目标：(a) 如何在线实时推理变化？(b) 如何避免硬阈值导致的信息丢失？(c) 如何高效更新场景表示？

切入角度：用 3DGS 的变化表示作为跨视角的"持久记忆"，配合自监督损失自动学习融合多视角变化线索，同时设计基于 PnP 的轻量级姿态估计和变化引导的选择性场景更新。

核心idea：用一个自监督融合损失替代硬阈值启发式，让变化信息在 3DGS 表示中自然积累和传播，同时仅重建变化区域来实现秒级的场景更新。

方法详解¶

整体框架¶

系统分为：(1) 离线构建参考场景的 3DGS 表示；(2) 在线处理：对每帧推理图像估计姿态→提取变化线索→融合到变化表示中→推理变化 mask；(3) 完成所有观测后，选择性更新场景表示。

关键设计¶

轻量级 PnP 姿态估计
- 功能：将每帧推理图像注册到参考场景坐标系
- 核心思路：用 XFeat 提取参考图像的关键点和描述符，预先三角化为 3D 点集。对每帧推理图像，提取描述符并匹配 top-4 参考帧，通过 PnP+RANSAC 建立 2D-3D 对应关系估计位姿，再用 GPU 并行 miniBA 精化。
- 设计动机：姿态估计完全基于固定大小的参考帧集合，实现 \(O(1)\) 复杂度且无漂移累积，相比 SplatPose 等直接对 3DGS 优化姿态的方法快得多。
像素级+特征级变化线索提取
- 功能：从推理图像和参考渲染图像对中提取互补的变化信号
- 核心思路：
  - 像素级线索 \(C_{\text{pixel}}^k = (1-\lambda)L_1 + \lambda L_{\text{D-SSIM}}\)，捕获细粒度外观差异但对光照/反射/阴影敏感
  - 特征级线索：用 SAM2-Tiny 提取密集特征图，\(C_{\text{feature}}^k = \sum_i |f_{\text{inf}}^{k,i} - f_{\text{ren}}^{k,i}|\)，对干扰更鲁棒但可能漏检语义相似物体的细微变化
  - 最终组合 \(C^k = C_{\text{pixel}}^k + C_{\text{feature}}^k\)，简单相加保留两者互补优势
- 设计动机：MV3DCD 分别对两种线索硬阈值化再取交集，会丢失只被一种线索捕获的有效变化信息。简单相加配合后续自监督损失可更好地整合信息。
自监督融合损失 (SSF Loss)
- 功能：将多视角变化线索融合到 3DGS 变化表示中，推理多视角一致的变化 mask
- 核心思路：从参考 3DGS 初始化变化表示 \(\mathcal{R}_{\text{change}}\)（丢弃颜色参数，引入可学习变化参数 \(c\)）。对每帧推理图像，用 SSF Loss 优化 \(n=16\) 步： \(L_{\text{SSF}} = C^i \odot (1 - \tilde{M}^i) + \log(1 + \text{mean}(\tilde{M}^i)^2)\) 第一项鼓励在变化线索强的区域预测高变化概率，第二项正则化防止平凡解 \(\tilde{M}=1\)。每步随机采样历史帧 \(i\)（1/3 概率偏向最新帧 \(k\)）。
- 设计动机：\(\mathcal{R}_{\text{change}}\) 作为持久记忆，自动积累所有已观测视角的变化信息并保证 3D 一致性。这避免了硬阈值和交集操作带来的信息丢失。
变化引导的选择性场景更新
- 功能：高效地将参考场景表示更新为当前场景状态
- 核心思路：用精化后的变化 mask 仅重建变化区域：\(\hat{I}_{\text{inf}}^k = I_{\text{inf}}^k \odot M_{\text{refined}}^k\)。重建出 \(\mathcal{R}_{\text{change}}^*\)（仅变化区域的高斯），与未变化区域的参考高斯 \(\mathcal{R}_{\text{ref}}^*\) 融合。最后做一轮受限的全局优化——只在变化像素对应的高斯上做自适应密度控制。
- 设计动机：避免每次巡检后从零重建整个场景，复用未变化区域的高质量高斯，渲染速度超过 400 FPS，整体更新在数十秒内完成，比从头重建快 8-13 倍。

损失函数 / 训练策略¶

SSF Loss: \(L_{\text{SSF}} = C^i \odot (1 - \tilde{M}^i) + \log(1 + \text{mean}(\tilde{M}^i)^2)\)
参考场景构建：标准 3DGS（Speedy-Splat 加速版）+ SfM 姿态估计
在线推理：每帧 16 步优化变化表示，采样偏向最新帧
场景更新：标准 3DGS 优化 pipeline + 受限密度控制

实验关键数据¶

主实验¶

在 PASLCD 数据集（10 个室内外房间级场景，20 个实例）上的 SCD 结果：

方法	无标注	姿态无关	多视角	在线	mIoU ↑	F1 ↑	速度
GeSCD (离线)	✓	✗	✗	✗	0.477	0.611	298s
MV3DCD (离线)	✓	✓	✓	✗	0.478	0.628	479s
Ours (离线)	✓	✓	✓	✗	0.552	0.694	156s
SplatPose+ (在线)	✓	✓	✗	✓	0.237	0.358	<1 FPS
CS+CYWS2D (在线)	✗	✗	✗	✓	0.243	0.360	8.2 FPS
Ours (在线)	✓	✓	✓	✓	0.486	0.638	11.2 FPS

场景表示更新（PASLCD + CL-Splats）：

方法	PSNR ↑	SSIM ↑	LPIPS ↓	时间(s) ↓
3DGS (从零)	22.21	0.756	0.243	550
3DGS-LM	22.26	0.756	0.242	340
CLNeRF	22.27	0.624	0.391	451
Ours	23.70	0.787	0.249	42

消融实验¶

变体	mIoU ↑	F1 ↑
Full model	0.486	0.638
去掉 \(L_1\)	0.320	0.464
去掉 \(L_{\text{D-SSIM}}\)	0.447	0.620
仅用 \(C_{\text{pixel}}\)	✗ (不收敛)	✗
仅用 \(C_{\text{feature}}\)	✗ (不收敛)	✗
去掉正则化项	✗ (平凡解)	✗
用 MV3DCD 硬阈值+交集	0.350	0.495

关键发现¶

像素级和特征级线索缺一不可：单独使用任何一种都无法让 SSF loss 收敛，说明两种线索提供了互补的监督信号。
SSF Loss vs 硬阈值：用 MV3DCD 的硬阈值+交集替换 SSF Loss，F1 从 0.638 降到 0.495，说明自监督融合显著优于启发式方法。
在线模型甚至超过离线 SOTA：在线版本的 mIoU (0.486) 已超过所有离线竞争者中的最强方法 MV3DCD (0.478)，这是一个非常有意义的结果。
速度-精度 tradeoff：减少融合迭代次数可以在 11-20 FPS 之间调节，F1 仅下降 3.6%。
场景更新比从零重建快 8-13 倍：复用未变化区域的高斯是关键，同时还能获得更好的 PSNR。

亮点与洞察¶

3DGS 作为变化的持久记忆：将变化参数嵌入 3DGS 基元中，使得多视角变化信息自然地在 3D 空间中累积和传播。这个设计既简洁又有效，可以迁移到任何需要在 3DGS 中做时序信息融合的任务。
SSF Loss 设计精妙：仅两项的简单损失就实现了端到端的多模态线索融合 + 多视角一致性 + 防平凡解，无需任何人工标注。核心洞察是让损失函数"学习融合"而非"手动融合"。
选择性重建+融合的更新策略：变化区域仅需少量高斯就能建模，渲染速度 >400 FPS，极大加速优化。这为长周期场景监控提供了实用方案。

局限与展望¶

XFeat 在极端外观变化（如季节变换）下匹配可能失败，影响姿态估计
当前仅使用 SAM2-Tiny 的特征作为语义线索，更强的视觉基础模型可能进一步提升检测精度
场景更新策略假设变化在单次巡检内是静态的，不适用于持续动态场景
在小物体级别的变化检测上仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个集成在线+姿态无关+无标注+多视角一致的 SCD 方法
实验充分度: ⭐⭐⭐⭐⭐ 全面对比在线/离线 baseline，消融详实，速度分析到位
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，图表丰富，问题-方案对应关系明确
价值: ⭐⭐⭐⭐⭐ 对机器人巡检和长期场景监控有直接实用价值