C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion¶

会议: CVPR 2026
arXiv: 2604.16680
代码: https://github.com/yuvalH9/CGenReg （有）
领域: 3D视觉 / 点云配准 / 扩散与生成先验
关键词: 点云配准, 训练无关, World Foundation Model, 视觉基础模型, 概率融合

一句话总结¶

C-GenReg 用一个预训练的 World Foundation Model（Cosmos-Transfer）把输入点云的几何渲染成「多视角一致的 RGB 视图」，再交给为稠密匹配预训练的 VFM（MASt3R）提对应，并用一套 Noisy-AND 概率融合把图像分支和原始几何分支的对应后验合并起来——全程零训练、即插即用，首次让生成式配准框架成功跑在真实室外 LiDAR 上。

研究背景与动机¶

领域现状：点云配准的标准流水线是「特征提取 → 特征匹配 → 鲁棒位姿估计（如 RANSAC）」。深度学习时代，FCGF、Predator、GeoTransformer、RoITr 等学到的 3D 描述子已经取代了 FPFH、SHOT 这类手工特征，但流水线骨架没变，性能瓶颈仍在「特征匹配不准」。

现有痛点：学到的 3D 特征强烈依赖采集域——传感模态、点云密度、采集环境一变就掉点。在室内 RGB-D 上训得好的方法，换个传感器或搬到室外 LiDAR 就明显退化，跨域泛化能力差。

核心矛盾：图像域早已靠 Vision Foundation Model（VFM）在海量异构数据上预训练而基本攻克了泛化问题，但3D 点云至今没有一个对应的基础模型。于是「域依赖的 3D 特征」和「想要的零样本泛化」之间存在结构性鸿沟。

本文目标：在不做任何微调的前提下，把 3D 配准问题「搬」到 VFM 擅长的图像域，同时不丢掉原始点云里的几何信息，最终在室内 RGB-D 和室外 LiDAR 上都能零样本工作。

切入角度：几何→图像的迁移要有效，生成的 RGB 必须同时满足两点——(i) 源/目标两个视角之间多视角一致，(ii) 与底层 3D 结构几何相干。否则生成图会发散或引入几何畸变，对应就不可靠。作者观察到近年的 World Foundation Model（WFM，如 Cosmos-Transfer）天然编码了世界级先验和多视角几何推理，能从深度控制信号「开箱即用」地生成跨视角一致的 RGB——而且生成图不必和真实场景外观一致（颜色纹理可以不同），只要几何在不同视角间被保持。这正好满足配准所需。

核心 idea：用预训练 WFM 把几何转成多视角一致的 RGB（替代以往需微调才能保证一致性的单视角扩散），再用任务专用 VFM 提匹配，最后用概率融合（而非简单特征拼接）把图像分支和几何分支的对应后验合并——三者全是冻结的现成模型，零训练。

方法详解¶

整体框架¶

给定源点云 \(P\in\mathbb{R}^{N\times3}\) 和目标点云 \(Q\in\mathbb{R}^{M\times3}\)，目标是估计刚体变换 \((R,t)\in SE(3)\) 把 \(P\) 对齐到 \(Q\)。一旦有了可靠对应集，最优变换有闭式解（式 (1) 的最小二乘）；难点全在「怎么建立可靠对应」。C-GenReg 用双分支 + 概率融合来建对应：一条生成-RGB 分支把几何搬到图像域借 VFM 之力，一条几何分支直接吃原始点云保留几何归纳偏置，两条分支各自产出一张对应后验图，再被「Match-then-Fuse」融合成统一后验，最后采样互最近邻匹配、用 SC2PCR 鲁棒估计出 \((R,t)\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源/目标点云"] --> B["深度图渲染<br/>+时序拼接成深度视频"]
    A --> G["几何分支<br/>GeoTransformer 提特征"]
    B --> C["WFM 几何→RGB 生成<br/>多视角一致 RGB"]
    C --> D["任务专用 VFM 视觉匹配<br/>MASt3R · K² 视角配对"]
    D --> E["2D→3D 回投<br/>逐点描述子 p_img"]
    G --> H["几何对应后验 p_geo"]
    E --> F["Match-then-Fuse 概率融合<br/>Noisy-AND"]
    H --> F
    F --> I["鲁棒位姿估计<br/>SC2PCR → (R*, t*)"]

关键设计¶

1. WFM 几何→RGB 生成：用世界模型零训练换来多视角一致的辅助图像通道

以往的生成式配准（如 GPCR）多用单视角扩散模型，缺乏处理多个几何相关视角的机制，因此需要微调来强制跨视角一致，否则一致性差、对应不稳。C-GenReg 直接换用 World Foundation Model——具体是 Cosmos-Transfer（Depth），它支持从分割/边缘/深度等多种模态做可控世界生成，尤其擅长从深度控制信号产出多视角一致的 RGB 视频。做法上，3DMatch/ScanNet 的点云本就是把一段时序深度帧 \(\{D\}_{l=1}^{L}\) 聚合成体素/TSDF 得到的，作者就把这段时序深度序列当作 Cosmos-Transfer 的条件信号；由于 WFM 期望深度视频输入，便把源、目标两段深度序列在时间维拼接成一段深度视频喂进去，让模型把它当成两段相关序列联合生成。对 LiDAR 数据则挂一台虚拟相机、把 3D 点投影成深度图，模拟同样的输入格式。关键在于它开箱即用就保证了跨视角几何一致，从而把配准从「需要微调」推进到「零样本」，并带来跨数据集、跨传感模态的泛化。生成图的颜色纹理可以和真实场景不符——只要几何在视角间被保持就够用，因此提示词只起轻量语义稳定作用（实验证明粗略甚至最小提示几乎不掉点，只有语义完全错误的提示才显著伤精度）

2. 任务专用 VFM 视觉匹配：用为稠密匹配预训练的 MASt3R 而非通用 VFM 提对应

生成出 RGB 后，从图里提什么特征决定了对应质量。通用 VFM（如 DINOv2）的表征和「匹配」这个目标并不对齐，作者改用任务专用 VFM——MASt3R，它专门为稠密、对应感知的特征而训练，归纳偏置正好压在配准最需要的地方。这里有个细节叫视角选择：MASt3R 通过基于交叉注意力的解码器成对处理源、目标图像，同一张源图配不同目标图会得到不同的特征图。为利用这一点，作者从每个域采样 \(K\) 个视图、评估全部 \(K^2\) 对组合，得到每域 \(K^2\) 张条件化特征图（\(F^{img}_n\in\mathbb{R}^{K^2\times N_n\times d_{img}}\)）；由于序列内 \(L\) 帧高度相关，取很小的 \(K\ll L\) 就有足够视角多样性（实现里 \(K=4\)、\(L=50\)）。提完 2D 特征后再经 2D→3D 回投：生成 RGB 本就源自深度，用已知深度相机内参把图像特征抬回 3D，每个 3D 点取其最近图像像素的特征；因为稠密图像特征数远多于体素下采样后的点数，用最近邻查询把两个模态对齐到一致大小。消融显示任务专用 VFM 比通用模型 mean RRE/RTE 好 2–3 倍

3. Match-then-Fuse 概率融合：先各自匹配再按概率合并，保住每个模态的归纳偏置

把图像分支和几何分支合起来时，以往（GPCR、ZeroMatch）常做简单特征拼接（Fuse-then-Match），作者认为这忽略了各模态的归纳偏置和对应预测的概率本质。C-GenReg 反过来做「先匹配、再融合」：每个模态先各自算源-目标相似度矩阵——几何分支 \(S^{geo}=F^{geo}_{src}(F^{geo}_{tgt})^\top\)，图像分支取 \(K^2\) 个视角对里逐点对的最大相似度 \(S^{img}=\max_{k}F^{img}_{src,k}(F^{img}_{tgt,k})^\top\)（捕获最佳跨视角匹配）——再按行 softmax 转成模态对应后验 \(p^m_{ij}=\mathrm{Softmax}_j(S^m_{ij}/\tau_m)\)，\(\tau_m\) 是温度。两个后验在「给定真对应时条件独立」假设下做联合融合。主用的 Noisy-AND（Joint Posterior Fusion）偏好被两个模态共同支持的对应，等价于「互相印证才提高置信」：

\[p^{fuse}_{ij}=\frac{p^{img}_{ij}\,p^{geo}_{ij}(1-\pi_{ij})}{p^{img}_{ij}\,p^{geo}_{ij}(1-\pi_{ij})+\bigl(1-p^{img}_{ij}\bigr)\bigl(1-p^{geo}_{ij}\bigr)\pi_{ij}}\]

其中 \(\pi_{ij}\triangleq\Pr(M_{ij}=1)\) 是先验匹配概率（无先验时取均匀 \(\pi_{ij}=1/(N_{src}N_{tgt})\)）。作者还给了一个 Noisy-OR（Disjunctive，\(p^{Noisy\text{-}OR}_{ij}=1-(1-p^{img}_{ij})(1-p^{geo}_{ij})\)）变体，它只要任一模态强支持就提升置信；消融里 Noisy-AND 精度略高、产出更高精度的点匹配，而配准本就靠少量高可靠对应，故定为默认。这套融合全程不训练、保留两个冻结模型各自的先验，给出校准过的鲁棒对应——这正是它优于早期特征拼接的根本原因

损失函数 / 训练策略¶

没有任何训练损失：WFM、VFM、几何特征提取器三者都用公开预训练权重并全程冻结，融合模块是闭式概率公式、不可学。实现上用 Cosmos-Transfer-v1 (Depth) 作 WFM、MASt3R 作 VFM、GeoTransformer 作几何骨干、Noisy-AND 作融合；特征维度 \(d_{img}=24\)、\(d_{geo}=256\)，VFM 分支取 \(K=4\) 视图（从 \(L=50\) 帧里选）、温度 \(\tau_m=0.1\)；位姿用 SC2PCR 鲁棒估计。整体是即插即用模块，可搭配多种配准导向的几何特征提取器。

实验关键数据¶

主实验¶

3DMatch（室内，RRE 单位 deg / RTE 单位 cm，Accuracy 为阈值内配准对占比）：

方法	输入	RRE@5↑	RRE@10↑	RRE mean↓	RTE@25↑	RTE mean↓
FPFH（手工）	PC	41.4	56.7	39.2	35.1	50.9
GeoTransformer	PC	88.9	91.8	12.0	90.1	24.6
FCGF	PC	90.4	93.7	9.4	91.0	19.2
GPCR（生成式）	PC	94.3	96.7	4.5	93.1	12.5
C-GenReg	PC	94.2	97.5	3.8	95.7	11.9
C-GenReg-Oracle（真 RGB）	RGB-D	95.1	99.6	2.1	98.3	7.3

C-GenReg 在仅用点云输入下，把 mean RRE 相比 GeoTransformer 几乎砍半（12.0 → 3.8），并在多数指标上超过同为生成式的 GPCR（仅在 RRE@5 落后 0.1pp、median RTE 略逊）。Oracle 用真实 RGB 替换生成图，给出了本流水线潜力的经验上界。

Waymo（室外 LiDAR，RRE 单位 deg / RTE 单位 m，所有学习基线在 KITTI 上训练）：

方法	RRE@1↑	RRE@2↑	RRE mean↓	[email protected]↑	RTE mean↓
GeoTransformer	17.0	39.6	7.3	2.2	4.1
Predator	21.0	49.0	10.0	1.4	4.9
C-GenReg	61.8	76.2	2.4	41.1	1.7

学习基线因传感器差异（光束模式/密度不同）在 Waymo 上严重退化，而 C-GenReg 的旋转/平移精度大幅领先——这是论文最大卖点：首次让生成式配准框架在真实室外 LiDAR（无图像可用）上成功运行。ScanNet（跨数据集泛化）上 C-GenReg 在 ScanNet Hard 取得 RRE@5=88.7、mean RRE=7.8，多数指标第一或第二。

消融实验（3DMatch，MASt3R 为 VFM）¶

配置	RRE@5↑	RRE mean↓	RTE mean↓	说明
DINOv2（通用 VFM，仅图像分支）	57.6	27.4	73.3	通用模型与匹配目标不对齐
MASt3R（任务专用，仅图像分支）	82.7	11.7	32.5	任务专用 VFM，mean RRE 好 ~2.3×
MASt3R + GeoTrans + Concat	79.4	21.9	60.1	简单特征拼接（Fuse-then-Match）
MASt3R + GeoTrans + Noisy-OR	94.2	3.9	12.1	概率融合（并式）
MASt3R + GeoTrans + Noisy-AND（完整）	94.2	3.8	11.9	默认配置

关键发现¶

任务专用 VFM 是第一性的：DINOv2 换成 MASt3R/RoMa，mean RRE 从 27.4 降到 9–12（约 2–3×），说明特征要和「匹配」目标对齐，而非泛泛的语义表征。
概率融合 >> 特征拼接：在 GeoTransformer 几何特征上，Concat 的 mean RRE 21.9 → Noisy-AND 3.8，最高约 5× 提升；Noisy-AND 比 Noisy-OR 精度略高、点匹配更精确，因为「相互印证才提高置信」更契合「配准靠少量高可靠对应」的本质。
几何骨干可换：把生成-RGB 分支接到 FCGF/Predator/GeoTransformer 上都比各自原始基线涨点，说明 C-GenReg 是通用的「性能增强器」；其中 GeoTransformer 最好，定为默认。
提示词鲁棒：把详细场景描述换成「一个厨房」乃至「室内场景」几乎不掉点，只有语义完全错误的「雪林」才显著伤精度——说明只需粗略语义上下文（通常可从元数据/采集环境推断）。

亮点与洞察¶

「生成图不必逼真、只需几何一致」是关键解放：把生成目标从「外观保真」降到「跨视角几何相干」，正好踩在 WFM 开箱即用的能力上，从而摆脱了 GPCR 那种为多视角一致而做的微调——这是它能零样本跨域的根因。
拿配准任务专用的 MASt3R 当 VFM，而不是热门的 DINOv2，把 VFM 的归纳偏置精准对齐到「找稠密对应」，消融里 2–3× 的差距很有说服力，可迁移到任何「先生成图、再在生成图上做匹配/几何任务」的设置。
Match-then-Fuse 概率框架：把多模态融合从「拼特征」抬到「拼后验」，用条件独立假设导出 Noisy-AND/Noisy-OR 两个闭式公式，既保留各模态先验又给校准置信、零训练——这套思路可复用到任何需要融合多个独立预测器的零样本系统。
首次跑通真实 LiDAR：在没有真实图像的室外场景，用虚拟相机投影深度→WFM 生成 RGB，硬是把「图像域 VFM 的红利」引到了 LiDAR 配准，Waymo 上对学习基线碾压式领先。

局限与展望¶

计算开销：\(K^2\) 视角对组合 + WFM 视频生成都不便宜，作者靠 \(K\ll L\)（\(K=4\)）压成本，但相比纯几何方法的额外推理代价（WFM + VFM 两个大模型前向）仍可观，论文把 runtime 分析放进附录。
依赖 WFM 的多视角一致性：整套方法的可靠性建立在 Cosmos-Transfer「开箱即用就跨视角一致」这一前提上；若场景超出 WFM 世界先验覆盖（极端稀疏、强反光、非常规几何），生成图一致性能否维持值得存疑。
LiDAR 适配是简化设置：室外用单个前向虚拟相机投影深度，视场受限；多相机/全景投影下的表现、以及低重叠极端工况（部分放在附录）还需更多验证。
Oracle 与生成版的差距：C-GenReg-Oracle（真 RGB）明显优于生成版（mean RRE 2.1 vs 3.8），说明生成图与真实图仍有质量差，提升生成保真/几何相干度有进一步空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用 WFM 拿多视角一致 RGB + 任务专用 VFM + 概率 Match-then-Fuse 的组合是清晰的新范式，首次跑通真实 LiDAR。
实验充分度: ⭐⭐⭐⭐ 室内（3DMatch/ScanNet）+ 室外（Waymo）+ VFM/几何骨干/融合算子三组消融 + 提示鲁棒性都覆盖，仅低重叠等放在附录。
写作质量: ⭐⭐⭐⭐⭐ 动机层层递进、概率融合公式推导清楚、图文对应到位。
价值: ⭐⭐⭐⭐⭐ 零训练即插即用、能给现有几何配准器通用增强、并打开了「生成式配准上 LiDAR」的实用大门。