LEADER: Learning Reliable Local-to-Global Correspondences for LiDAR Relocalization¶

会议: CVPR 2026 Highlight
arXiv: 2604.11355
代码: https://github.com/JiansW/LEADER
领域: 自动驾驶
关键词: LiDAR重定位, 场景坐标回归, 偏航不变, 可靠性估计, 点云

一句话总结¶

LEADER 通过鲁棒的投影式几何编码器（偏航不变）和截断相对可靠性损失（抑制不可靠点），在 LiDAR 重定位任务上分别实现 24.1% 和 73.9% 的位置误差相对降低。

研究背景与动机¶

领域现状：LiDAR 重定位在自动驾驶中至关重要。主流方法分为"检索+配准"（需存储密集点云地图）和基于学习的回归方法，后者又分为绝对位姿回归（APR）和场景坐标回归（SCR）。

现有痛点：(1) 检索+配准方法存储和通信开销大；(2) APR 精度有限；(3) 现有 SCR 网络架构不具备偏航不变性，车辆转弯时性能下降；(4) 所有预测点被同等对待，退化区域（无纹理、动态物体）的错误对应点严重干扰位姿估计。

核心矛盾：自动驾驶场景中偏航旋转频繁且场景中大量点不适合重定位（动态物体、重复纹理），但现有方法既不能处理旋转又不能区分点的可靠性。

核心 idea：设计偏航不变的几何编码器 + 点级可靠性量化，共同提升 SCR 的鲁棒性。

方法详解¶

整体框架¶

LEADER 走的是场景坐标回归（SCR）路线：给一帧 LiDAR 点云，直接回归每个点在全局地图坐标系下的 3D 坐标，再用这些 2D-3D（点到场景坐标）对应关系做 RANSAC 求出 6-DoF 位姿。它要解决两个 SCR 一直没处理好的麻烦——车辆频繁转弯带来的偏航旋转，以及场景里大量根本不该信任的点（动态物体、地面、重复纹理）。

整条 pipeline 先把原始点云做地面估计与平面矫正摆正，再做圆柱投影，把"绕 Z 轴转多少度"这件事变成投影图里沿一个轴的平移；投影后体素化，用循环稀疏卷积抽多尺度几何特征；特征送进多头最大回归器，每个点同时吐出场景坐标和一个可靠性分数；坐标恢复到笛卡尔系后，可靠性分数既参与训练时的损失加权，也在推理时用来挑出最可信的点驱动 RANSAC。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["输入：单帧 LiDAR 点云"]
    subgraph RPGE["鲁棒投影式几何编码器（RPGE）"]
        direction TB
        P["地面矫正 + 圆柱投影<br/>偏航旋转 → x 方向平移"] --> C["体素化 + 循环稀疏卷积<br/>环形填充取多尺度几何特征"]
    end
    IN --> RPGE
    RPGE --> R["多头最大回归器<br/>k=4 头最大池化堆 5 层"]
    R --> O["逐点输出：场景坐标 + 可靠性分数"]
    O -->|训练| T["截断相对可靠性损失（TRR）<br/>可靠性自归一化加权回归误差"]
    O -->|推理| K["按可靠性取 top-k 点 → 2D-3D 对应 → RANSAC<br/>求解 6-DoF 位姿"]

关键设计¶

1. 鲁棒投影式几何编码器（RPGE）：把"偏航旋转"变成网络天然能处理的"平移"

SCR 网络本身没有任何旋转不变性，车一转弯，同一片场景在网络眼里就成了完全不同的输入，精度随之掉。RPGE 的做法是先做圆柱投影，把点 \((x',y',z')\) 映到 \((x^p = s\cdot\arctan2(y',x'),\ y^p=\sqrt{x'^2+y'^2},\ z^p=z')\)——绕 Z 轴的偏航旋转在这个坐标里就退化成 \(x^p\) 方向的一个平移量。但平移到投影图边界会绕回另一头，普通卷积在这条接缝处会算出断裂的特征，所以这里换成循环稀疏卷积，边界特征环形填充，保证沿偏航维度是连续的。最后还有一道关键约束：喂给网络的初始特征只用距离、高度、反射强度这些与偏航无关的量，绝不放偏航相关的坐标，这样"旋转→平移"的等变性才从输入端就立住，而不是寄望网络自己学出来。

2. 多头最大回归器：用多头最大池化抽出更鲁棒的坐标预测

退化区域的特征本就容易被单一投影方向带偏，回归头需要更强的表达力。这里把 512 维特征投影到 \(k\times512\) 维（\(k=4\) 个头），在每一维上取各头的最大值，相当于让多条并行变换竞争、只保留响应最强的那支；这样的操作堆 5 层后再接全连接层，每个点输出 3D 场景坐标和一个可靠性分数。多头最大池化让回归对局部噪声更不敏感，也给下面的可靠性判断提供了更稳的特征基础。

3. 截断相对可靠性损失（TRR）：让网络学会主动放弃不该信的点

SCR 默认把所有预测点一视同仁，可现实里动态物体、地面、弱纹理区域的坐标预测本质上就是噪声，平均进位姿估计反而拖累结果。TRR 拿回归器输出的可靠性分数 \(u_i\)，经 arctan 缩放并截断后转成一组自归一化权重 \(w_i\)，可靠点权重大、不可靠点权重被压到接近零，训练目标按权重聚合每个点的原始回归误差：

\[\mathcal{L}_{TRR} = \sum_i w_i\,\mathcal{L}_{raw,i}\]

因为权重自归一化、且对低可靠点做了截断，网络无法靠"把所有点都标成不可靠"来偷懒降损失，只能去识别哪些点真正稳定。训练完它学出来的可靠性图和直觉吻合——建筑立面这类稳定结构分高，地面和植被分低，全程不需要任何语义标注或先验。

损失函数 / 训练策略¶

全程用截断相对可靠性损失（TRR）端到端训练，坐标回归与可靠性估计联合优化。推理时取可靠性分数 top-k 的点构造 2D-3D 对应，再用 RANSAC 解出 6-DoF 位姿。

实验关键数据¶

主实验¶

数据集	指标	LEADER	之前SOTA	相对降低
Oxford RobotCar	位置误差(m)	0.63	0.83 (LightLoc)	-24.1%
NCLT	位置误差(m)	0.19	0.72 (SGLoc→LiSA)	-73.9%
Oxford	方向误差(°)	1.11	1.12	-0.9%

消融实验¶

配置	Oxford位置误差	NCLT位置误差	说明
Full LEADER	0.63	0.19	完整模型
w/o 循环卷积	增大	增大	偏航边界不连续
w/o TRR	增大	增大	不可靠点干扰
w/o 投影变换	增大	增大	偏航不变性缺失

关键发现¶

NCLT 数据集上改进最为显著（73.9%），因为 NCLT 包含更多偏航变化和退化区域
TRR 损失学到的可靠性分数与直觉一致——建筑立面等稳定结构高、地面和植被低
SCR 方法整体优于 APR 方法，因为显式利用了几何约束

亮点与洞察¶

圆柱投影+循环卷积：将偏航旋转问题优雅地转化为平移等变问题，计算上高效且理论上合理
自学习可靠性：网络自动学会区分可靠/不可靠区域，无需手动标注或语义先验

局限与展望¶

仅处理偏航旋转，俯仰和翻滚变化未显式建模
可靠性阈值的自适应选择仍可改进
未来可结合语义信息进一步提升可靠性估计

评分¶

新颖性: ⭐⭐⭐⭐ 投影变换+可靠性损失的组合简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 两个权威数据集上大幅领先
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对自动驾驶 LiDAR 定位有实际价值