MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction¶

会议: CVPR 2026
arXiv: 2603.10688
代码: 无
领域: 自动驾驶
关键词: 在线高精地图构建, 半监督学习, 对比学习, BEV特征, 多次经过

一句话总结¶

MapGCLR 提出基于地理空间对比学习的半监督训练方案：利用同一地点多次驾驶经过产生的 BEV 特征网格的地理空间重叠关系，构建 InfoNCE 对比损失强制 BEV 特征空间的地理一致性，在 Argoverse 2 上仅用 5% 标注数据即达到 18.9 mAP（纯监督基线 13.3），相对提升 42%，效果几乎等于将标注数据量翻倍。

研究背景与动机¶

领域现状：在线高精地图构建是自动驾驶的重要任务，以 MapTR/MapTRv2/MapTracker 为代表的方法从环视相机输入预测矢量化地图元素（车道线、道路边界、人行横道等），已取得不错进展。但所有方法都严重依赖大量标注训练数据——精确的高精地图标注成本极高，是可扩展性的主要瓶颈。

现有半监督方法局限： - PseudoMapTrainer：用传感器数据生成 Gaussian surfel 网格渲染伪 BEV 分割标签，但依赖语义分割范式而非矢量化预测 - Lilja et al.：师生架构 + 时序伪标签融合，同样基于分割范式 - 两者都通过伪标签做半监督，未直接利用地理空间一致性这一自然先验

核心洞察：自动驾驶数据集中，同一地点往往被多次驾驶经过（multi-traversal）。同一地理位置在不同时间、不同天气、不同光照条件下的 BEV 特征应该相似——这构成了天然的自监督信号，无需任何标注即可利用。

关键区别：不同于 HRMapNet/RTMap 等方法在推理时存储和融合历史 BEV 特征（增加内存和模型复杂度），MapGCLR 仅在训练阶段利用多次经过的地理一致性来改善编码器的特征表示，推理时仍是单帧单次前向传播。

方法详解¶

整体框架¶

MapGCLR 构建在 MapTRv2 之上，采用双分支半监督训练管线：

监督分支（粉色）：少量标注数据 → ResNet-50 提取图像特征 → BEV lifting → MapTRv2 Transformer 解码器 → 预测矢量化地图元素 → 监督损失 \(\mathcal{L}_{\text{sup}}\)
自监督分支（蓝色+橙色）：大量无标注的多次经过数据对（reference + adjacent）→ 共享编码器提取 BEV 特征网格 → 投影头 \(h\) 映射到嵌入空间 → 地理空间对比损失 \(\mathcal{L}_{\text{GCLR}}\)

每个 batch 包含 \(n\) 个有标注样本 + \(2m\) 个无标注样本（\(m\) 对 reference-adjacent 配对），总计 \(n + 2m\) 个样本。

关键设计¶

地理空间多次经过分析（Multi-Traversal Split）:
- 功能：分析数据集中不同驾驶日志之间的地理重叠，划分为单次经过和多次经过子集
- 核心思路：将所有车辆姿态转换到全局坐标系，为每个姿态根据车辆朝向计算感知范围包围盒（横向 \(\pm x\) 米、纵向 \(\pm y\) 米），合并同一日志的所有包围盒为一个多边形。若某日志的多边形与至少一个其他日志的多边形相交，则归类为多次经过
- 空间图构建：图 \(G = (V, E)\)，节点 \(v \in V\) 为车辆姿态，边 \(e_{ij} \in E\) 连接满足 IoU 在 \([\text{IoU}_{\min}, \text{IoU}_{\max}]\) 范围内的姿态对。约束最小最大 IoU 确保重叠区域既有足够相关性又不完全相同
- 数据集划分策略：多次经过日志全部用于自监督（忽略其标注），单次经过日志再划分为监督子集（2.5%/5%/10%/20%）和验证集
- 设计动机：在 Argoverse 2 中，绝大部分日志都存在多次经过（从直方图看，多数日志与 2-20 个其他日志相交），为对比学习提供了充足的正样本对
地理空间对比学习（Geospatial Contrastive Learning）:
- 功能：基于 SimCLR 框架，利用地理重叠的 BEV 特征网格单元构建对比对，强制编码器学习地理一致的 BEV 特征
- 正负样本定义：
  - 正样本对：reference 姿态的 BEV 网格中某个单元 \(c_a\)（anchor）与 adjacent 姿态的 BEV 网格中对应同一地理位置的单元 \(c_p\)
  - 负样本：从两个网格中随机采样不共享空间对应关系的单元 \(c_n\)
- 采样策略：从 reference 网格的重叠区域随机采样 anchor 点，在 adjacent 网格中通过最近邻搜索找到对应正样本，负样本从两个网格中排除 anchor 和正样本后随机采样
- 关键创新：不同于传统对比学习使用图像增强构造正样本对，MapGCLR 将同一地点不同时间的观测视为天然增强，利用真实的视角差异、光照变化、动态物体差异等作为"自然数据增强"
投影头与 InfoNCE 损失:
- 功能：将 BEV 单元特征 \(\mathbf{f}\) 通过投影头 \(h\) 映射到嵌入空间 \(\mathbf{z} \in \mathcal{Z}\)，在嵌入空间计算对比损失
- 损失函数：
\(\mathcal{L}_{\text{GCLR}} = -\log \frac{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau)}{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau) + \sum_{k=1}^{K} \exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_k^-) / \tau)}\)

其中 \(\text{sim}(\cdot, \cdot)\) 为余弦相似度，\(\tau\) 为温度参数 - 设计动机：投影头将对比学习域与下游任务域解耦（SimCLR 的标准做法），避免对比目标直接干扰特征空间的任务特定结构

损失函数 / 训练策略¶

总损失为监督损失和对比损失的加权组合：

\[\mathcal{L}_{\text{semi}} = \lambda_{\text{sup}} \mathcal{L}_{\text{sup}} + \lambda_{\text{GCLR}} \mathcal{L}_{\text{GCLR}}\]

\(\lambda_{\text{sup}}\) 和 \(\lambda_{\text{GCLR}}\) 控制两个目标的相对权重
\(\mathcal{L}_{\text{sup}}\) 严格遵循 MapTRv2 原始损失（匈牙利匹配 + 分类/回归损失），仅在有标注样本上计算
\(\mathcal{L}_{\text{GCLR}}\) 在所有 \(m\) 对无标注多次经过样本上计算求和

实验关键数据¶

主实验¶

在 Argoverse 2 上，与纯监督 MapTRv2 基线对比：

标注数据比例	方法	mAP	绝对提升	相对提升
2.5%	监督基线	6.5	—	—
2.5%	+ SSL (MapGCLR)	8.5	+2.0	+31%
5%	监督基线	13.3	—	—
5%	+ SSL (MapGCLR)	18.9	+5.6	+42%
10%	监督基线	22.0	—	—
10%	+ SSL (MapGCLR)	27.3	+5.3	+24%
20%	监督基线	31.0	—	—
20%	+ SSL (MapGCLR)	34.9	+3.9	+13%
30%	监督基线	36.6	—	—
40%	监督基线	39.8	—	—

消融实验¶

配置	关键观察	说明
标注比例 vs 提升幅度	标注越少提升越大	5% 时相对提升 42%，20% 时仅 13%，符合半监督学习的预期
5% + SSL vs 10% 纯监督	18.9 vs 22.0	SSL 效果≈将标注翻倍（5%→接近10%水平）
PCA 可视化（定性）	SSL 特征空间更清晰	道路边界对比度更强，自车道分离更明显
基线网格伪影	固定位置异常特征簇	纯监督训练的 BEV 网格右上角出现固定坐标处的伪影，SSL 消除了此现象

关键发现¶

标注数据稀缺时收益最大：5% 标注数据时相对提升 42%（从 13.3 到 18.9 mAP），这意味着实际部署中可以大幅节省标注成本
pedestrian crossing 类别提升相对较小：各类别中 ped 提升最小（如 5% 时从 7.3 到 9.9），可能因为人行横道在不同时间外观变化大、地理一致性信号较弱
PCA 分析揭示特征空间质量：SSL 训练后 BEV 特征在道路边界处有更清晰的边界分离，且消除了纯监督模型中的固定坐标处伪影——说明对比学习确实强制了特征的地理一致性

亮点与洞察¶

问题建模巧妙：将"同一地点多次经过"重新解释为对比学习的"天然数据增强"，比人工构造增强更真实——不同时间的光照、天气、动态物体变化构成自然的视角多样性
方法简洁且即插即用：核心贡献是训练阶段的附加损失函数和数据组织策略，不改变模型推理时的架构和计算量。可直接应用于任何基于 BEV 特征网格的在线地图构建模型
数据集分析本身有价值：提出的多次经过分类方法和地理重叠分析为 Argoverse 2 等数据集提供了新的利用视角，可推广到其他需要空间一致性的任务

局限与展望¶

仅在 MapTRv2 单帧模型上验证：未测试在 MapTracker 等带时序记忆的 SOTA 模型上的效果。时序模型本身已利用帧间一致性，与地理空间对比学习可能存在冗余或互补，值得探索
依赖高精度定位：对比对构建需要精确的全局姿态来计算 BEV 网格的地理重叠。缺乏高质量定位的数据集（如 nuScenes）难以直接应用
仅作用于编码器：对比损失仅反向传播到 BEV 编码器，未涉及 Transformer 解码器。将自监督信号扩展到解码器端（如解码器查询的一致性约束）可能进一步提升
未与其他半监督方法对比：缺少与 PseudoMapTrainer 和 Lilja et al. 的直接实验对比，无法判断地理空间对比学习是否真的优于伪标签方法
规模受限于 Argoverse 2：更大规模数据集（如 nuPlan、Waymo Open）的多次经过特性未被分析，可扩展性有待验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次将地理空间对比学习引入在线矢量化地图构建，思路新颖且直觉清晰
实验充分度: ⭐⭐⭐ 消融清晰但仅在 MapTRv2 一个模型上验证，缺少与其他半监督方法的直接对比
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述规范，图表直观
价值: ⭐⭐⭐⭐ 解决标注瓶颈的实用方案，思路可推广到更多空间感知任务