MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction¶
会议: CVPR 2026
arXiv: 2603.10688
代码: 无
领域: 自动驾驶
关键词: 在线高精地图构建, 半监督学习, 对比学习, BEV特征, 多次经过
一句话总结¶
MapGCLR 提出基于地理空间对比学习的半监督训练方案:利用同一地点多次驾驶经过产生的 BEV 特征网格的地理空间重叠关系,构建 InfoNCE 对比损失强制 BEV 特征空间的地理一致性,在 Argoverse 2 上仅用 5% 标注数据即达到 18.9 mAP(纯监督基线 13.3),相对提升 42%,效果几乎等于将标注数据量翻倍。
研究背景与动机¶
领域现状:在线高精地图构建是自动驾驶的重要任务,以 MapTR/MapTRv2/MapTracker 为代表的方法从环视相机输入预测矢量化地图元素(车道线、道路边界、人行横道等),已取得不错进展。但所有方法都严重依赖大量标注训练数据——精确的高精地图标注成本极高,是可扩展性的主要瓶颈。
现有半监督方法局限: - PseudoMapTrainer:用传感器数据生成 Gaussian surfel 网格渲染伪 BEV 分割标签,但依赖语义分割范式而非矢量化预测 - Lilja et al.:师生架构 + 时序伪标签融合,同样基于分割范式 - 两者都通过伪标签做半监督,未直接利用地理空间一致性这一自然先验
核心洞察:自动驾驶数据集中,同一地点往往被多次驾驶经过(multi-traversal)。同一地理位置在不同时间、不同天气、不同光照条件下的 BEV 特征应该相似——这构成了天然的自监督信号,无需任何标注即可利用。
关键区别:不同于 HRMapNet/RTMap 等方法在推理时存储和融合历史 BEV 特征(增加内存和模型复杂度),MapGCLR 仅在训练阶段利用多次经过的地理一致性来改善编码器的特征表示,推理时仍是单帧单次前向传播。
方法详解¶
整体框架¶
MapGCLR 构建在 MapTRv2 之上,采用双分支半监督训练管线:
- 监督分支(粉色):少量标注数据 → ResNet-50 提取图像特征 → BEV lifting → MapTRv2 Transformer 解码器 → 预测矢量化地图元素 → 监督损失 \(\mathcal{L}_{\text{sup}}\)
- 自监督分支(蓝色+橙色):大量无标注的多次经过数据对(reference + adjacent)→ 共享编码器提取 BEV 特征网格 → 投影头 \(h\) 映射到嵌入空间 → 地理空间对比损失 \(\mathcal{L}_{\text{GCLR}}\)
每个 batch 包含 \(n\) 个有标注样本 + \(2m\) 个无标注样本(\(m\) 对 reference-adjacent 配对),总计 \(n + 2m\) 个样本。
关键设计¶
-
地理空间多次经过分析(Multi-Traversal Split):
- 功能:分析数据集中不同驾驶日志之间的地理重叠,划分为单次经过和多次经过子集
- 核心思路:将所有车辆姿态转换到全局坐标系,为每个姿态根据车辆朝向计算感知范围包围盒(横向 \(\pm x\) 米、纵向 \(\pm y\) 米),合并同一日志的所有包围盒为一个多边形。若某日志的多边形与至少一个其他日志的多边形相交,则归类为多次经过
- 空间图构建:图 \(G = (V, E)\),节点 \(v \in V\) 为车辆姿态,边 \(e_{ij} \in E\) 连接满足 IoU 在 \([\text{IoU}_{\min}, \text{IoU}_{\max}]\) 范围内的姿态对。约束最小最大 IoU 确保重叠区域既有足够相关性又不完全相同
- 数据集划分策略:多次经过日志全部用于自监督(忽略其标注),单次经过日志再划分为监督子集(2.5%/5%/10%/20%)和验证集
- 设计动机:在 Argoverse 2 中,绝大部分日志都存在多次经过(从直方图看,多数日志与 2-20 个其他日志相交),为对比学习提供了充足的正样本对
-
地理空间对比学习(Geospatial Contrastive Learning):
- 功能:基于 SimCLR 框架,利用地理重叠的 BEV 特征网格单元构建对比对,强制编码器学习地理一致的 BEV 特征
- 正负样本定义:
- 正样本对:reference 姿态的 BEV 网格中某个单元 \(c_a\)(anchor)与 adjacent 姿态的 BEV 网格中对应同一地理位置的单元 \(c_p\)
- 负样本:从两个网格中随机采样不共享空间对应关系的单元 \(c_n\)
- 采样策略:从 reference 网格的重叠区域随机采样 anchor 点,在 adjacent 网格中通过最近邻搜索找到对应正样本,负样本从两个网格中排除 anchor 和正样本后随机采样
- 关键创新:不同于传统对比学习使用图像增强构造正样本对,MapGCLR 将同一地点不同时间的观测视为天然增强,利用真实的视角差异、光照变化、动态物体差异等作为"自然数据增强"
-
投影头与 InfoNCE 损失:
- 功能:将 BEV 单元特征 \(\mathbf{f}\) 通过投影头 \(h\) 映射到嵌入空间 \(\mathbf{z} \in \mathcal{Z}\),在嵌入空间计算对比损失
- 损失函数:
\(\mathcal{L}_{\text{GCLR}} = -\log \frac{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau)}{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau) + \sum_{k=1}^{K} \exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_k^-) / \tau)}\)
其中 \(\text{sim}(\cdot, \cdot)\) 为余弦相似度,\(\tau\) 为温度参数 - 设计动机:投影头将对比学习域与下游任务域解耦(SimCLR 的标准做法),避免对比目标直接干扰特征空间的任务特定结构
损失函数 / 训练策略¶
总损失为监督损失和对比损失的加权组合:
- \(\lambda_{\text{sup}}\) 和 \(\lambda_{\text{GCLR}}\) 控制两个目标的相对权重
- \(\mathcal{L}_{\text{sup}}\) 严格遵循 MapTRv2 原始损失(匈牙利匹配 + 分类/回归损失),仅在有标注样本上计算
- \(\mathcal{L}_{\text{GCLR}}\) 在所有 \(m\) 对无标注多次经过样本上计算求和
实验关键数据¶
主实验¶
在 Argoverse 2 上,与纯监督 MapTRv2 基线对比:
| 标注数据比例 | 方法 | mAP | 绝对提升 | 相对提升 |
|---|---|---|---|---|
| 2.5% | 监督基线 | 6.5 | — | — |
| 2.5% | + SSL (MapGCLR) | 8.5 | +2.0 | +31% |
| 5% | 监督基线 | 13.3 | — | — |
| 5% | + SSL (MapGCLR) | 18.9 | +5.6 | +42% |
| 10% | 监督基线 | 22.0 | — | — |
| 10% | + SSL (MapGCLR) | 27.3 | +5.3 | +24% |
| 20% | 监督基线 | 31.0 | — | — |
| 20% | + SSL (MapGCLR) | 34.9 | +3.9 | +13% |
| 30% | 监督基线 | 36.6 | — | — |
| 40% | 监督基线 | 39.8 | — | — |
消融实验¶
| 配置 | 关键观察 | 说明 |
|---|---|---|
| 标注比例 vs 提升幅度 | 标注越少提升越大 | 5% 时相对提升 42%,20% 时仅 13%,符合半监督学习的预期 |
| 5% + SSL vs 10% 纯监督 | 18.9 vs 22.0 | SSL 效果≈将标注翻倍(5%→接近10%水平) |
| PCA 可视化(定性) | SSL 特征空间更清晰 | 道路边界对比度更强,自车道分离更明显 |
| 基线网格伪影 | 固定位置异常特征簇 | 纯监督训练的 BEV 网格右上角出现固定坐标处的伪影,SSL 消除了此现象 |
关键发现¶
- 标注数据稀缺时收益最大:5% 标注数据时相对提升 42%(从 13.3 到 18.9 mAP),这意味着实际部署中可以大幅节省标注成本
- pedestrian crossing 类别提升相对较小:各类别中 ped 提升最小(如 5% 时从 7.3 到 9.9),可能因为人行横道在不同时间外观变化大、地理一致性信号较弱
- PCA 分析揭示特征空间质量:SSL 训练后 BEV 特征在道路边界处有更清晰的边界分离,且消除了纯监督模型中的固定坐标处伪影——说明对比学习确实强制了特征的地理一致性
亮点与洞察¶
- 问题建模巧妙:将"同一地点多次经过"重新解释为对比学习的"天然数据增强",比人工构造增强更真实——不同时间的光照、天气、动态物体变化构成自然的视角多样性
- 方法简洁且即插即用:核心贡献是训练阶段的附加损失函数和数据组织策略,不改变模型推理时的架构和计算量。可直接应用于任何基于 BEV 特征网格的在线地图构建模型
- 数据集分析本身有价值:提出的多次经过分类方法和地理重叠分析为 Argoverse 2 等数据集提供了新的利用视角,可推广到其他需要空间一致性的任务
局限与展望¶
- 仅在 MapTRv2 单帧模型上验证:未测试在 MapTracker 等带时序记忆的 SOTA 模型上的效果。时序模型本身已利用帧间一致性,与地理空间对比学习可能存在冗余或互补,值得探索
- 依赖高精度定位:对比对构建需要精确的全局姿态来计算 BEV 网格的地理重叠。缺乏高质量定位的数据集(如 nuScenes)难以直接应用
- 仅作用于编码器:对比损失仅反向传播到 BEV 编码器,未涉及 Transformer 解码器。将自监督信号扩展到解码器端(如解码器查询的一致性约束)可能进一步提升
- 未与其他半监督方法对比:缺少与 PseudoMapTrainer 和 Lilja et al. 的直接实验对比,无法判断地理空间对比学习是否真的优于伪标签方法
- 规模受限于 Argoverse 2:更大规模数据集(如 nuPlan、Waymo Open)的多次经过特性未被分析,可扩展性有待验证
相关工作与启发¶
- vs SimCLR:SimCLR 用图像级增强构造正样本,MapGCLR 用地理空间重叠构造 BEV 网格级正样本——将对比学习从图像域迁移到 BEV 空间域
- vs HRMapNet/RTMap:HRMapNet 在推理时维护全局 BEV 特征/栅格地图,增加内存和复杂度;MapGCLR 仅在训练时利用多次经过,推理完全无负担
- vs 自动驾驶自监督学习:与 PointContrast(3D 点云对比学习)、BEVDistill(BEV 特征蒸馏)等工作属于同一思路——利用几何先验构造自监督信号,但 MapGCLR 是首个将地理空间跨轨迹一致性引入在线地图构建的工作
- 启发:这种"利用多次经过的地理一致性做自监督"的思路可迁移到其他空间感知任务(3D 检测、占用预测、语义分割),尤其在标注稀缺但数据采集容易的场景中有实际价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将地理空间对比学习引入在线矢量化地图构建,思路新颖且直觉清晰
- 实验充分度: ⭐⭐⭐ 消融清晰但仅在 MapTRv2 一个模型上验证,缺少与其他半监督方法的直接对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述规范,图表直观
- 价值: ⭐⭐⭐⭐ 解决标注瓶颈的实用方案,思路可推广到更多空间感知任务