跳转至

GT-Space: Enhancing Heterogeneous Collaborative Perception with Ground Truth Feature Space

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fwTRpXMsxB
代码: https://github.com/KingScar/GT-Space (有)
领域: 自动驾驶 / V2X 协同感知
关键词: 协同感知, 异构特征对齐, 公共特征空间, 对比学习, BEV 检测

一句话总结

GT-Space 用真值标注(物体框)构造一个统一的 BEV「公共特征空间」作为对齐锚点,让每个异构智能体只需训练一个轻量 projector 就能把自己的特征投到这个空间里融合,配合跨模态组合对比损失,在 OPV2V / V2XSet / RCooper 上的异构协同 3D 检测精度全面超过需要重训编码器或两两适配的现有方法。

研究背景与动机

领域现状:多智能体协同感知(如车车 V2V、车路 V2X)通过共享感知信息扩大单车视野。出于通信效率,主流做法是中间融合——智能体之间交换压缩后的 BEV 特征,而不是原始点云/图像。当各智能体用同一套编码器、特征语义和粒度都对齐时,叫同构协同;但现实中不同车辆/路侧单元的传感器模态(LiDAR vs 相机)和模型结构往往不同,这就是异构协同,特征无法直接拼到一起融合。

现有痛点:现有异构融合方案在融合前都要做一步特征适配,主要两条路都不可扩展:(1)重训编码器(如 HEAL)——协作方为了对齐 ego 的特征空间,需要重训自己的 encoder,开放环境里要为每个潜在伙伴维护多套编码器,代价极高,而且重训还可能损害原编码器本身的感知能力;(2)特征解释器(如 PnPDA)——ego 端要为每个异构伙伴配一个专属 interpreter 做两两投影,伙伴数一多就爆炸,且 PnPDA 只能处理点云、忽略了传感器模态异构。

核心矛盾:这两类方法的对齐都是以 ego 为锚、两两配对的,导致两个问题——一是部署成本随智能体种类组合爆炸(O(N²) 量级的适配模块);二是协同上限被 ego 模型能力卡住,如果 ego 模型弱,伙伴再好的特征也只能带来有限收益。

本文目标:找一个与具体 agent 无关、可一次对齐多方的参照系,让 (a) 新 agent 加入只需训练一个自己的适配器、(b) 融合质量不再被某个弱 agent 拖累。

切入角度:作者注意到——既然检测任务的「标准答案」(物体的位置、尺寸、朝向、类别)对所有 agent 都是同一份真值,那为什么不直接把真值标注本身编码成一个 BEV 特征空间,让所有异构特征都向这份「上帝视角」的特征对齐?真值提供的是精确的物体级空间+语义信息,天然是一个干净、共享、准确的锚点。

核心 idea:用真值标签构造的公共特征空间取代「以 ego 为锚的两两对齐」——每个 agent 只学一个 projector 把自身特征投到这个公共空间,再用跨模态组合对比损失训练一个模态无关的融合网络。

方法详解

整体框架

GT-Space 的输入是多个异构 agent 各自编码出的 BEV 特征图(来自不同传感器/模型),输出是融合后送入协同检测头得到的 3D 检测框。关键在于中间插入了一个由真值标签生成的公共特征空间(GT Space)作为所有特征的统一坐标系:训练分三步走——先把单 agent 的感知网络(编码器+检测头)预训练好并冻结;再单独训练一个「真值编码器」把物体框标签映射成 GT BEV 特征,定义出公共空间;最后训练融合网络时,各 agent 的特征经各自的 projector 投到公共空间,用对比损失和相似度损失对齐,并在多种模态组合上联合优化。推理时每个异构 agent 用自己的 projector 把特征对齐到公共空间,再过融合 transformer 和协同检测头出结果。当一个全新模态的 agent 加入时,冻结所有已有参数、只训练它专属的 projector 即可接入。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["异构 agent 原始数据<br/>LiDAR / 相机"] --> B["冻结的本地编码器<br/>各自的 BEV 特征"]
    L["物体框真值标签"] --> G["真值公共特征空间<br/>GT 标签→BEV 锚点"]
    B --> P["单 projector 对齐<br/>每 agent 一个适配器投到公共空间"]
    G -->|相似度损失监督对齐| P
    P --> F["组合对比融合网络<br/>跨模态对全配对训练"]
    G -->|对比损失提供物体级监督| F
    F --> D["协同检测头<br/>输出 3D 框"]

关键设计

1. 真值公共特征空间:把标准答案编码成统一对齐锚点

针对「两两对齐不可扩展 + 协同上限被 ego 卡住」的痛点,GT-Space 不再让异构特征互相对齐,而是构造一个所有 agent 共享的参照系。具体做法:每个 3D 框写成向量 \(B_i=(x,y,z,l,w,h,r,c)\)(中心、尺寸、朝向角、类别),先用两层带 LayerNorm 的全连接编码成物体表示 \(\beta_i=\mathrm{LayerNorm}(\mathrm{FC}(B_i))\);再把物体铺到 BEV 网格上,每个格子 \(c\) 的特征为 \(U_c=\mathrm{MLP}(\beta_i,\mathrm{PE}(x_c,y_c))\),其中 PE 是正弦位置编码。一个物体会覆盖多个格子,若多个物体覆盖同一格子则把它们的特征求和叠加,从而保留重叠物体信息,最终拼成整张真值 BEV 图 \(F_{GT}\)。为保证这张图确实承载了可解码的物体信息,作者把它送进检测头解码出框,并用 IoU 损失监督:

\[L_{GT}=\frac{1}{K}\sum_{k=1}^{K}\big(1-\mathrm{IoU}_k\big),\quad \mathrm{IoU}_k=|P_k\cap G_k|/|P_k\cup G_k|.\]

这样得到的 \(F_{GT}\) 只含与物体相关的干净特征,比起「只靠最终检测输出反传的监督」,它提供了特征级的中间监督,能更直接地弥合异构 agent 之间的域差。区别于把特征投进一个纯学出来的隐空间,这个空间是有明确物理含义、对所有 agent 都一致的。

2. 单 projector 异构特征对齐:每个 agent 只学一个适配器

针对「为每对 agent 维护专属 interpreter / 重训编码器」的不可扩展性,GT-Space 让每个 agent 只配一个 projector \(\Phi_a\),把本地 BEV 特征 \(F_a\) 投到公共空间,用特征相似度损失对齐到 \(F_{GT}\)

\[\Phi_a=\arg\min_\eta L_\eta(F_{GT},F_a),\quad L_\eta=\|F_{GT}-\eta(F_a)\|^2.\]

因为对齐目标是固定的公共空间而不是某个具体伙伴,适配器数量从「两两组合」降到「每 agent 一个」(O(N) 而非 O(N²)),开放环境里新 agent 接入的部署成本被压到最低。消融显示去掉 projector 掉点最严重(OPV2V mAP@70 从 0.814 跌到 0.683),印证了异构特征不先对齐到统一语义、直接喂给融合网络根本融不动。

3. 组合对比融合:在所有模态对上训练一个模态无关的融合网络

为了让一个融合网络能吃任意模态组合、并真正聚焦于物体相关特征,作者用 transformer(多头自注意力 + FC + LN)做融合,并用对比学习监督。对融合后的特征 \(F_{m,m'}\),按物体框内的格子做池化得到物体级表示,计算它与真值特征的温度控制余弦相似度 \(s_{B,c,P}=(F^{B,c}_{m,m'})^\top \bar U_P/\tau\),再用交叉熵把同一物体的融合特征与真值特征拉近、不同物体推远:

\[L_{m,m'}=-\sum_{B\in\mathcal{B}}\sum_{c\in \mathrm{cells}(B)}\log\frac{\exp(s_{B,c,B})}{\sum_{l\in\mathcal{B}}\exp(s_{B,c,l})}.\]

关键的「组合」在于:不是只在一对模态上算,而是对所有可能的模态对求和 \(L_E=\sum_{m,m'}L_{m,m'}\)(如 LiDAR-PointPillar / LiDAR-SECOND / 相机-EfficientNet 三者两两配对全算一遍)。这种组合式联合优化让融合网络在推理时能处理任意模态组合,而不是只会融训练时见过的那一对。这是 GT-Space 实现「即插即用、模态无关」的训练侧核心。

损失函数 / 训练策略

训练时各 agent 的本地编码器与检测头预训练后全程冻结(保证不影响单车原有感知能力,实现即插即用)。为避免空间错位带来的噪声,融合训练用的是单个 agent 的同源观测数据(天然空间对齐)。总损失由三项组成:特征对齐损失 \(L_{\Phi_a}\)(式 6)、异构组合对比损失 \(L_E\)(式 9)、基础 BEV 检测损失 \(L_B\)

\[L=\sum_a L_{\Phi_a}+L_E+L_B.\]

真值 BEV 特征只在训练时通过 \(L_\Phi\)\(L_E\) 参与,推理时不引入任何额外网络或参数——这是它「零额外部署成本、可扩展」的关键。

实验关键数据

主实验

数据集:OPV2V、V2XSet(仿真)、RCooper(真实路侧)。指标为 [email protected] / [email protected]。设定 4 类 agent:A1=SECOND(LiDAR)、A2=PointPillar(LiDAR,OPV2V 中为车、V2XSet 中为路侧)、A3=EfficientNet(相机)、A4=ResNet50(相机)。

不同异构模态对融合(ego 固定 A1,分别与 A2/A3/A4 协同),OPV2V 上的 AP@70:

ego A1 协同对象 指标 本文 之前最好 提升
A2 (LiDAR-LiDAR) AP@70 0.810 0.806 (STAMP) +0.004
A3 (LiDAR-相机) AP@70 0.766 0.734 (STAMP) +0.032
A4 (LiDAR-相机) AP@70 0.762 0.738 (STAMP) +0.024

可见模态异构度越高(LiDAR×相机)增益越大,说明 GT-Space 在弥合跨域表示差距上更有优势。

四 agent 同时协同(OPV2V,AP@70,看每个 agent 视角):

方法 A1 A2 A3 A4
无协同 0.614 0.620 0.354 0.337
HEAL 0.806 0.801 0.726 0.733
STAMP 0.815 0.801 0.718 0.716
GT-Space 0.814 0.803 0.758 0.750

提升主要体现在弱的相机 agent(A3/A4)上——PnPDA/STAMP 这类 interpreter 方法对相机增强有限(点云空间信息在解释过程中丢失、冻结的相机检测头难以恢复),而 GT-Space 靠公共空间这一可靠参照把弱 agent 显著抬高。

消融实验

Agent 1 视角下各组件的影响:

配置 OPV2V mAP@50 OPV2V mAP@70 说明
Full version 0.892 0.814 完整模型
w/o-GT feature 0.868 0.795 用 PointPillar 特征空间替代真值空间
w/o-projector 0.791 0.683 不对齐直接喂融合网络,掉点最严重
w/o-contrastive loss 0.845 0.721 只用检测损失,去掉组合对比损失

关键发现

  • projector 贡献最大:去掉后 mAP@70 从 0.814 暴跌到 0.683,证明异构特征不先对齐到统一语义就无法有效融合。
  • GT 特征空间对 LiDAR ego 影响相对小(mAP@70 仅从 0.814 降到 0.795):因为 A1 本身是 LiDAR,点云特征空间已保留丰富几何线索;但对相机这类弱 agent,真值空间的作用会明显得多。
  • 组合对比损失同时管两件事:既做跨模态对齐,又强化物体相关特征表示,去掉后 mAP@70 掉到 0.721。
  • 鲁棒性好:对位姿误差(高斯噪声)和通信时延(最高 500ms)都保持领先;可视化显示融合后物体特征激活显著增强、噪声被抑制。

亮点与洞察

  • 「用标准答案当锚点」的视角很巧:检测任务的真值对所有 agent 是同一份,把它编码成 BEV 特征空间,天然解决了「以谁为锚」的争议,还把对齐复杂度从 O(N²) 降到 O(N)。这个思路可迁移到任何「多源异构特征需要对齐、且存在共享 ground truth」的场景(如多传感器融合、多视角重建)。
  • 真值特征只在训练时用、推理零额外参数:相当于把「上帝视角监督」蒸馏进 projector 和融合网络,部署时完全不需要真值,既轻量又实用。
  • 组合对比损失实现模态无关融合:在所有模态对上联合训练,让一个融合网络泛化到任意模态组合,避免了端到端方法「只会融训练见过的组合」的死板。

局限与展望

  • 强依赖真值标注:公共特征空间的构造完全建立在精确的物体框标签上,作者也承认未来要转向弱监督学习以提升真实世界适用性。
  • 理想通信/位姿假设:虽然做了位姿噪声和时延的鲁棒性实验,但训练融合网络时刻意用单 agent 同源数据来规避空间错位,真实多 agent 的空间错位影响讨论得不够深。
  • 相机 projector 不增强特征:可视化中作者指出 projector 对相机特征没有增强能力,投影后的相机特征物体信息仍不如 LiDAR 丰富,跨大模态差距的对齐质量仍有天花板。
  • 自己观察:实验主要在仿真(OPV2V/V2XSet)+ 单个真实数据集上,RCooper 结果还放在附录,真实路侧大规模异构场景的验证可以更充分。

相关工作与启发

  • vs HEAL(重训编码器): HEAL 固定金字塔融合模块、只重训编码器来造异构模型,本文不动任何编码器/检测头、只训一个 projector,避免了重训损害原编码器感知能力且需维护多套编码器的问题。
  • vs PnPDA(特征解释器): PnPDA 用即插即用域适配器做两两对齐,但只能处理点云、忽略传感器模态异构;本文用真值公共空间一次对齐多模态,且天然支持相机。
  • vs HM-ViT / 端到端方法: 端到端方法要为特定模态组合训练整个模型,新模态加入就得重训;本文靠公共空间 + 组合对比损失实现模态无关、即插即用。
  • vs STAMP: 同为 interpreter 思路对 LiDAR 提升明显但对相机有限,本文在弱相机 agent 上的增益是核心差异点。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 「用真值标签构造公共特征空间当对齐锚点」是个干净且少见的切入点,把 O(N²) 适配降到 O(N)。
  • 实验充分度: ⭐⭐⭐⭐ 三数据集 + 模态对/多 agent/鲁棒性/消融齐全,但真实数据集验证(RCooper)偏弱、放附录。
  • 写作质量: ⭐⭐⭐⭐ 框架清晰、图示到位,公式表述完整。
  • 价值: ⭐⭐⭐⭐ 即插即用、推理零额外成本,对开放环境异构 V2X 协同有实际部署价值,主要受限于对真值标注的依赖。