CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception¶
会议: ICCV 2025
arXiv: 2507.19239
代码: GitHub
领域: 自动驾驶
关键词: 协同感知, 3D多目标跟踪, 端到端学习, 车路协同, 实例级融合
一句话总结¶
提出 CoopTrack,首个完全实例级端到端协同 3D 多目标跟踪框架,通过可学习的图注意力关联模块和多维特征提取实现跨Agent实例匹配与融合,在 V2X-Seq 上达到 SOTA。
研究背景与动机¶
单车感知受限于单一视角的局限性——遮挡、感知范围有限等。V2X(车联万物)通信使得多Agent协同感知成为可能。然而,目前协同感知研究主要集中在单帧任务(3D 检测),更具挑战性的协同序列感知任务(如协同 3D 多目标跟踪 MOT)仍然探索不足。
现有方案的问题:
Tracking-by-Cooperative-Detection (TBCD):先协同检测,再用传统跟踪器(如 AB3DMOT)做后处理。问题是跟踪无法利用融合信息,检测和跟踪解耦优化导致次优。
已有端到端方案 (UniV2X):虽然开创性地提出了端到端协同跟踪框架,但存在两个设计问题: - 使用基于规则的关联(如欧氏距离匹配),信息不充分且受位姿噪声影响 - 采用 fusion-before-decoding 流程——先融合两个 Agent 的 query,再用 ego 特征解码,导致歧义和冲突
核心 idea:设计 fusion-after-decoding 管线——先各自解码得到实例级特征,再进行跨Agent关联和融合。将关联从规则驱动变为基于图注意力的可学习关联,利用语义+运动的多维特征提供更丰富的匹配信息。
方法详解¶
整体框架¶
CoopTrack 包含车端和路端两个子系统。每个子系统独立完成:图像特征提取 → Transformer 解码 → 多维特征提取(MDFE)。路端的实例级特征通过 V2X 通信传输到车端(传输量极低)。车端接收后依次经过:跨Agent对齐(CAA)→ 基于图的关联(GBA)→ 特征聚合 → FFN 解码最终输出。
关键设计¶
-
多维特征提取 (MDFE):
- 解耦语义与运动特征:现有 query-based 方法将两者隐式耦合,导致解码歧义
- 语义特征:通过 MLP 从 query 特征中提取
- 运动特征:从粗糙 3D 检测框中提取 8 个角点的相对坐标,通过 PointNet(4 层 MLP + max pooling)编码为运动特征
- 时序增强:引入专用 temporal transformer block(2 层 decoder),使用正弦位置编码捕获时间依赖关系,短序列用零填充+二进制掩码处理
- 历史特征按 FIFO 方式在滑动窗口中更新
-
跨Agent对齐 (CAA):
- 车端和路端传感器、视角、空间位置的差异导致特征域间隙
- 核心思路:域间隙可以近似为线性变换(类似于空间坐标的刚体变换)
- 显式空间变换:\(\tilde{\mathcal{P}}^I = \mathcal{P}^I \cdot \mathbf{R}^\top + \mathbf{t}\)
- 隐式特征变换:\(\tilde{\mathcal{M}}^I = \mathcal{M}^I \cdot \hat{\mathbf{R}}^\top + \hat{\mathbf{t}}\)
- 潜在旋转矩阵 \(\hat{\mathbf{R}} \in \mathbb{R}^{d \times d}\) 和平移 \(\hat{\mathbf{t}} \in \mathbb{R}^{1 \times d}\) 由两个 MLP 从显式位姿参数预测
- 使用 6D 连续旋转表示和分段映射减少参数量
-
基于图的关联 (GBA):
- 构建车-路实例间的全连接关联图 \(\mathcal{G} = \{\mathcal{N}, \mathcal{E}\}\)
- 节点特征:由运动+语义特征拼接后通过 MLP 提取
- 边特征:由参考点间的欧氏距离差异通过 MLP 编码
- 图注意力计算亲和度矩阵: \(\hat{A} = \frac{(\mathcal{N}^V W^V)(\mathcal{N}^I W^I)^T}{\sqrt{d}} + \mathcal{E} W^E\)
- FNN + sigmoid 生成最终亲和度矩阵 \(A\)
- 使用匈牙利算法从 \(1 - A\) 获得匹配对
-
特征聚合与跟踪传播:
- 匹配的实例对融合多维特征为一组(消除重复检测)
- 未匹配的实例直接保留(扩展观测范围)
- 活跃实例的语义特征作为 query feature 传播到下一帧
- 参考点使用恒速假设预测下一帧位置
损失函数 / 训练策略¶
两阶段训练:
-
Stage 1:分别训练车端/路端端到端跟踪模型
- \(\mathcal{L}_{\text{stage1}} = 0.25 \cdot \mathcal{L}_{\text{bbx}} + 2.0 \cdot \mathcal{L}_{\text{cls}}\)
- 分类用 Focal Loss(\(\alpha=0.25, \gamma=2.0\)),回归用 L1 Loss
-
Stage 2:端到端协同跟踪+关联训练
- \(\mathcal{L}_{\text{stage2}} = 0.25 \cdot \mathcal{L}_{\text{bbx}} + 2.0 \cdot \mathcal{L}_{\text{cls}} + 10.0 \cdot \mathcal{L}_{\text{asso}}\)
- 关联标签通过匈牙利算法匹配预测与 GT 自动生成
- 关联损失为 Focal Loss(\(\alpha=0.5, \gamma=1.0\))
实验关键数据¶
主实验¶
V2X-Seq 数据集上与协同感知 SOTA 对比(ResNet101 backbone):
| 方法 | 范式 | mAP↑ | AMOTA↑ | 传输量↓ |
|---|---|---|---|---|
| V2X-ViT | TBCD | 0.268 | 0.287 | 2.56×10⁶ |
| Where2comm | TBCD | 0.162 | 0.106 | 5.40×10⁵ |
| Late Fusion | TBCD | 0.196 | 0.263 | 6.60×10² |
| UniV2X | E2EC | 0.295 | 0.239 | 6.96×10⁴ |
| CoopTrack | E2EC | 0.390 | 0.328 | 5.64×10⁴ |
比 UniV2X 提升 +9.5% mAP 和 +8.9% AMOTA,传输量更低。
消融实验¶
各模块的增量效果(ResNet50 backbone):
| Pipeline | MDFE | CAA | GBA | mAP↑ | AMOTA↑ |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | ✗ | 0.310 | 0.266 |
| ✓ | ✗ | ✗ | ✗ | 0.337 | 0.277 |
| ✓ | ✓ | ✗ | ✗ | 0.345 | 0.283 |
| ✓ | ✗ | ✓ | ✗ | 0.354 | 0.304 |
| ✓ | ✓ | ✓ | ✗ | 0.355 | 0.332 |
| ✓ | ✓ | ✓ | ✓ | 0.356 | 0.346 |
历史帧数量影响:0帧→4帧,AMOTA 从 0.100 提升至 0.346,验证了时序建模的价值。
关键发现¶
- fusion-after-decoding 管线比 fusion-before-decoding 本身带来 2.7% mAP 和 1.1% AMOTA 提升
- 跨Agent对齐模块学到了隐式信息:仅对对齐模块加旋转噪声时性能下降轻微,但全局加噪声时下降显著
- 更高帧率有利于跟踪:10Hz 下 CoopTrack AMOTA 比 2Hz 高 10.7%
- Griffin 数据集(空地协同)上同样有效,验证了方法的通用性
亮点与洞察¶
- 实例级特征传输极低带宽开销(5.64×10⁴ bytes/s),仅为 BEV 特征融合的千分之一
- 可学习关联比规则匹配更鲁棒:即使参考点位置不准确,利用语义+运动特征仍能正确关联
- 多维特征解耦(语义 vs 运动)解决了 query-based 方法中隐式耦合导致的解码歧义
- 关联标签的自动生成方案巧妙利用了第一阶段模型的预测能力
局限与展望¶
- 两阶段训练流程较复杂,未来可探索端到端一阶段训练
- 仅在车-路(V2I)场景验证,V2V 多车场景待探索
- 通信延迟补偿模块虽然有效但不够精细,长延迟下性能仍有下降
- 位姿噪声对系统影响较大(全局噪声),鲁棒位姿估计很重要
- 未探索 LiDAR 输入,仅使用相机图像
相关工作与启发¶
- PF-Track 的时序 query 传播和预测思路在本文得到扩展
- ADA-Track 的可微分关联模块与本文的 GBA 思路类似但应用在不同层面
- QUEST 的实例级特征融合思路与本文的实例级传输一脉相承
- UniV2X 的开创性工作为本文提供了基准和改进方向
评分¶
- 新颖性:⭐⭐⭐⭐ 首个完全端到端可学习关联的协同跟踪框架
- 技术深度:⭐⭐⭐⭐ 多模块设计合理,理论基础扎实
- 实验充分度:⭐⭐⭐⭐⭐ 两个数据集+全面消融+定性分析
- 实用价值:⭐⭐⭐⭐ 低带宽+高性能,实用前景好
- 总体推荐:⭐⭐⭐⭐