Unsupervised Multi-agent and Single-agent Perception from Cooperative Views¶

会议: CVPR 2026
论文: CVF Open Access
领域: 自动驾驶 / 车路协同感知 / 无监督 3D 检测
关键词: V2V 协同感知、无监督 3D 目标检测、伪标签、点云密度、跨视角一致性

一句话总结¶

UMS 利用车车（V2V）通信带来的协同视角，不用任何人工标注，把"多车密集点云能让分类更易"和"协同视角能监督单车检测"两个观察做成一套伪标签精炼框架（PPF 过滤 + PPS 稳定 + CCL 跨视一致），首次同时把多车和单车两种 3D 检测都训到显著超越现有无监督方法。

研究背景与动机¶

领域现状：自动驾驶里的 LiDAR 3D 目标检测，无论是单车（ego 自己）还是多车协同（V2V 互相共享点云扩大感知范围），主流都依赖大规模人工标注的 3D 包围框做强监督训练。

现有痛点：人工标注 3D 框又贵又难规模化，很多真实场景根本拿不到标注。已有的无监督 3D 检测（OYSTER 靠聚类、CPD 靠原型模板和常识过滤、DOtA 把规则过滤扩到多车）几乎都只针对单车设定，且都基于手工启发式规则——在稀疏点云、遮挡场景下会产生大量假阳/假阴，DOtA 的规则过滤在遮挡下退化明显。至今没有任何方法能用纯通信、无标注的方式同时解决多车和单车两种感知。

核心矛盾：稀疏单视角 LiDAR 缺几何信息，导致弱检测器产出的候选框噪声大、不完整；而手工规则无法在实例级别学习特征去区分真车和背景杂波。无监督场景下又缺乏可信的监督信号来训练一个可学习的过滤器。

本文目标：只靠车间通信、零人工标注，同时把多车协同检测和单车检测都训好——而且要让 ego 车在"有/无与他车共享数据"两种部署条件下都能工作（现实里 V2V 车辆渗透率低，大量车仍要靠单车感知）。

切入角度：作者从协同视角的两个具体物理事实出发。其一是点云密度收益：多车共享后点云变密，真车（True Positive）和假阳（False Positive）在置信度分布上拉开差距（论文 Fig.4），使自监督的"车 / 非车"二分类成为可能；其二是跨视角一致性收益：多车协同视角对单车视角里漏掉的远处/遮挡目标提供互补几何与上下文线索，可当作单车检测的免标注监督。

核心 idea：用"通信带来的密集协同点云"代替人工标注，把它转化成两路监督信号——密集点云上学一个实例级可学习过滤器净化伪标签、再用协同视角与单车视角的几何/语义一致性反过来指导单车检测器，在一个迭代式伪监督闭环里同时提升两种检测器。

方法详解¶

整体框架¶

以 V2V 协同为研究对象：\(V\) 辆联网车提供共享 LiDAR 点云 \(\{X_v\}_{v=1}^{V}\) 及 GPS 位姿，全部用齐次变换矩阵 \(\{T_{v\to e}\}\) 对齐到 ego 车坐标系 \(X_e\)。训练时同时维护两个检测器：单车检测器 \(D_e\)（不共享数据）和多车检测器 \(D_m\)（共享数据），通过迭代伪监督联合优化。

冷启动时没有任何人工标注，只用"已通信车辆的位置先验（位置、姿态）"训出两个弱检测器，给出初始伪标签（即 3D 框，文中也叫 proposal）。\(D_e\) 吃 \(X_e\) 输出候选 \(P_e=\{b_e,c_e\}\)，\(D_m\) 吃 \(\{X_v\}\) 输出候选 \(P_m=\{b_m,c_m\}\)（\(b\) 是框、\(c\) 是置信度），这些初始框天然嘈杂且不完整。UMS 把它们经过三段精炼：PPF 用实例级点云特征过滤掉不可靠框得到 \(\tilde P_e,\tilde P_m\)；PPS 把 \(\tilde P_m\) 与记忆库 \(\mathcal B\) 里的历史框融合得到稳定的 \(\hat P_m\)，提升稳定性和召回；CCL 在两个检测器之间施加几何与 BEV 语义一致性，生成共识伪标签 \(\hat P_e\) 去训 \(D_e\)。如此往复迭代，两个弱检测器被不断增强。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多车共享点云<br/>+ 通信车辆位姿先验"] --> B["弱检测器初始化<br/>Dm 多车 / De 单车"]
    B --> C["候选框<br/>Pm / Pe"]
    C --> D["Proposal Purifying Filter<br/>实例级点云特征净化"]
    D -->|"过滤后 P̃m"| E["Progressive Proposal Stabilizing<br/>课程式动态剪枝+融合"]
    D -->|"过滤后 P̃e/P̃m"| F["Cross-View Consensus Learning<br/>几何共识 + BEV 语义对齐"]
    E -->|"稳定伪标签 P̂m"| G["训练多车 Dm"]
    F -->|"共识伪标签 P̂e"| H["训练单车 De"]
    G -->|"迭代 T 轮"| C
    H -->|"迭代 T 轮"| C

关键设计¶

1. Proposal Purifying Filter（PPF）：把"无标注"难题转成置信度自监督的实例级分类

弱检测器产出的候选框里满是背景杂波，但聚类类方法（DBSCAN/OYSTER/CPD）只会手工启发式分组、做不了实例级特征学习，而无监督场景又没有标签去训一个可学习分类器。PPF 的破局点在于：在多车密集点云下，弱检测器 \(D_m\) 的高置信度框大多是真车、低置信度框大多是假阳（Fig.4 验证了这个分布鸿沟）——于是直接拿置信度当免费标签。具体地，从 \(P_m\) 里选低置信度的负集 \(S^-\) 和高置信度的正集 \(S^+\)，对每个框 \(b_i\) 用 \(\mathrm{crop}(X,b_i)\) 抠出框内点，喂进一个基于 PointNet++ 的层级点云特征分类器 \(C_\phi\) 预测分数 \(q_i = C_\phi(\mathrm{crop}(X,b_i))\)，用二元交叉熵训练：

\[\mathcal{L}_{\mathrm{ppf}} = -\sum_i [y_i\log q_i + (1-y_i)\log(1-q_i)]\]

推理时对 \(P_e,P_m\) 里每个框算 \(q_i\)，只保留 \(q_i\ge 0.5\) 的，得到过滤集 \(\tilde P_e,\tilde P_m\)。关键在于过滤器是在多车密集点云上学到的实例级层级特征，因此能反过来压制单车稀疏点云里的杂波，明显强于手工规则——这是后续两个模块能站稳的基础（消融里 PPF 单独就带来最大涨幅）。

2. Progressive Proposal Stabilizing（PPS）：用易到难课程学习把"忽隐忽现"的框稳定下来

PPF 去掉了不可靠框，但留下的框仍会因间歇可见、视角变化、点稀疏而抖动。PPS 的洞察是：跨迭代持续出现的框更可能是真目标，噪声框则短命。借鉴易到难课程学习，它用两个动态机制。动态剪枝用一个随迭代上升的置信度阈值：

\[\tau_t = \tau_{\min} + (\tau_{\max}-\tau_{\min})\,\sigma\big(k_\tau(t-\beta_\tau)\big)\]

其中 \(\sigma\) 是 sigmoid，\(\tau_{\min}/\tau_{\max}\) 是上下界，\(k_\tau\) 控斜率、\(\beta_\tau\) 定转折中心。早期 \(\tau_t\) 小、放进更多伪标签（易，保召回），后期 \(\tau_t\) 大、只留高置信框（难，保精度）。动态融合则逐步加大记忆库 \(\mathcal B\) 里历史框的权重：历史置信度重加权为 \(\tilde c_j^h = \lambda_t c_j^h\)、当前为 \(\tilde c_i = (1-\lambda_t)c_i\)，其中 \(\lambda_t = \sigma(k_\lambda(t-\beta_\lambda))\)，再用旋转 IoU 的 NMS 融合：

\[\hat{\mathcal{P}}_m = \mathrm{NMS}\big(\{b_j,\tilde c_j^h\}_{\mathcal B}\cup\{b_i,\tilde c_i\}_{\tilde{\mathcal P}_m},\ \eta\big)\]

稳定后的 \(\hat P_m\) 既追加进 \(\mathcal B\) 又监督下一轮的 \(D_m\)。这套机制让伪标签 AP 随迭代平滑上升、波动更小（Fig.6），消融也显示动态 \(\tau\) 比任何固定阈值都更能平衡"保有效框"和"压噪声"。

3. Cross-View Consensus Learning（CCL）：把协同视角的互补线索蒸馏给单车检测器

单车分支常漏掉远处或被遮挡的目标，而过滤后的多车框恰好提供互补的几何与上下文线索。CCL 用两条通路把这些线索灌进 \(D_e\)。多视角几何共识先在两个分支的过滤框间用旋转 IoU 阈值 \(\eta_{ccl}\) 做匹配，再把"单车里没匹配上、但在 ego 点云里有足够点支撑"的多车框补进来——未匹配有效集要求 \(\pi(b_j^m;X^e)\ge\rho\)（\(\pi\) 数框内 ego 点数、\(\rho\) 是最小点支撑阈值，保证几何可信），最终共识伪标签 \(\hat P_e=\mathrm{NMS}(\tilde P_e\cup\mathcal U,\eta_{ccl})\)。BEV 语义对齐补上几何匹配看不到的高层上下文：设单/多车 BEV 特征图 \(F_e,F_m\in\mathbb R^{H\times W\times C}\)（同坐标系），从 \(F_e\) 按通道均值是否超过阈值 \(\gamma\) 构造可见性掩码 \(M\) 排除空区域，再约束两者在有效格点上一致：

\[\mathcal{L}_{\mathrm{bev}} = \frac{1}{Z}\big\|(F_e-F_m)\odot M\big\|_2^2,\quad Z=\sum_{i,j}M(i,j)\]

只在 \(M\) 标记的有效 BEV 格点上算 L2，避免空白区域干扰。这两路一起把"协同才看得见"的目标和语义迁移到单车检测器，是单车性能提升的主要来源。

损失函数 / 训练策略¶

框架迭代 \(T\) 轮、每轮 \(E\) 个 epoch。每轮由 PPS 产出稳定多车标签 \(\hat P_m\)、CCL 产出 ego 共识标签 \(\hat P_e\)，分别监督 \(D_m\) 和 \(D_e\)。分类用 focal loss \(\mathcal L_{cls}\)、回归用 smooth L1 \(\mathcal L_{reg}\)（系数 \(\mu_1=\mu_2=1\)），单车分支额外加 BEV 对齐损失 \(\mathcal L_{bev}\)（权重 \(\mu_3\)）：

\[\mathcal{L}_m = \mu_1\mathcal{L}_{cls}(\hat P_m) + \mu_2\mathcal{L}_{reg}(\hat P_m)\]

\[\mathcal{L}_e = \mu_1\mathcal{L}_{cls}(\hat P_e) + \mu_2\mathcal{L}_{reg}(\hat P_e) + \mu_3\mathcal{L}_{bev}\]

两个检测器在每轮内分开优化。PPF 的 PointNet++ 分类器只在 \(t=1\) 时训一次。实验里 \(T=20\)、\(E=10\)，检测主干用 PointPillars，协同融合用 AttFuse，候选框最小置信度阈值 0.01。

实验关键数据¶

主实验¶

在两个公开协同感知数据集上评估：V2V4Real（真实世界、两车采集，约 2 万帧、24 万 3D 框）和 OPV2V（CARLA 仿真，11,464 帧）。指标为 3D [email protected] / [email protected]，聚焦车辆类。所有无监督方法都用相同的"基于通信车位姿"初始化。

数据集	设定	指标	DOtA（前 SOTA）	UMS	提升
V2V4Real	多车	[email protected]	48.84	52.03	+3.19
V2V4Real	单车	[email protected]	40.41	44.27	+3.86
OPV2V	多车	[email protected]	52.37	83.89	+31.52
OPV2V	单车	[email protected]	46.87	71.30	+24.43

UMS 在两数据集、两设定下都拿到无监督 SOTA。OPV2V 上涨幅巨大，因为仿真数据干净无噪、PPF 学到的层级特征能更可靠地把车和背景分开；V2V4Real 是真实嘈杂稀疏点云，实例级特征学习更难，涨幅因此受限。作为参考，全监督在 V2V4Real 多车 [email protected] 为 64.75、OPV2V 多车为 94.11——UMS 在仿真上已逼近监督上限。

按距离分段看单车（V2V4Real，Table 2）：UMS 的提升主要出现在中远距离，正是单视角 LiDAR 变稀疏的地方——0–30m [email protected] 70.26/65.66、30–50m 36.26/30.05、50–100m 9.03/7.74，全面优于 DOtA（60.73 / 25.00 / 5.23）。

伪标签质量（IoU=0.5，多车设定，Table 3）也大幅领先：UMS 在 V2V4Real 召回/精度 53.71 / 85.98、OPV2V 70.21 / 90.25，而 DOtA 仅 43.91 / 60.42 与 51.87 / 65.74。精度提升尤其明显，主要归功于 PPF 用协同点云密度和点级层级特征剔除了缺乏几何支撑的框。

消融实验¶

逐模块累加（Table 4，从仅位姿先验的弱检测器起步）：

配置	V2V4Real 多车 [email protected]	OPV2V 多车 [email protected]	OPV2V 单车 [email protected]
弱检测器（基线）	16.87	19.33	14.62
+ PPF	46.02	59.55	45.98
+ PPF + PPS	52.03	83.89	66.44
+ PPF + PPS + CCL	—	—	71.30

PPF 带来最大单步涨幅（OPV2V 多车 +40 点、V2V4Real 多车 +29 点），PPS 进一步稳定间歇可见目标（OPV2V 多车再 +24 点），CCL 则专门补单车（OPV2V 单车再 +4.86 点）。其余消融：PPS 的动态 \(\tau\)（sigmoid）在 OPV2V 多车 [email protected] 达 83.89，优于固定低阈 0.01（71.98）和固定高阈 0.20（79.51）；CCL 的 \(\mu_3\) 在 1.5 时最优（单车 [email protected] 71.30），太小对齐不足、太大过约束引噪；迭代数在 15–20 轮收敛（\(T=20\) 时 OPV2V 多车 [email protected] 83.89，再加到 25 仅 83.80）。

关键发现¶

PPF 是地基，贡献最大：单加 PPF 就把多车 [email protected] 从十几涨到五六十，说明"用置信度做自监督训实例级过滤器"这一步抓住了无监督检测的主要矛盾。
三模块分工清晰：PPF+PPS 主导多车性能，CCL 专攻单车——这正对应论文开篇的两个 insight（密度收益 → 分类，一致性收益 → 单车监督）。
仿真 vs 真实差距大：所有增益在干净的 OPV2V 上都被放大，在嘈杂稀疏的 V2V4Real 上被实打实压缩，揭示实例级特征学习对点云质量很敏感。
鲁棒性：在 GPS 位姿加高斯噪声（std 0.2m）和 100ms 通信延迟下，UMS 仍是各场景最佳（Table 9）；扩展到 V2X-Real 的 Car/Pedestrian 多类（PPF 用 Waymo 预训、CPD 生成候选）也一致领先（Car [email protected] 40.10 vs DOtA 34.27）。

亮点与洞察¶

把"通信"本身当监督信号：不引入额外传感器或标注，仅靠多车共享点云带来的密度提升与视角互补，就拼出两路免标注监督——这是该工作最核心的"啊哈"点，思路可迁移到任何多智能体协同感知（无人机群、多机器人）。
置信度分布鸿沟做自监督：Fig.4 揭示密集点云下 TP/FP 在置信度上天然分层，于是高/低置信度直接当正/负样本训分类器，省掉了无监督场景最缺的标签——这个"用密度换可分性"的观察很巧。
课程式阈值调度：PPS 用 sigmoid 让置信度阈值从松到紧、历史权重从轻到重，把"先保召回后保精度"做成连续过程，比任何固定阈值都稳，是可直接复用的伪标签精炼 trick。
几何 + 语义双通路蒸馏：CCL 既补几何匹配漏掉的有效框、又用带可见性掩码的 BEV L2 对齐高层语义，把"协同才看得见"的知识系统地灌给单车检测器。

局限与展望¶

强依赖点云质量：真实数据 V2V4Real 上提升远小于仿真 OPV2V，实例级特征学习在稀疏、遮挡、传感器噪声下吃力，离监督上限仍有差距（单车 [email protected] 44.27 vs 监督 50.17）。
依赖位姿先验初始化：整个闭环靠"已通信车辆的位置先验"冷启动，若通信车极少或位姿先验本身不可靠，弱检测器初始化会更差，闭环增益可能受限。
类别覆盖窄：主实验只评车辆类；多类扩展还需借 Waymo 预训 PPF + CPD 生成候选，没有做到端到端纯无监督的多类。
超参较多：PPS 的 \(\tau_{\min},\tau_{\max},k_\tau,\beta_\tau,k_\lambda,\beta_\lambda\) 和 CCL 的 \(\eta_{ccl},\rho,\gamma,\mu_3\) 都需调，跨数据集迁移时的稳健性未充分讨论。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个同时解决多车+单车的无监督协同感知框架，"把通信当监督"的两个 insight 立得住且方法自洽。
实验充分度: ⭐⭐⭐⭐ 两数据集 × 两设定 + 距离分段 + 伪标签质量 + 鲁棒性 + 多类扩展，消融完整；略欠真实数据上的进一步分析与跨数据集超参稳健性。
写作质量: ⭐⭐⭐⭐ 动机—insight—模块对应关系清晰，公式与算法流程完整；部分符号（\(\tilde P\)、记忆库更新）需对照算法才看清。
价值: ⭐⭐⭐⭐ 无标注协同感知对真实部署很有意义，PPF 的置信度自监督和 PPS 的课程式阈值都可复用；真实数据增益有限是落地前要解决的点。