COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception¶

会议: ICLR 2026
arXiv: 2602.13287
代码: https://cisl.ucr.edu/CooperTrim
领域: 3D视觉
关键词: 协同感知, 带宽优化, 时序不确定性, 特征选择, 共形预测

一句话总结¶

提出 CooperTrim 自适应特征选择框架，通过共形时序不确定性度量评估特征相关性，并用数据驱动机制动态决定共享数量，在协同语义分割中实现 80.28% 带宽降低且性能可比，首次将选择性共享应用于协同分割任务。

研究背景与动机¶

领域现状：协同感知使自动驾驶车辆共享编码表示以增强态势感知。中间融合方案是主流，但传输的特征量仍然压迫无线带宽（通常 ~40 Mbps）。现有带宽优化方法包括压缩（信息有损）、选择（固定阈值）和混合策略。

现有痛点：(a) Where2Comm 用固定阈值的置信度图选择特征，忽略时序上下文，带宽仍高（39.6 Mbps）；(b) SwissCheese 用固定阈值做通道/空间选择，缺乏环境自适应；(c) 所有方法逐帧独立决策，重复传输静态信息。

核心矛盾：有限带宽与丰富传感器信息的根本矛盾——现有方法只是"每帧少传"，未利用时序连续性来"按需传"。

本文目标 (a) 利用时序上下文识别真正需要更新的动态特征；(b) 根据环境复杂度自适应调整共享量。

切入角度：接收方（ego vehicle）可以用自身的时序记忆判断哪些特征是"新信息"（时序不确定性高），只请求那些有变化的特征。简单场景少传，复杂场景多传。

核心 idea：用时序不确定性而非静态置信度来衡量特征相关性，实现环境自适应的按需共享。

方法详解¶

整体框架¶

CooperTrim 想解决的是协同感知里"每帧都把全部特征传一遍"的浪费：静态场景帧间几乎不变，重复传输纯属冗余。它把决策权交给接收方（ego 车辆）——ego 先对自身传感器输入编码得到当前帧特征 \(F_t\)，与上一帧融合后的特征 \(F_{t-1}^{\text{fused}}\) 比对，算出哪些特征相对时序记忆是"新信息"（共形时序不确定性），再对这些不确定特征用交叉注意力打相关性分、按掩码阈值截断决定共享数量，只把过阈值的特征打包成请求向量广播出去；协作车辆收到请求后做空间变换对齐、只回传被点名的特征子集，ego 融合后送任务头。共享多少不是固定的，而是随场景复杂度自动伸缩；训练侧再用 \(\epsilon\)-greedy 策略让稀疏特征下的优化更稳。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["传感器输入 X_t"] --> B["特征编码<br/>得到当前帧特征 F_t"]
    B --> C["共形时序不确定性<br/>L1 距离比对上一帧融合特征<br/>分位阈值 q 筛出变化特征"]
    C --> D["自适应数量确定<br/>交叉注意力打相关性分 R_t<br/>掩码阈值 τ 截断共享量"]
    D --> E["ego 广播请求向量<br/>只点名高相关特征"]
    E --> F["协作车辆回传<br/>空间变换对齐请求特征"]
    F --> G["特征融合"]
    G --> H["任务头<br/>分割 / 检测输出"]
    G -. 上一帧融合特征 F_{t-1} .-> C

关键设计¶

1. 共形时序不确定性：用"帧间变化"代替静态置信度来判断哪些特征值得传

现有方法（如 Where2Comm）逐帧独立地用置信度图选特征，完全无视上一帧已经传过什么，于是静态背景被一遍遍重复发送。CooperTrim 换了个度量：直接算当前帧与上一融合帧的 L1 距离 \(S_t = |F_t - F_{t-1}^{\text{fused}}|\) 作为时序不确定性，变化大的通道才算"不确定、需要更新"。门控阈值不是手调的固定值，而是受共形预测启发的可学习分位阈值 \(q\)——只保留 \(S_t\) 超过 \(q\) 的特征。这样静态场景里绝大多数帧间不变的特征会被自然滤掉，省下的带宽全留给真正变化的区域。

2. 自适应数量确定：让共享量随环境复杂度伸缩，而不是卡一个固定阈值

固定阈值方法（如 SwissCheese）对简单和复杂场景一视同仁，既可能在路口漏传关键信息，又可能在空旷直道上浪费带宽。CooperTrim 对前一步筛出的不确定特征再施加交叉注意力加权，得到每个特征的相关性分数，然后用可学习掩码阈值 \(\tau\) 截断。机制本身带来了想要的自适应：多交叉路口这类复杂场景会产生更高的相关性分数，于是更多特征越过 \(\tau\)、传得更多；空旷直行场景分数普遍偏低，超阈值的特征寥寥无几、传得极少。"简单少传、复杂多传"由数据驱动地涌现，无需为不同场景预设规则。

3. \(\epsilon\)-Greedy 训练策略：避免只用选中的特征训练导致梯度不稳

如果训练时一直只喂被选中的那部分特征，梯度会因为输入稀疏而噪声偏大、收敛不稳。CooperTrim 借了强化学习里探索-利用的思路：以 \(\epsilon\) 概率用全部特征训练（exploration），以 \(1-\epsilon\) 概率用选择后的特征训练（exploitation）。论文给出了理论分析，证明这种混合采样能同时压低梯度估计器的偏差和方差，让稀疏特征下的训练更稳。

损失函数 / 训练策略¶

整体目标写成带拉格朗日乘子的约束优化：

\[\theta^* = \arg\min_\theta L(C(\theta)) + \lambda \cdot (P(C(\theta)) - C_{1.6})\]

其中 \(L\) 是任务损失、\(P(C(\theta))\) 是当前选择策略产生的带宽开销、\(C_{1.6}\) 是 1.6 Mbps 的带宽预算，\(\lambda\) 在训练中动态调整。直观说就是：在不超过带宽约束的前提下最大化分割/检测性能，乘子 \(\lambda\) 负责在"传得太多"时加大惩罚、把开销压回预算内。

实验关键数据¶

主实验¶

协同语义分割（OPV2V 数据集，应用于 CoBEVT/AttFuse/DiscoNet）：

配置	动态 IoU	带宽使用率	带宽降低
CoBEVT 原版	基线	100% (40Mbps)	—
CooperTrim-CoBEVT	可比	27.9%	72.1%
CooperTrim-AttFuse	可比	21.07%	78.93%
CooperTrim-DiscoNet	可比	10.18%	89.82%

vs 其他选择策略：

方法	动态 IoU	带宽 (Mbps)
Where2Comm	8.62	39.6
SwissCheese	35.71	10.0
CooperTrim	54.03	11.16

消融实验¶

分析	关键发现
+压缩（32x）	带宽降至 1.46% 且 IoU 不降
定位误差鲁棒性	在位置噪声下性能优雅退化
通信延迟鲁棒性	对延迟保持稳定
帧级分析	动态场景自动分配更多带宽，静态场景带宽极低

关键发现¶

平均带宽降低 80.28%（分割）和 72.52%（检测）且性能可比
CooperTrim 比 Where2Comm IoU 高 45.41%，带宽低 72%
与压缩方法正交——叠加后可降至 1.46% 带宽
定性分析证实自适应行为：车辆通过交叉路口时带宽使用增加，直行时降低

亮点与洞察¶

时序信息的巧妙利用：将"帧间变化"直接作为不确定性度量——简单但高效，避免了复杂的不确定性建模
首个协同分割的选择性感知：分割需要像素级精度，比检测更挑战带宽——能实现 80%+ 降低非常impressive
与压缩的正交性：选择+压缩叠加可达 1.46% 带宽，说明两种策略互补
\(\epsilon\)-Greedy 训练的理论保证：对稀疏特征训练的梯度偏差给出了严格的缩放分析

局限与展望¶

假设精确位姿——实际中 GPS/定位误差可能影响空间变换
仅在 2 个数据集（OPV2V + V2V4Real）上验证，场景多样性有限
共形时序不确定性仅用 L1 距离，未考虑语义级别的变化
可学习阈值 \(q\) 和 \(\tau\) 可能在域迁移时需要重新调整
未考虑多跳通信和异构传感器配置

评分¶

新颖性: ⭐⭐⭐⭐ 时序不确定性+自适应量的组合新颖，但各组件不是全新的
实验充分度: ⭐⭐⭐⭐⭐ 多模型/多任务/多策略对比+压缩兼容性+鲁棒性分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，但部分公式可以更简洁
价值: ⭐⭐⭐⭐ 对协同感知实际部署有显著推动