跳转至

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud Processing

会议: CVPR 2025
arXiv: 2411.16773
代码: 无
领域: 3D视觉 / 点云处理
关键词: 点云处理, 上下文学习, 自适应采样, Gumbel-softmax, 多任务

一句话总结

MICAS 针对 3D 点云 in-context learning 中的任务间(inter-task)和任务内(intra-task)采样敏感性问题,提出了多粒度自适应采样机制——包含任务自适应点采样(Gumbel-softmax 可微采样)和查询特定 prompt 采样(基于概率排序选择最优 prompt),在 ShapeNet 基准上将 part segmentation 提升了 4.1%。

研究背景与动机

  1. 领域现状:深度学习推动了 3D 点云处理的多个任务(分割、配准、重建、去噪),但通常每个任务需要单独的模型。In-context learning(ICL)允许用单一模型通过 prompt 示例处理多种任务,PIC 等方法已将 ICL 引入点云处理。

  2. 现有痛点:现有点云 ICL 方法在采样策略上存在两个关键问题。(a) 任务间敏感性:FPS(最远点采样)等任务无关采样在不同任务上表现差异大——例如在去噪任务中 FPS 倾向于选择噪声点作为中心点。(b) 任务内敏感性:对于同一任务,不同 prompt 的选择可能导致差异巨大的采样结果和不稳定的实验结果。

  3. 核心矛盾:统计学方法(FPS、随机采样)忽略了点云和任务的信息;现有可学习采样方法关注的是同一任务中不同点云之间的适应,而非同一点云在不同任务之间的适应。

  4. 本文目标 如何在 ICL 框架中实现自适应采样,使其能 (1) 根据任务特性在点级别调整采样策略,(2) 根据查询选择最有效的 prompt。

  5. 切入角度:从 prompt 中提取任务信息指导采样(点级别),从 ICL 模型的反馈信号训练 prompt 选择器(prompt 级别)。

  6. 核心 idea:在 ICL 框架中引入多粒度自适应采样——任务信息指导点采样,性能反馈指导 prompt 选择——解决点云 ICL 的采样敏感性问题。

方法详解

整体框架

MICAS 建立在 PIC 框架之上,输入是一对 prompt(input-target 点云对)和一个 query(input-target 点云对)。在 PIC 的基础上替换了两个关键环节:(1) 用任务自适应点采样替代 FPS 选择中心点;(2) 用查询特定 prompt 采样替代随机 prompt 选择。两个模块分步训练,先训练点采样模块,固定后再训练 prompt 采样模块。

关键设计

  1. 任务自适应点采样(Task-adaptive Point Sampling):

    • 功能:根据任务特性自适应地选择中心点,替代 FPS 的任务无关采样
    • 核心思路:分两步——(a) Prompt Understanding:用 PointNet 分类分支作为 task encoder 从 prompt 对 \((X_p, Y_p)\) 中提取全局任务特征 \(F_{task}\),用 PointNet 分割分支作为 point encoder 提取每个点的特征 \(F_{X_q}\)。(b) Gumbel Sampling:将任务特征和点特征拼接为增强特征 \(\hat{F} = F_{task} \oplus F_{X_q}\),通过全连接层得到采样权重 \(SW\),再用 Gumbel-softmax 转化为可微的软采样权重 \(SW_{gs} = \text{softmax}((\log(SW) + g) / \tau)\),最终中心点 \(C = SW_{gs}^T \times X_q\)
    • 设计动机:FPS 在去噪任务中选择噪声离群点,导致重建质量差。Gumbel-softmax 的关键优势是将离散采样转为可微操作,支持端到端梯度优化。任务特征的融合使得采样能感知不同任务的特定需求。
  2. 查询特定 Prompt 采样(Query-specific Prompt Sampling):

    • 功能:为每个查询点云自动选择最合适的 prompt,减少 prompt 选择导致的性能波动
    • 核心思路:(a) 伪标签生成:用已训练的 ICL 模型 \(\Phi_{ICL}\) 对每个 query-prompt 组合生成预测结果,与 ground truth 比较得到性能分数作为伪标签 \(\tilde{y}\)。(b) 采样概率预测:将 query 点云和每个候选 prompt 拼接送入 PointNet 网络,预测每个 prompt 的采样概率 \(prob_i\)。(c) List-wise Ranking Loss:用排序损失 \(\mathcal{L}_{listwise\_rank}\) 对齐预测概率和实际性能排名,推理时选择概率最高的 prompt。
    • 设计动机:ICL 对 prompt 选择非常敏感(NLP 中已有大量研究),但点云 ICL 中此问题首次被系统解决。基于性能排序的训练方式简单有效。
  3. 分步训练策略:

    • 功能:降低联合训练的复杂度,使两个模块分别稳定收敛
    • 核心思路:先训练任务自适应点采样模块(用采样损失 \(\mathcal{L}_{sampling} = \mathcal{L}_{cd}(R_{pred}, G) + \alpha \cdot \mathcal{L}_{cd}(C, X)\)),固定其参数后再训练 prompt 采样模块(用 list-wise ranking loss)。
    • 设计动机:两个模块的优化目标不同——点采样需要逐 prompt 学习,prompt 采样需要同时评估多个 prompt。联合训练会增加复杂度并导致纠缠。

损失函数 / 训练策略

  • 点采样损失:\(\mathcal{L}_{sampling} = \mathcal{L}_{cd}(R_{pred}, G) + \alpha \cdot \mathcal{L}_{cd}(C, X)\),其中 \(\alpha=0.5\),第二项约束采样点覆盖原始点云
  • Prompt 采样损失:List-wise ranking loss,对齐预测概率排序与实际性能排序
  • 训练参数:点采样 lr=0.0001,60 epochs;prompt 采样 lr=0.00001,30 epochs;batch size 分别为 72 和 9

实验关键数据

主实验

ShapeNet In-Context Dataset

方法 Recon CD↓ Denoise CD↓ Regist CD↓ Part Seg mIOU↑
PIC-Cat 4.3 5.3 14.1 79.0
PIC-Sep 4.7 7.6 10.3 75.0
PIC-S-Cat 6.9 6.5 24.1 83.8
PIC-Cat + MICAS 4.7 4.6 9.8 87.9
PIC-Sep + MICAS 4.3 5.1 3.7 86.8

Part Segmentation mIOU 提升 4.1%(83.8 → 87.9),Registration CD 大幅降低(PIC-Sep: 10.3 → 3.7)。

消融实验

ICL Model FPS Point Prompt Recon Avg Denoise Avg Regist Avg mIOU
PIC-Cat 4.3 5.3 14.1 79.0
PIC-Cat ~4.5 ~4.5 ~11.5 ~85
PIC-Cat 4.7 4.6 9.8 87.9

关键发现

  • 任务自适应点采样对去噪和配准贡献巨大:去噪任务的 CD 从 5.3 降到 4.6(因为不再选噪声点作中心),配准任务提升更显著
  • Prompt 采样进一步带来一致提升:在点采样基础上加入 prompt 采样,分割 mIOU 再提升约 2-3 个点
  • MICAS 是模型无关的:在 PIC-Cat 和 PIC-Sep 两个变体上都能获得显著提升,显示了方法的通用性
  • FPS 对去噪任务特别不友好:FPS 倾向于选择距离最远的点,在去噪中这些通常是噪声点
  • 推理开销可接受:MICAS 的额外推理时间在 ms 级别

亮点与洞察

  • 问题定义精准:首次系统地识别和分析了点云 ICL 中的 inter-task 和 intra-task 采样敏感性问题,问题定义本身是一个重要贡献。
  • Gumbel-softmax 实现可微采样:将离散的点选择问题转化为连续可微的操作,是解决"采样不可导"的优雅方案。这个 trick 可以迁移到任何需要可微离散选择的场景。
  • 用 ICL 模型自身的反馈训练 prompt 选择器:类似于 self-play 的思路——模型预测结果的好坏反过来指导 prompt 选择,形成闭环。这个范式可以推广到其他 ICL 场景的 prompt selection。

局限与展望

  • 依赖 PointNet 作为编码器:PointNet 的表达能力有限,更强的 backbone(如 Point Transformer)可能进一步提升效果
  • 候选 prompt 数量固定(K=8):没有探索自适应的候选数量或多样性控制策略
  • 分步训练而非端到端:分步训练虽然简化了优化,但可能错失两个模块的协同优化机会
  • 仅在 ShapeNet 上验证:缺少在真实场景点云数据集上的实验
  • Gumbel-softmax 的温度退火策略需要仔细调节,对训练稳定性有影响
  • 改进思路:引入 Transformer-based 采样网络;探索端到端联合训练的稳定方法;将方法扩展到更多点云任务(如场景级分割)

相关工作与启发

  • vs PIC [Fang et al., NeurIPS'23]: PIC 是点云 ICL 的开创性工作,但使用固定的 FPS 采样和随机 prompt 选择。MICAS 在 PIC 框架上增加自适应采样,带来了全面的性能提升,同时保持了 PIC 的统一多任务能力。
  • vs SampleNet / S-Net: 这些方法是可学习采样的先驱,但专注于单一任务内的采样优化,不考虑跨任务适应。MICAS 首次将任务感知引入采样。
  • vs UDR [Li et al., NeurIPS]: UDR 在 NLP ICL 中提出了 multi-task list-wise ranking 来选择 demonstration。MICAS 的 prompt 采样模块受其启发,成功迁移到 3D 点云领域。

评分

  • 新颖性: ⭐⭐⭐⭐ 问题定义新颖且重要,任务自适应采样是点云 ICL 的有意义贡献
  • 实验充分度: ⭐⭐⭐⭐ 消融全面,模型无关性验证充分,但仅在一个数据集上实验
  • 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,图示直观易懂
  • 价值: ⭐⭐⭐⭐ 为点云 ICL 提供了即插即用的改进方案,Gumbel-softmax 采样 trick 有广泛迁移价值