跳转至

InfoCons: Identifying Interpretable Critical Concepts in Point Clouds via Information Theory

会议: ICML 2025
arXiv: 2505.19820
代码: infocons-pc
领域: 自动驾驶 / 3D 可解释性
关键词: 点云解释, 信息瓶颈, 关键概念, 可解释 AI, 自动驾驶

一句话总结

提出 InfoCons 框架,将信息瓶颈(IB)原理应用于点云模型解释——通过学习一个注意力瓶颈网络来分解点云为不同重要性的 3D 概念,引入可学习的无偏先验替代固定先验,在保证对模型预测忠实(faithfulness)的同时生成概念连贯(conceptual cohesion)的解释。

研究背景与动机

领域现状:点云模型在自动驾驶等安全关键场景中广泛部署,可解释性对于故障诊断和可靠性评估至关重要。现有点云解释方法主要基于"关键子集理论",试图从点云中提取对模型决策最关键的子集。

现有痛点:现有方法在忠实性和概念连贯性上无法兼顾——(1) maxpool 基的 Critical Points(CP):依赖编码器输出,忽略了分类器的影响,导致解释对完整模型不忠实;(2) 梯度基的 PCSAM:通过将点向质心微扰来近似移除操作,引入了"质心奇异性"的偏置先验——即使 1024 个点全部重合在原点,PointNet 也会以 99.2% 的置信度将其预测为"吉他",导致关键子集总是聚集在空间角落而非语义有意义的部位。

核心矛盾:忠实性要求关键子集保留因果影响预测的点,概念连贯性要求子集形成人类可理解的语义结构(如物体部件)。PCSAM 的空间聚集是由偏置先验导致的,与模型行为无关;而 CP 虽然模型相关但忽略了分类器。

本文目标 如何提取既忠实于整个模型(编码器+分类器)又符合人类感知先验的可解释关键子集?

切入角度:作者观察到 VIB-for-Attribution 框架原本用于 2D 图像解释,其核心思想——通过信息瓶颈选择信息最丰富的特征——可以迁移到点云,但需要解决两个关键问题:(1) 点云的无序性和信息冗余性要求不同的选择策略;(2) 层次化/注意力模型中点特征高度纠缠,简单的逐点掩码失效。

核心 idea:用可学习的高斯先验替代 VIB 中的固定均匀先验,通过注意力瓶颈网络学习逐点重要性掩码,在特征级别(而非输入级别)做信息选择以解耦邻域信息的纠缠。

方法详解

整体框架

给定一个预训练好的点云分类模型 \(\mathcal{G} \circ \mathcal{F}\)(编码器 \(\mathcal{F}\) + 分类器 \(\mathcal{G}\)),InfoCons 在中间层 \(l\) 提取点特征 \(z = \mathcal{F}^{1:l}(x)\),通过注意力瓶颈网络 \(f(\cdot|\theta)\) 学习一个软掩码 \(\hat{m} \in (0,1)^{D \times N'}\),用 \(\hat{m}\) 对特征做选择性保留或噪声替换:\(\hat{z} = \hat{m} \odot z + \text{sg}(1-\hat{m}) \odot \epsilon\)。最终将 \(\hat{m}\) 沿特征维度取期望得到逐点重要性分数 \(s(x) \in [0,1]^N\),top-k 点构成关键子集。

关键设计

  1. IB 目标的点云特化(Selective Critical Points → Deep InfoCons):

    • 功能:将信息瓶颈目标适配到点云的逐点重要性打分
    • 核心思路:基本 IB 目标为 \(\max_\theta I(\mathcal{C}, y) - \beta I(x, \mathcal{C})\)。对于点云,\(I(\mathcal{C}, y)\) 用分类交叉熵损失 \(\mathcal{L}_{CE}\) 近似下界,\(I(x, \mathcal{C})\)\(D_{KL}(\hat{z} \| q(\hat{z}))\) 近似上界。关键改进:将先验 \(q(\hat{z})\) 设为 \(\mathcal{N}(\mu_z, \sigma_z^2)\),参数由点特征 \(z\) 的统计量决定(而非固定均匀分布),同时对"不重要"的点用从该高斯采样的噪声替换(而非简单置零),以恢复邻域的粗粒度信息
    • 设计动机:简单的 Selective CP 在非层次化模型(如 PointNet)上有效,但在层次化模型(PointNet++)和注意力模型(PCT)上失效——因为特征提取中的分组/下采样操作使邻近点特征高度纠缠。用高斯噪声替换可以保留邻域的统计信息,只移除目标点自身的信息
  2. 注意力瓶颈网络:

    • 功能:学习逐点的重要性掩码
    • 核心思路:输入中间层特征 \(z \in \mathbb{R}^{D \times N'}\),通过 query-key-value 注意力机制计算通道级交互:\(q_z = W_q^T z\), \(v_z = \sigma(W_v^T z)\),然后 \(\text{Att}(q_z, z, v_z) = \text{softmax}(q_z^T z / \sqrt{D}) \cdot v_z\),最后通过 MLP + sigmoid 扩展回原维度 \(D\),得到掩码 \(\hat{m} \in (0,1)^{D \times N'}\)。对层次化模型(\(N' < N\)),用距离加权的空间插值将掩码传播回原始 \(N\) 个点
    • 设计动机:通道级注意力(而非空间级)适配不同大小 \(N'\) 的中间特征;非线性注意力块比线性掩码更能学习复杂的点间关系
  3. 可学习无偏先验:

    • 功能:避免 PCSAM 的空间偏置(质心奇异性先验)
    • 核心思路:先验分布 \(q(\hat{z}) = \mathcal{N}(\mu_z, \sigma_z^2)\) 的参数从当前点特征的均值和方差计算得到,而非预设。KL 散度项 \(D_{KL}(\hat{z} \| q(\hat{z}))\) 鼓励重要性分数分布接近由数据决定的自然分布,而非人为偏向特定空间位置。stop-gradient 操作防止梯度通过噪声分支回传
    • 设计动机:PCSAM 的梯度方向始终指向质心,导致角落点被偏好——这是先验的偏置而非模型的行为。可学习先验让重要性分数完全由"对预测的贡献"决定

损失函数

\[\mathcal{L} = \mathcal{L}_{CE}(q(y|\hat{z}), y) + \beta \cdot D_{KL}(\hat{z} \| \mathcal{N}(\mu_z, \sigma_z^2))\]

其中 \(\beta\) 控制压缩程度(保留多少信息),\(\hat{z} = \hat{m} \odot z + \text{sg}(1-\hat{m}) \odot \epsilon\)。只训练注意力瓶颈参数 \(\theta\),冻结原始点云模型。

实验关键数据

主实验:关键点丢弃攻击(DGCNN on ModelNet40)

方法 丢弃 500 点后 OA↓ 理论时间 实际时间(s) 参数量
CP++ 75.08% 1F 0.01 0
PCSAM (1pass) 89.87% 1(F+B) 0.05 0
PCSAM (20iter) 79.86% 20(F+B) 0.85 0
LIME3D (10³) 45.22% 1000F 4.54 1K
InfoCons (1pass) 73.50% 1F 0.01 2.4M
InfoCons (20iter) 63.70% 20F 0.29 2.4M

下游应用:数据增强与对抗攻击

应用 方法 指标 结果
SageMix 数据增强 DGCNN + SageMix OA 92.79%
SageMix + InfoCons DGCNN + SageMix + InfoCons OA 93.19% (+0.4)
SI-Adv 对抗攻击 SI-Adv ASR/CD/HD 99.76% / 5.58 / 6.70
SI-Adv + InfoCons SI-Adv + InfoCons ASR/CD/HD 99.80% / 5.47 / 6.55

关键发现

  • InfoCons 在效率-效果 tradeoff 上优于大多数基线:1pass 模式与 CP++ 同速但效果大幅领先(73.50% vs 75.08%),20iter 模式排名第二(63.70%),仅次于需要 1000 次查询的 LIME3D
  • 定性分析显示 InfoCons 的关键子集在误分类案例中极具解释力——例如将"plant"误分为"flower_pot"时,InfoCons 准确定位模型关注了"pot"部分而忽略了"flower"
  • PCSAM 的关键子集在不同模型上高度相似(都聚集在空间角落),证实了其偏置先验问题;InfoCons 的子集因模型而异,更忠实
  • InfoCons 成功扩展到真实世界数据集 ScanObjectNN 和 KITTI 目标检测场景
  • 超参数 \(\beta\) 存在最优点,过大会过度压缩信息导致精度下降,过小则分数图区分度不够

亮点与洞察

  • "不重要的点也不能简单消除"的洞察:与图像中"移除背景像素"不同,点云中即使是"不重要"的点也携带邻域信息。用高斯噪声替换(而非置零/丢弃)是关键创新——它保留了邻域的统计结构,只消除目标点自身的判别性信息。这个思路可以迁移到任何特征高度纠缠的模态
  • 偏置先验分析的深刻性:论文清晰地揭示了 PCSAM 的"质心奇异性"问题——即使一个全部重合的点云也能被高置信度分类,说明梯度方向本身就有偏。这不仅解释了 PCSAM 的失败模式,也警示了在其他领域中盲目使用梯度基方法的风险
  • 可扩展到 8 种不同架构:InfoCons 在 MLP/层次化/自注意力三类模型上都有效,通用性强

局限与展望

  • 注意力瓶颈模块需要为每个待解释的模型单独训练(2.4M 参数),且超参数 \(\beta\) 和中间层 \(l\) 的选择需要手动调整
  • 丢弃关键点后的 OA 下降作为定量指标有局限——OA 下降可能因为点被移除后点云偏离数据流形,而非真正反映忠实性
  • 目前仅处理分类任务,对分割、检测等任务的扩展需要重新设计 IB 目标
  • 对于超大规模点云(如 KITTI 的户外场景),计算效率仍有优化空间

相关工作与启发

  • vs Critical Points (Qi et al., 2017a):CP 只看编码器 maxpool 后的激活,忽略分类器的影响。InfoCons 通过端到端的 IB 优化同时考虑编码器和分类器
  • vs PCSAM (Zheng et al., 2019):PCSAM 的梯度方向天然偏向质心位置,导致与模型无关的空间角落聚集。InfoCons 用可学习先验消除了这种偏置
  • vs LIME3D (Tan & Kotthaus, 2022):LIME3D 是黑盒方法,效果最好但需要 1000 次查询(4.5s/点云),不适合实时应用。InfoCons 是白盒方法,1pass 仅需 0.01s
  • vs VIB for Attribution (Schulz et al., 2020):VIB-A 为 CNN/像素设计,用固定高斯先验。InfoCons 为点云特化,用可学习先验和高斯噪声替换来处理特征纠缠

评分

  • 新颖性: ⭐⭐⭐⭐ 将 IB 原理系统性适配到点云解释,可学习先验和噪声替换的设计有洞察力
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个模型、3 个数据集、2 个下游应用、定性定量全面对比
  • 写作质量: ⭐⭐⭐⭐ 问题分析深入透彻,Feature Analysis 部分对失败模式的诊断尤为出色
  • 价值: ⭐⭐⭐⭐ 对自动驾驶等安全关键场景的模型诊断有实际价值,代码已开源