Understanding and Improving Adversarial Robustness of Neural Probabilistic Circuits¶
会议: NeurIPS 2025
arXiv: 2509.20549
代码: https://github.com/uiuctml/RNPC
领域: AI 安全 / 对抗鲁棒性
关键词: 概念瓶颈模型, 概率电路, 对抗鲁棒性, 类级推理, 可解释性
一句话总结¶
理论分析神经概率电路(NPC)的对抗鲁棒性仅取决于属性识别模型而与概率电路无关,并提出 RNPC 通过类级推理集成方式实现可证明的鲁棒性提升,在保持良性准确率的同时显著增强对抗鲁棒性。
研究背景与动机¶
概念瓶颈模型(CBM) 通过引入人类可理解的中间概念层提供可解释性,但传统 CBM 在概念层上使用线性预测器,不仅性能有损还会损害鲁棒性。神经概率电路(NPC) 是新一代 CBM,由属性识别模型和概率电路两个模块组成:属性识别模型预测可解释的类别属性,概率电路学习属性与类别的联合分布并支持可扩展推理。NPC 在性能和可解释性之间取得了良好平衡。
然而,NPC 中的属性识别模型仍是神经网络黑盒,容易受到对抗攻击——通过微小不可察觉的输入扰动操纵属性预测,进而影响最终分类。
核心矛盾:NPC 的估计误差是组合性的(各模块误差线性叠加),那么其对抗鲁棒性也是如此吗?如果不是,能否设计更鲁棒的推理方式?
关键发现:NPC 的对抗鲁棒性仅取决于属性识别模型,加入概率电路"免费"获得鲁棒性(与传统 CBM 中线性层损害鲁棒性形成对比)。这一发现启发了进一步提升鲁棒性的 RNPC 设计。
方法详解¶
整体框架¶
RNPC 与 NPC 共享相同的模型架构和训练(属性识别模型 + 概率电路),唯一区别在于推理方式:NPC 使用节点级(node-wise)集成,RNPC 使用类级(class-wise)集成。
关键设计¶
-
NPC 对抗鲁棒性分析(Theorem 3.4):
- 定义预测扰动 \(\Delta_{\theta,w}^{NPC}\) 为对抗攻击下类别分布变化的最坏情况 TV 距离
- 证明:\(\Delta_{\theta,w}^{NPC} \leq \sum_{k=1}^K \mathbb{E}_X[\max_{\tilde{X}} d_{TV}(\mathbb{P}_{\theta_k}(A_k|X), \mathbb{P}_{\theta_k}(A_k|\tilde{X}))]\)
- 含义:鲁棒性上界仅由属性识别模型决定,概率电路不影响鲁棒性——这与 NPC 估计误差的组合性形成鲜明对比
-
属性空间的类级分区:
- 将高概率属性节点集 \(V\) 按最可能的类别分区:\(V = \bigcup_y V_y\)
- 定义类间 Hamming 距离 \(d_{i,j} = \min_{v_i \in V_i, v_j \in V_j} \text{Ham}(v_i, v_j)\)
- 定义半径 \(r = \lfloor \frac{d_{min}-1}{2} \rfloor\)
- 定义类邻域 \(\mathcal{N}(y,r)\):\(V_y\) 加上距 \(V_y\) 不超过 \(r\) 步的低概率节点
-
RNPC 类级集成推理(Equation 2): \(\Phi_{\theta,w}(Y|X) = \sum_{\tilde{y}} (\mathbb{P}_\theta(A_{1:K} \in \mathcal{N}(\tilde{y},r)|X) \cdot \sum_{a_{1:K} \in V_{\tilde{y}}} \mathbb{P}_w(Y|A_{1:K}=a_{1:K}))\)
- 核心直觉:当攻击扰动属性预测时,概率从正确节点 \(a_{1:K}^*\) 流向相邻节点。如果这些节点仍在 \(\mathcal{N}(y,r)\) 内(即攻击属性数 \(m \leq r\)),那么整个类的权重几乎不变,从而维持正确预测
- 对比 NPC 的节点级集成:单个节点的权重下降直接影响预测
-
理论保证:
- 鲁棒性上界(Lemma 4.6):RNPC 的扰动上界 \(\Lambda_{RNPC} \leq \alpha_\epsilon\),而 NPC 的上界 \(\Lambda_{NPC} \leq \frac{|A_1|\cdots|A_K|}{2} \alpha_\epsilon\)(Theorem 4.7)——RNPC 的上界比 NPC 小指数级
- 组合估计误差(Theorem 4.10):RNPC 的良性误差仍可分解为两个模块的线性组合
- 鲁棒性-准确率 tradeoff(Theorem 4.11):最优 RNPC 与真实分布之间的距离由 \(V_y\) 分区质量决定
损失函数 / 训练策略¶
属性识别模型:最小化所有属性的交叉熵损失之和。概率电路:LearnSPN 学结构 + CCCP 优化参数。两者独立训练,NPC 和 RNPC 共享训练好的模型。
实验关键数据¶
主实验(良性准确率)¶
| 数据集 | CBM | DCR | NPC | RNPC |
|---|---|---|---|---|
| MNIST-Add3 | 99.02 | 98.54 | 99.32 | 99.37 |
| MNIST-Add5 | 99.37 | 99.21 | 99.40 | 99.51 |
| CelebA-Syn | 99.83 | 99.45 | 99.95 | 99.95 |
| GTSRB-Sub | 99.42 | 99.42 | 99.57 | 99.49 |
RNPC 在良性输入上与 NPC 持平甚至略优,验证了鲁棒性-准确率 tradeoff 在实际中可忽略。
消融实验(对抗攻击 PGD-∞, ε=0.11)¶
| 配置 | MNIST-Add5 对抗准确率 | 说明 |
|---|---|---|
| CBM | <20% | 线性预测器损害鲁棒性 |
| DCR | <25% | 类似 CBM |
| NPC | <40% | 概率电路不损害但也不增强 |
| RNPC | >80% | 类级集成显著提升 |
| RNPC (r=0) | ~60% | 半径过小,容错不足 |
| RNPC (r=r*=2) | >80% | 自然半径最优 |
| RNPC (r=5=K) | 29.9% | 覆盖全空间,丧失区分力 |
关键发现¶
- NPC 和 RNPC 的鲁棒性显著优于 CBM 和 DCR,证实概率电路对鲁棒性"免费"
- RNPC 在 MNIST-Add5 上对抗准确率比 NPC 高 40%+,验证了指数级的理论优势
- 半径 \(r = r^*\) 是最优选择:减小增大均损害对抗准确率
- 攻击传播问题:在 GTSRB 上因属性间虚假相关,攻击单个属性会间接影响其他属性的预测,削弱 RNPC 优势
- 对抗训练可有效缓解攻击传播(解耦属性间的虚假关联)
亮点与洞察¶
- "概率电路对鲁棒性免费"这一发现非常深刻,与估计误差的组合性形成了有趣的对比
- RNPC 的类级集成思想直觉上很自然——当属性预测被扰动时,只要还落在正确类的"邻域"内,就不影响最终预测
- 理论推导与实验验证的一致性很强,尤其是半径 \(r\) 的消融实验完美匹配理论预测
- 推理时间复杂度反而降低(\(|V| \leq \prod_k |A_k|\))
局限与展望¶
- 攻击传播(属性间虚假相关)在实际数据中普遍存在,RNPC 的优势会被削弱
- 数据集较小且合成成分多,需在更大规模的真实数据集上验证
- 属性空间的分区和半径依赖于数据的内在结构,需已知或可计算
- 仅考虑白盒 norm-bounded 攻击,未涉及其他攻击类型(如语义攻击)
相关工作与启发¶
- vs 标准 CBM [Koh et al.]:CBM 的线性预测器损害鲁棒性,NPC/RNPC 的概率电路不影响鲁棒性
- vs Sinha et al. (2023):他们的目标是让属性概率在攻击下不变(通过对抗训练),RNPC 的目标是即使概率变了也能正确预测
- vs DCR:DCR 用嵌入层替代线性层,但仍受线性预测器的鲁棒性限制
评分¶
- 新颖性: ⭐⭐⭐⭐ 类级集成推理是自然的设计,但"概率电路对鲁棒性免费"的理论发现很有价值
- 实验充分度: ⭐⭐⭐⭐ 多个数据集、多种攻击、丰富消融,但数据集规模偏小
- 写作质量: ⭐⭐⭐⭐⭐ 理论与实验紧密结合,定义和定理清晰
- 价值: ⭐⭐⭐⭐ 为可解释模型的鲁棒性提供了理论框架和实用方案