Counterfactual Explanations on Robust Perceptual Geodesics¶
会议: ICLR 2026
arXiv: 2601.18678
代码: 论文提供代码(匿名)
领域: 人类理解 / 可解释AI / 图像生成
关键词: 反事实解释, 测地线优化, 感知度量, 对抗鲁棒性, 可解释性
一句话总结¶
提出 PCG(Perceptual Counterfactual Geodesic)方法,在鲁棒感知流形上通过测地线优化生成语义忠实的反事实解释,两阶段优化确保路径既感知自然又达到目标类别,在 AFHQ 上 FID=8.3 远优于 RSGD 的 12.9。
研究背景与动机¶
领域现状:反事实解释("如果图像变成这样,分类器就会改变预测")是模型可解释性的重要工具。现有方法直接在像素空间或潜在空间做梯度下降生成反事实。
现有痛点:像素空间的反事实容易产生不自然的对抗性扰动,潜在空间的方法可能走到流形之外导致非真实图像。
核心矛盾:反事实需要"最小改变"但也需要"语义合理"——这两个目标在欧氏空间中常常矛盾(欧氏距离上的最短路径可能跨越非真实区域)。
本文目标 如何在感知自然的约束下找到到目标类别的最短路径?
切入角度:在鲁棒感知度量定义的黎曼流形上求测地线——流形上的最短路径天然沿着数据分布的"山脊"走,不会穿越"低密度谷"。
核心 idea:用对抗训练鲁棒模型的特征空间定义感知度量的黎曼流形,在这个流形上求测地线作为反事实路径。
方法详解¶
整体框架¶
两阶段优化:Phase 1 最小化测地线能量(让路径贴近数据流形),Phase 2 在能量约束下加入分类损失(让路径到达目标类别)。
关键设计¶
-
鲁棒感知度量:
- 功能:用对抗训练模型的 Jacobian 定义黎曼度量张量
- 核心思路:度量 G_R(x) = sum_k w_k * J(h_k(x))^T * J(h_k(x)),其中 h_k 是鲁棒模型的中间层特征。pullback 到潜在空间:G_z(z) = J(g(z))^T * G_R(g(z)) * J(g(z))。
- 设计动机:鲁棒模型的特征梯度在语义方向上有意义(非对抗性),定义的度量让语义相似点距离近。
-
测地线优化:
- Phase 1:最小化路径能量 E = integral(gamma'(t)^T * G_z * gamma'(t) dt)
- Phase 2:加入分类损失引导路径到目标类别
- 设计动机:分开优化避免了分类损失过早"拉扯"路径偏离流形。
实验关键数据¶
| 数据集 | 方法 | FID | R-FID | R-LPIPS |
|---|---|---|---|---|
| AFHQ | RSGD | 12.9 | 37.8 | 0.68 |
| AFHQ | PCG | 8.3 | 9.1 | 0.17 |
关键发现¶
- PCG 的 R-LPIPS(鲁棒感知距离)从 0.68 降到 0.17,说明生成的反事实图像更感知自然
- 反事实路径上的中间帧也是视觉合理的(渐变过程而非突变)
- 鲁棒模型定义的度量优于标准模型(后者的特征梯度不够语义)
消融实验与深入分析¶
度量选择对插值质量的影响¶
| 度量 | 语义连贯性 | 是否 on-manifold | 对抗脆弱性 |
|---|---|---|---|
| Z-线性(欧氏) | 差,中间帧模糊 | 否 | N/A |
| 像素 MSE 回撤 | 差,属性不连贯 | 部分 | 高 |
| 标准 ResNet-50 特征回撤 | 中等,有照明漂移 | 是 | 高 |
| 鲁棒 ResNet-50 特征回撤 | 好,语义渐变 | 是 | 低 |
反事实定量比较(StyleGAN2)¶
| 方法 | AFHQ \(\mathcal{L}_1\)↓ | AFHQ \(\mathcal{L}_{\mathcal{R}}\)↓ | FFHQ \(\mathcal{L}_{\mathcal{R}}\)↓ | PlantVillage \(\mathcal{L}_{\mathcal{R}}\)↓ |
|---|---|---|---|---|
| REVISE | 1.20 | 2.70 | 2.78 | 2.87 |
| VSGD | 1.31 | 2.90 | 2.86 | 2.83 |
| RSGD | 1.73 | 2.79 | 2.81 | 2.88 |
| RSGD-C | 1.55 | 2.62 | 2.69 | 2.67 |
| PCG | 1.42 | 2.21 | 2.48 | 2.43 |
- REVISE 在像素 \(\ell_1\) 上最低但 \(\mathcal{L}_{\mathcal{R}}\)(鲁棒感知距离)很高——说明其生成的是像素接近但感知上是对抗样本的结果
- PCG 在鲁棒指标上全面领先,证明其到达了语义分界线的"正确一侧"
两阶段优化的必要性¶
- Phase 1 确保路径贴在鲁棒感知流形上——没有这一步,直接做 Phase 2 会像 VSGD 一样崩溃到 off-manifold
- Phase 2 的重锚定步骤(re-anchoring)将端点逐步拉向输入——确保反事实尽可能"最小改变"
亮点与洞察¶
- 黎曼几何+可解释性的结合数学上优美且效果好——将微分几何的测地线概念应用于 XAI 是非常自然的
- "语义分界线"(semantic divide)概念:Browne & Swift (2020) 提出但未给出跨越方法,PCG 首次通过鲁棒度量实际跨越了这条分界线
- 两阶段优化的思路:先建路再导航——先用能量最小化确保路径质量,再加任务目标——比直接端到端优化更稳定
- 失败模式分类系统化了现有方法的三类失败:off-manifold 遍历、局部梯度陷阱、生成器利用脆弱度量
局限与展望¶
- 需要对抗训练的鲁棒模型来定义度量,不是所有领域都有现成的鲁棒模型(如医学图像、遥感)
- 测地线优化计算成本较高——需要 Jacobian-向量积,每步比 SGD 贵数倍
- 仅在图像分类上验证——文本、表格数据的反事实解释需要不同的流形定义
- 依赖 StyleGAN2/3 作为生成器——扩散模型时代需要适配
- 鲁棒模型特征空间的不同层级特征的权重 \(w_k\) 设为 \(1/N_k\)(按维度归一化),未探索其他加权方案
相关工作与启发¶
- vs REVISE (Joshi et al.):REVISE 在 VAE 潜在空间做欧氏 SGD,假设平坦几何——PCG 证明这个假设在图像域完全失效
- vs RSGD (Pegios et al.):RSGD 引入了黎曼度量但用脆弱的标准分类器特征——PCG 用鲁棒特征修复了度量本身
- vs DiME/扩散模型反事实:扩散模型方法生成质量好但缺乏几何保证——PCG 的测地线约束确保路径的每一步都感知自然
- vs Santurkar et al. (2019) 鲁棒模型可解释性:他们研究解释鲁棒模型本身,PCG 用鲁棒模型来生成标准模型的解释——方向正交
- 启发:鲁棒感知度量的概念可以推广到任何需要"感知自然"的生成任务——如图像编辑、风格迁移、图像修复
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 黎曼测地线用于反事实解释的理论框架非常新颖
- 实验充分度: ⭐⭐⭐⭐ 三个数据集 + 两种 StyleGAN + 多基线定量比较
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨,图示清晰
- 价值: ⭐⭐⭐⭐⭐ 对 XAI 领域的度量问题提供了原则性解决方案
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨
- 价值: ⭐⭐⭐⭐ 为可解释AI提供了理论严格的工具