Counterfactual Explainable AI (XAI) Method for Deep Learning-Based Multivariate Time Series Classification¶

会议: AAAI 2026
arXiv: 2511.13237
代码: https://github.com/serval-uni-lu/confetti
领域: Time Series / Explainable AI
关键词: 反事实解释, 多变量时间序列, 多目标优化, 可解释AI, NSGA-III

一句话总结¶

提出 CONFETTI，一种面向多变量时间序列（MTS）分类的多目标反事实解释方法，通过结合类激活图（CAM）引导的子序列提取与 NSGA-III 多目标优化，在预测置信度、稀疏性和接近度三个目标间实现最优平衡，在 7 个 UEA 数据集上全面超越现有方法。

研究背景与动机¶

深度学习模型（CNN、RNN、Transformer 等）在多变量时间序列分类任务上取得了优异的性能，但其"黑箱"特性严重阻碍了决策者对预测结果的理解和信任。现有 XAI 方法虽能提供部分洞察，但难以揭示完整的决策空间。反事实解释（Counterfactual Explanations, CE）通过展示"对输入做哪些最小改变可以改变预测结果"来弥补这一缺陷，但现有 MTS 反事实方法存在核心矛盾：

CoMTE / AB-CE：聚焦于最大化预测置信度，但可能需要对原始时间序列进行大幅修改
SETS / LASTS：聚焦于接近度（proximity），但可能产生分布外的实例
TSEvo：虽然是多目标方法，但采用无先验的种群搜索，在高维或长时间序列上计算代价高昂且效率低

核心 idea：CONFETTI 引入 CAM 权重作为先验知识来指导搜索过程，通过四步流水线——找到最近异类邻居（NUN）→ 提取最重要子序列 → 初始替换生成种子 CE → NSGA-III 多目标优化——在置信度、稀疏性和接近度三个目标之间同时优化，并且通过设计保证了有效性和合理性。

方法详解¶

整体框架¶

CONFETTI 由四个阶段组成： 1. NUN 检索：找到与待解释实例预测类别不同的最近邻实例 2. 子序列提取：利用 CAM 权重定位最具影响力的子序列 3. 朴素阶段（Naive Stage）：用 NUN 对应子序列替换原始序列，生成初始 CE 4. 优化阶段：基于 NSGA-III 多目标优化，平衡三个目标

关键设计¶

NUN 检索（Nearest Unlike Neighbor）:
- 功能：在参考集 R 中找到与查询实例 X_i 预测类别不同的最近邻
- 核心思路：先按类别过滤，再用 k-NN 搜索，保留分类器置信度高于阈值 θ 的候选
- 设计动机：使用真实数据分布中的实例作为反事实目标，天然保证了生成 CE 的合理性（plausibility）
CAM 引导的子序列提取:
- 功能：利用 NUN 的类激活图（CAM）权重，通过滑动窗口找到长度为 ℓ 的最大累积权重子序列
- 核心思路：对 CAM 权重跨通道取平均，然后进行线性扫描找到最重要的连续时间段
- 设计动机：将修改限定在模型最关注的区域，避免无差别地替换整个序列，从而提升稀疏性
NSGA-III 多目标优化:
- 功能：在初始 CE 的基础上，通过进化算法进一步优化三个目标
- 核心思路：二分搜索缩小时间窗口，用 Das-Dennis 参考点生成策略、双点交叉和位翻转变异来演化种群
- 设计动机：既保证 CE 的有效性约束 P(f(C_j)=c) ≥ θ，又在稀疏性和接近度之间找到帕累托前沿

损失函数 / 训练策略¶

CONFETTI 的优化是一个三目标问题（非深度学习损失）： - m1（最大化）：预测置信度之和，衡量反事实被目标类接受的程度 - m2（最小化）：归一化 Hamming 距离，衡量修改元素的比例（稀疏性） - m3（最小化）：L1/L2/DTW 距离，衡量修改幅度（接近度）

约束条件：每个 CE 的目标类置信度不低于阈值 θ。用户可通过权重参数 α ∈ [0,1] 在置信度和稀疏性之间调节偏好。

实验关键数据¶

主实验¶

使用 7 个 UEA 数据集，2 个模型架构（FCN 和 ResNet），对比 CoMTE、SETS、TSEvo 三个基线。

置信度对比（θ=0.95 设定，均值跨模型平均）：

数据集	CoMTE	SETS	CONFETTI (θ=0.95)
AWR	0.953	0.940	0.978
BasicMotions	0.917	0.487	0.965
ERing	0.701	0.766	0.981
NATOPS	0.755	*	0.976
平均	0.86	-	0.98

稀疏性对比（α=0.0 设定）：

数据集	CoMTE	TSEvo	CONFETTI (α=0.0)
AWR	0.731	0.002	0.926
BasicMotions	0.486	0.003	0.822
Epilepsy	0.461	0.011	0.822
平均	0.56	0.01	0.88

消融实验¶

配置	关键指标	说明
FCN 全指标 (α=0.5, θ=0.95)	COV=100%, VAL=1.00, CONF=0.97, SPA=0.81	完整方法最优权衡
FCN (α=0.0, θ=0.51)	SPA=0.88, CONF=0.59	最大化稀疏性
FCN (α=0.5, θ=0.51)	SPA=0.85, CONF=0.69	平衡设定
无 CAM 权重	跳过子序列提取和朴素阶段	性能下降，但仍可作为模型无关方法运行

关键发现¶

CONFETTI 是唯一在所有数据集和模型上达到 100% 覆盖率和 100% 有效率的方法
在稀疏性上比 CoMTE 平均高出 32 个百分点，比 TSEvo 高出 87 个百分点
θ 参数允许用户在高置信（θ=0.95）和高稀疏（θ=0.51）场景之间灵活切换
所有方法的 yNN 得分均为 0.99，说明生成的 CE 都具有良好的合理性

亮点与洞察¶

CAM 先验的引入是本文最关键的贡献：将原本无先验的搜索空间压缩到模型最关注的子序列上，大幅提升了效率和稀疏性
理论保证：Theorem 1 证明了优化阶段产生的所有 CE 的 Hamming 距离不超过初始 CE，即优化过程只会改善或维持稀疏性
二分搜索策略在时间窗口长度上的应用非常巧妙，避免了穷举搜索
α 和 θ 两个参数为不同应用场景提供了灵活性

局限与展望¶

依赖 CAM 提取，仅适用于包含全局平均池化的模型架构（如 FCN、ResNet），不支持任意模型
无 CAM 时退化为模型无关模式，但总体框架设计优雅地处理了这一情况
仅在 UEA 数据集上验证（最长 207 时间步），对超长时间序列的可扩展性有待验证
反事实解释的人类可理解性评估缺失，未进行用户研究

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐