跳转至

In Defense of Information Leakage in Concept-based Models

会议: ICML 2026
arXiv: 2606.10669
代码: 待确认
领域: 可解释性 / 概念模型 (XAI)
关键词: 概念瓶颈模型, 信息泄漏, 概念干预, 互信息, 简单性偏置

一句话总结

这是一篇 position 论文:作者为概念模型里人人喊打的"信息泄漏"辩护,指出在真实场景概念注释天然不完整时,适度的"良性泄漏"反而是构建准确且可干预模型的必要条件,并给出一个只需多做一次前向的损失 \(\mathcal{L}_{\text{int}}\) 来诱导这种良性泄漏。

研究背景与动机

领域现状:概念模型(Concept-based Models, CMs)把预测建立在人类可理解的概念(如"条纹""圆形")之上,最通用的框架是 概念瓶颈模型(CBM):编码器 \(g\) 把输入映成 \(k\) 个概念表示 \(\hat{\bm{c}}\),打分函数 \(s\) 给出概念分数 \(\hat{\bm{p}}\approx\mathbb{P}(C_i=1\mid\bm{x})\),标签预测器 \(f\) 据此预测任务标签 \(\hat{\bm{y}}\)。它的卖点是可解释 + 支持 测试时干预(专家把某概念改成正确值,模型据此修正预测)。

现有痛点:大量工作发现 CM 的概念表示会发生 信息泄漏——表示里编码了不属于该概念语义的信息。主流叙事一口咬定泄漏有害、必须铲除,理由是泄漏会让模型"不可解释"、还会破坏可干预性、带来安全隐患。于是涌现出一堆"防泄漏/测泄漏"的方法。

核心矛盾:作者主张这种"泄漏一律有害"的观点 本身就是病态命题(ill-posed)。一方面,"泄漏让模型更不可解释"的证据往往站不住——因为可解释性本身没有可度量的公认定义,无从证伪;另一方面,真实世界里 概念集天然不完整 是常态:给每个样本标全所有相关概念既贵又难,标注前也无法预知未来任务需要哪些概念。在不完整设定下,强行禁止泄漏会让标签预测器拿不到 \(I(Y;X\mid C)\) 这部分"概念集之外才有的任务信息",从而牺牲任务精度。

本文目标:论证(1)某种受控的泄漏是不完整场景下达成高精度 + 可干预的必要条件;(2)这种泄漏并不必然损害(用现有代理指标衡量的)可解释性与可干预性。

切入角度:区分"恶性泄漏"和 良性泄漏(benign leakage)——不是所有泄漏都坏,关键看泄漏的信息能否被干净地分解、定位。

核心 idea:与其消灭泄漏,不如 鼓励并利用良性泄漏;只要训练时最小化"对全部概念做干预后的任务损失" \(\mathcal{L}_{\text{int}}\),就能在不牺牲精度和可干预性的前提下引出良性泄漏。

方法详解

整体框架

这篇论文是论点驱动(position),但核心贡献是一套可操作的概念框架 + 一个损失。整体链条是:先在 CBM 框架里形式化"泄漏"(用互信息定义),再给出"良性泄漏"的两条充要性质(充分性 + 定位性),然后证明 充分性等价于最小化一个全干预损失 \(\mathcal{L}_{\text{int}}\),最后论证 定位性可由深度网络的简单性偏置隐式涌现——于是只要重罚 \(\mathcal{L}_{\text{int}}\),良性泄漏就自然出现,让"泄漏的"模型同样准、同样可干预。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入 x"] --> B["概念编码器 g<br/>得到概念表示 ĉ"]
    B --> C["良性泄漏定义<br/>ĉ_i 分解为 概念分量 C̄_i + 残差 R_i"]
    C -->|充分性: 残差补足 I(Y;X|C)| D["全干预损失 L_int<br/>对全部概念干预后的任务损失"]
    C -->|定位性: 由简单性偏置隐式涌现| D
    D --> E["标签预测器 f<br/>准确 且 可干预"]

关键设计

1. 良性泄漏的定义:把"漏出来的信息"分解 + 定位

作者先用互信息把两类泄漏写清楚:概念间泄漏 \(I(\hat{C}_i;C_j)>I(C_i;C_j)\)(表示 \(i\) 里混进了概念 \(j\) 的信息)、任务泄漏 \(I(\hat{C}_i;Y)>I(C_i;Y)\)(混进了不该有的任务信息)。然后定义良性泄漏(Definition 5.1):假设每个概念表示能分解为 \(\hat{C}_i\equiv(\bar{C}_i,R_i)\),其中 \(\bar{C}_i\) 是概念对齐分量(干预时改的就是它)、\(R_i\) 是正交的残差分量,并要求两条件: - 充分性(Sufficiency)\(I(Y;R\mid C)\approx I(Y;X\mid C)\),即概念集没覆盖的那部分任务信息全被残差 \(R\) 保留下来; - 定位性(Localization)\(I(Y;\bar{C}_i\mid R_i,\hat{C}_{-i})\approx I(Y;C_i\mid C_{-i})\),即关于 \(C_i\) 的任务相关信息能被局部地固定在 \(\bar{C}_i\) 里。

直觉:充分性保证"漏进来的信息够用"(不完整时也能准),定位性保证"想干预哪个概念就只动哪一块"(干预可控)。作者强调良性泄漏只是 \(f\) 可干预的 必要条件——它是 \(\hat{C}\) 的性质,而可干预性还取决于预测器 \(f\) 怎么学(例如 Hybrid CBM 即便满足良性泄漏,若只用联合损失训练也可能不可干预)。

2. 全干预损失 \(\mathcal{L}_{\text{int}}\):把"充分性"变成一个能优化的目标

定位性直接优化几乎不可行(高维 \(\hat{C}\) 上的互信息估不准),但作者证明(标准良定假设下)达成充分性等价于最小化"把所有概念都干预成真值后的负任务似然": $\(\mathcal{L}_{\text{int}}=\mathbb{E}_{(\bm{x},\bm{c},y)\sim\mathcal{D}}\big[\mathcal{L}_y\big(f(g(\bm{x}\mid C:=\bm{c})),\,y\big)\big].\)$ 也就是:前向时把概念瓶颈的概念分量全部替换成 ground-truth \(\bm{c}\),再算任务损失。它可看作 独立 CBM 训练的推广,且架构无关(不要求模型显式分解内外生变量),代价极低——只多一次 \(f\) 的前向,作者实测给 CEM 加上它训练时间只增 ~10%。这个损失直接逼出充分性:逼着 \(f\) 学会"当概念给定真值时把剩余任务信息从残差里取出来用"。

3. 简单性偏置假设:定位性为何会"白送"

充分性可优化,但定位性怎么来?作者的核心假设是 深度网络的简单性偏置:当存在多个表现相当的假设时,SGD 偏好更简单的那个。具体地,当重罚 \(\mathcal{L}_{\text{int}}\)(每次干预 \(C_i\) 都会改动 \(\hat{\bm{c}}_i\))时,预测器若能"外推出干预改了 \(\hat{\bm{c}}\) 的哪些变量",就只需要编码器把 \(I(Y;X\mid C_i)\) 放在其余表示里即可——这比"既要重新预测 \(C_i\)、又把它信息搬到别处、还要编码剩余任务信息"的方案 更简单。于是 SGD 自发收敛到那个让概念信息 被定位(localization)、预测器 会对干预变量起反应(intervenability)的简单假设。换言之,定位性与可干预性是重罚 \(\mathcal{L}_{\text{int}}\) 的副产品。作者用一个反直觉实验佐证:在一个没有任何概念对齐损失的不透明 DNN 上,挑倒数第二层的 \(k\) 个神经元当"伪概念"干预,加上 \(\mathcal{L}_{\text{int}}\) 后该 DNN 竟变得可干预,且神经元 \(h_i\) 与真值 \(\bm{c}_i\) 的 ROC-AUC 达 \(80.79\pm0.11\%\),显示出定位迹象。

4. 用代理指标反驳"泄漏不可解释"的论点

作者把反泄漏论点归为三类(可干预性、可解释性、安全性),并逐一用 CM 领域 现有的代理指标(概念 ROC-AUC、可干预曲线、线性预测器权重)来检验,而非诉诸无法证伪的"可解释性"定义。核心做法:拿一个泄漏能力很强的 Hybrid CBM(\(k'=500\) 个无监督激活,远多于 \(k=22\) 个对齐概念)配 \(\lambda_{\text{int}}=5\) 训练,跟非泄漏的独立 CBM 比概念保真度、任务保真度、以及两者线性预测器"用哪些概念"的 top-\(m\) 权重重叠度。结论是良性泄漏的模型在这些指标上并不更差、甚至更好——既然独立 CBM 算"可解释",凭什么良性泄漏的就不算?

一个完整示例:Hybrid CBM 在不完整 CUB 上

\(k=22\)(不完整概念集)的 CUB 训练一个 Hybrid CBM \(M_H\)(含 \(k'=500\) 个无监督泄漏通道),对照非泄漏独立 CBM \(M_I\):(1) 概念 ROC-AUC 几乎一样(\(93.65\%\) vs \(93.90\%\));(2) 任务精度 \(M_H\) 大幅领先(\(73.31\%\) vs \(47.61\%\));(3) 加 \(\mathcal{L}_{\text{int}}\)\(M_H\) 的可干预曲线单调上升(可干预)。权重对齐上,\(M_H\)\(M_I\) 的 top-5 重要概念重叠 \(O=4.31\pm0.86\),跟"两个不同种子的独立 CBM 之间重叠 \(4.45\pm0.75\)"无统计差异;而 \(\lambda_{\text{int}}=0\) 的病态 Hybrid CBM 重叠只有 \(2.01\pm0.21\)。说明良性泄漏模型对概念的使用方式与公认"可解释"的非泄漏模型几乎一致。

实验关键数据

实验目的是支撑论点,不是刷榜,主战场是不完整 CUB(\(k=22\))。

主结果:良性泄漏不牺牲精度与可干预性

模型(不完整 CUB, \(k=22\) 概念 ROC-AUC 任务精度 可干预性
独立 CBM \(M_I\)(非泄漏) \(93.90\pm0.11\%\) \(47.61\pm1.01\%\) 干预曲线上升但精度上限低
Hybrid CBM \(M_H\)\(\lambda_{\text{int}}=5\),泄漏) \(93.65\pm0.22\%\) \(73.31\pm0.26\%\) 干预曲线单调上升,AUC 更高

不完整时,泄漏模型任务精度领先约 25.7 个百分点,概念保真度却几乎不掉。

关键消融 / 对比

配置 现象 说明
泄漏 CM + RandInt / 隐式 \(\mathcal{L}_{\text{int}}\)(CEM, ProbCBM, MixCEM, Hybrid) 与/优于非泄漏 CBM 的可干预性 泄漏 ≠ 不可干预(Fig.4 左)
泄漏 CM 但未优化充分性(如无 RandInt 的 CEM) 不完整下几乎完全不可干预(曲线非递增) 泄漏确实可能伤可干预性(Fig.4 右)
给上述病态模型加强 \(\mathcal{L}_{\text{int}}\) 重新变得高度可干预,不掉任务/概念保真 \(\mathcal{L}_{\text{int}}\) 是开关(Fig.6)
无任何概念对齐损失的 DNN + \(\mathcal{L}_{\text{int}}\) 变可干预,伪概念 ROC-AUC \(80.79\%\) 定位性可隐式涌现(Fig.5)
权重重叠 \(O\)\(\lambda_{\text{int}}=5\) vs \(\lambda_{\text{int}}=0\) \(4.31\) vs \(2.01\)(独立 CBM 自比 \(4.45\) 良性泄漏用概念方式像非泄漏模型

关键发现

  • \(\mathcal{L}_{\text{int}}\) 是"良性 vs 恶性泄漏"的分水岭:同样允许泄漏,优化充分性的模型可干预、不优化的就崩,去掉它是掉点最狠的消融。
  • RandInt 本质上在隐式最小化 \(\mathcal{L}_{\text{int}}\):CEM/MixCEM 训练时随机干预,等价于近似全干预损失,这解释了它们"既泄漏又可干预"的反常表现。
  • 可解释性论点不可证伪:作者反复强调,没有公认可度量的可解释性定义,"泄漏让模型不可解释"的断言在不完整设定下无法被检验,因此是 ill-posed。

亮点与洞察

  • 把哲学之争落到一个可优化损失:与其纠缠"泄漏好不好",作者用 \(\mathcal{L}_{\text{int}}\) 把"良性泄漏"变成训练时多一次前向就能拿到的东西,迁移性强(架构无关,能套到任意 CM 甚至无瓶颈 DNN)。
  • 简单性偏置解释定位涌现:用"SGD 偏好简单假设"解释为何只优化充分性却连带得到定位性和可干预性,是个漂亮且可检验(Fig.5)的论证。
  • 诚实的反例:作者不否认泄漏可能有害(Fig.4 右),明确区分"良性 vs 恶性",避免把 position 写成一边倒的口号。
  • 可迁移点\(\mathcal{L}_{\text{int}}\)(全干预损失)可作为任何需要"测试时可干预"的模型的正则项,不限于 CBM。

局限与展望

  • 定位性无法直接优化:只能靠简单性偏置隐式得到,缺乏保证;高维残差上的互信息估计仍是难题。
  • 安全性论点未正面回应:作者承认 shortcut learning 等安全担忧合理,但归因为一般 DNN 表示学习问题、不视为 CM 特有,因此不去反驳——这块辩护是回避而非解决。
  • 可解释性用代理指标:结论"良性泄漏不更差"是相对于概念 ROC-AUC、权重重叠等现有代理指标成立;若换一种更严格的可解释性定义,结论未必保持(作者也承认这正是争论的 ill-posed 之处)。
  • 主要实验集中在 CUB,跨任务结果放在附录,覆盖广度有限。

相关工作与启发

  • vs 主流防泄漏路线(Marconato et al. 2022, Havasi et al. 2022 等): 他们想方设法消灭/缓解泄漏,本文反其道,论证不完整场景下泄漏是达成高精度的必要条件,应被"驯化"而非铲除。
  • vs Espinosa Zarlenga et al. (2025) 的 prior loss: \(\mathcal{L}_{\text{int}}\) 与其"先验损失"相似,但更通用——不要求模型显式分解内外生变量,适用于任意 CM。
  • vs CEM / RandInt(Espinosa Zarlenga et al. 2022): 本文指出 RandInt 其实在隐式优化 \(\mathcal{L}_{\text{int}}\),统一解释了一批"泄漏却可干预"模型的成功。
  • vs 泄漏量化工作(Parisini et al. 2025, Makonnen et al. 2025): 他们专注测量泄漏并据此判其有害,本文用同款互信息语言重新框定"哪种泄漏其实有益"。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 逆转主流叙事并给出可操作判据(良性泄漏 + \(\mathcal{L}_{\text{int}}\)),观点鲜明且自洽。
  • 实验充分度: ⭐⭐⭐⭐ 围绕论点设计的对照实验(含无对齐损失 DNN 的反直觉验证)有说服力,但主要在 CUB。
  • 写作质量: ⭐⭐⭐⭐⭐ 论证层层递进,对反方论点逐条拆解、诚实承认未覆盖之处。
  • 价值: ⭐⭐⭐⭐ 可能改变概念模型社区对泄漏的态度,\(\mathcal{L}_{\text{int}}\) 即插即用。