In Defense of Information Leakage in Concept-based Models¶

会议: ICML 2026
arXiv: 2606.10669
代码: 待确认
领域: 可解释性 / 概念模型 (XAI)
关键词: 概念瓶颈模型, 信息泄漏, 概念干预, 互信息, 简单性偏置

一句话总结¶

这是一篇 position 论文：作者为概念模型里人人喊打的"信息泄漏"辩护，指出在真实场景概念注释天然不完整时，适度的"良性泄漏"反而是构建准确且可干预模型的必要条件，并给出一个只需多做一次前向的损失 $\mathcal{L}_{\text{int}}$ 来诱导这种良性泄漏。

研究背景与动机¶

领域现状：概念模型（Concept-based Models, CMs）把预测建立在人类可理解的概念（如"条纹""圆形"）之上，最通用的框架是 概念瓶颈模型（CBM）：编码器 $g$ 把输入映成 $k$ 个概念表示 $\hat{\bm{c}}$，打分函数 $s$ 给出概念分数 $\hat{\bm{p}}\approx\mathbb{P}(C_i=1\mid\bm{x})$，标签预测器 $f$ 据此预测任务标签 $\hat{\bm{y}}$。它的卖点是可解释 + 支持 测试时干预（专家把某概念改成正确值，模型据此修正预测）。

现有痛点：大量工作发现 CM 的概念表示会发生 信息泄漏——表示里编码了不属于该概念语义的信息。主流叙事一口咬定泄漏有害、必须铲除，理由是泄漏会让模型"不可解释"、还会破坏可干预性、带来安全隐患。于是涌现出一堆"防泄漏/测泄漏"的方法。

核心矛盾：作者主张这种"泄漏一律有害"的观点 本身就是病态命题（ill-posed）。一方面，"泄漏让模型更不可解释"的证据往往站不住——因为可解释性本身没有可度量的公认定义，无从证伪；另一方面，真实世界里 概念集天然不完整 是常态：给每个样本标全所有相关概念既贵又难，标注前也无法预知未来任务需要哪些概念。在不完整设定下，强行禁止泄漏会让标签预测器拿不到 $I(Y;X\mid C)$ 这部分"概念集之外才有的任务信息"，从而牺牲任务精度。

本文目标：论证(1)某种受控的泄漏是不完整场景下达成高精度 + 可干预的必要条件；(2)这种泄漏并不必然损害（用现有代理指标衡量的）可解释性与可干预性。

切入角度：区分"恶性泄漏"和 良性泄漏（benign leakage）——不是所有泄漏都坏，关键看泄漏的信息能否被干净地分解、定位。

核心 idea：与其消灭泄漏，不如 鼓励并利用良性泄漏；只要训练时最小化"对全部概念做干预后的任务损失" $\mathcal{L}_{\text{int}}$，就能在不牺牲精度和可干预性的前提下引出良性泄漏。

方法详解¶

整体框架¶

这篇论文是论点驱动（position），但核心贡献是一套可操作的概念框架 + 一个损失。整体链条是：先在 CBM 框架里形式化"泄漏"（用互信息定义），再给出"良性泄漏"的两条充要性质（充分性 + 定位性），然后证明 充分性等价于最小化一个全干预损失 $\mathcal{L}_{\text{int}}$，最后论证 定位性可由深度网络的简单性偏置隐式涌现——于是只要重罚 $\mathcal{L}_{\text{int}}$，良性泄漏就自然出现，让"泄漏的"模型同样准、同样可干预。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入 x"] --> B["概念编码器 g<br/>得到概念表示 ĉ"]
    B --> C["良性泄漏定义<br/>ĉ_i 分解为 概念分量 C̄_i + 残差 R_i"]
    C -->|充分性: 残差补足 I(Y;X|C)| D["全干预损失 L_int<br/>对全部概念干预后的任务损失"]
    C -->|定位性: 由简单性偏置隐式涌现| D
    D --> E["标签预测器 f<br/>准确 且 可干预"]

关键设计¶

1. 良性泄漏的定义：把"漏出来的信息"分解 + 定位

作者先用互信息把两类泄漏写清楚：概念间泄漏 $I(\hat{C}_i;C_j)>I(C_i;C_j)$（表示 $i$ 里混进了概念 $j$ 的信息）、任务泄漏 $I(\hat{C}_i;Y)>I(C_i;Y)$（混进了不该有的任务信息）。然后定义良性泄漏（Definition 5.1）：假设每个概念表示能分解为 $\hat{C}_i\equiv(\bar{C}_i,R_i)$，其中 $\bar{C}_i$ 是概念对齐分量（干预时改的就是它）、$R_i$ 是正交的残差分量，并要求两条件： - 充分性（Sufficiency）：$I(Y;R\mid C)\approx I(Y;X\mid C)$，即概念集没覆盖的那部分任务信息全被残差 $R$ 保留下来； - 定位性（Localization）：$I(Y;\bar{C}_i\mid R_i,\hat{C}_{-i})\approx I(Y;C_i\mid C_{-i})$，即关于 $C_i$ 的任务相关信息能被局部地固定在 $\bar{C}_i$ 里。

直觉：充分性保证"漏进来的信息够用"（不完整时也能准），定位性保证"想干预哪个概念就只动哪一块"（干预可控）。作者强调良性泄漏只是 $f$ 可干预的 必要条件——它是 $\hat{C}$ 的性质，而可干预性还取决于预测器 $f$ 怎么学（例如 Hybrid CBM 即便满足良性泄漏，若只用联合损失训练也可能不可干预）。

2. 全干预损失 $\mathcal{L}_{\text{int}}$：把"充分性"变成一个能优化的目标

定位性直接优化几乎不可行（高维 $\hat{C}$ 上的互信息估不准），但作者证明（标准良定假设下）达成充分性等价于最小化"把所有概念都干预成真值后的负任务似然"： $$\mathcal{L}_{\text{int}}=\mathbb{E}_{(\bm{x},\bm{c},y)\sim\mathcal{D}}\big[\mathcal{L}_y\big(f(g(\bm{x}\mid C:=\bm{c})),\,y\big)\big].$$ 也就是：前向时把概念瓶颈的概念分量全部替换成 ground-truth $\bm{c}$，再算任务损失。它可看作 独立 CBM 训练的推广，且架构无关（不要求模型显式分解内外生变量），代价极低——只多一次 $f$ 的前向，作者实测给 CEM 加上它训练时间只增 ~10%。这个损失直接逼出充分性：逼着 $f$ 学会"当概念给定真值时把剩余任务信息从残差里取出来用"。

3. 简单性偏置假设：定位性为何会"白送"

充分性可优化，但定位性怎么来？作者的核心假设是 深度网络的简单性偏置：当存在多个表现相当的假设时，SGD 偏好更简单的那个。具体地，当重罚 $\mathcal{L}_{\text{int}}$（每次干预 $C_i$ 都会改动 $\hat{\bm{c}}_i$）时，预测器若能"外推出干预改了 $\hat{\bm{c}}$ 的哪些变量"，就只需要编码器把 $I(Y;X\mid C_i)$ 放在其余表示里即可——这比"既要重新预测 $C_i$、又把它信息搬到别处、还要编码剩余任务信息"的方案 更简单。于是 SGD 自发收敛到那个让概念信息 被定位（localization）、预测器 会对干预变量起反应（intervenability）的简单假设。换言之，定位性与可干预性是重罚 $\mathcal{L}_{\text{int}}$ 的副产品。作者用一个反直觉实验佐证：在一个没有任何概念对齐损失的不透明 DNN 上，挑倒数第二层的 $k$ 个神经元当"伪概念"干预，加上 $\mathcal{L}_{\text{int}}$ 后该 DNN 竟变得可干预，且神经元 $h_i$ 与真值 $\bm{c}_i$ 的 ROC-AUC 达 $80.79\pm0.11\%$，显示出定位迹象。

4. 用代理指标反驳"泄漏不可解释"的论点

作者把反泄漏论点归为三类（可干预性、可解释性、安全性），并逐一用 CM 领域 现有的代理指标（概念 ROC-AUC、可干预曲线、线性预测器权重）来检验，而非诉诸无法证伪的"可解释性"定义。核心做法：拿一个泄漏能力很强的 Hybrid CBM（$k'=500$ 个无监督激活，远多于 $k=22$ 个对齐概念）配 $\lambda_{\text{int}}=5$ 训练，跟非泄漏的独立 CBM 比概念保真度、任务保真度、以及两者线性预测器"用哪些概念"的 top-$m$ 权重重叠度。结论是良性泄漏的模型在这些指标上并不更差、甚至更好——既然独立 CBM 算"可解释"，凭什么良性泄漏的就不算？

一个完整示例：Hybrid CBM 在不完整 CUB 上¶

用 $k=22$（不完整概念集）的 CUB 训练一个 Hybrid CBM $M_H$（含 $k'=500$ 个无监督泄漏通道），对照非泄漏独立 CBM $M_I$：(1) 概念 ROC-AUC 几乎一样（$93.65\%$ vs $93.90\%$）；(2) 任务精度 $M_H$ 大幅领先（$73.31\%$ vs $47.61\%$）；(3) 加 $\mathcal{L}_{\text{int}}$ 后 $M_H$ 的可干预曲线单调上升（可干预）。权重对齐上，$M_H$ 与 $M_I$ 的 top-5 重要概念重叠 $O=4.31\pm0.86$，跟"两个不同种子的独立 CBM 之间重叠 $4.45\pm0.75$"无统计差异；而 $\lambda_{\text{int}}=0$ 的病态 Hybrid CBM 重叠只有 $2.01\pm0.21$。说明良性泄漏模型对概念的使用方式与公认"可解释"的非泄漏模型几乎一致。

实验关键数据¶

实验目的是支撑论点，不是刷榜，主战场是不完整 CUB（$k=22$）。

主结果：良性泄漏不牺牲精度与可干预性¶

模型（不完整 CUB, $k=22$）	概念 ROC-AUC	任务精度	可干预性
独立 CBM $M_I$（非泄漏）	$93.90\pm0.11\%$	$47.61\pm1.01\%$	干预曲线上升但精度上限低
Hybrid CBM $M_H$（$\lambda_{\text{int}}=5$，泄漏）	$93.65\pm0.22\%$	$73.31\pm0.26\%$	干预曲线单调上升，AUC 更高

不完整时，泄漏模型任务精度领先约 25.7 个百分点，概念保真度却几乎不掉。

关键消融 / 对比¶

配置	现象	说明
泄漏 CM + RandInt / 隐式 $\mathcal{L}_{\text{int}}$（CEM, ProbCBM, MixCEM, Hybrid）	与/优于非泄漏 CBM 的可干预性	泄漏 ≠ 不可干预（Fig.4 左）
泄漏 CM 但未优化充分性（如无 RandInt 的 CEM）	不完整下几乎完全不可干预（曲线非递增）	泄漏确实可能伤可干预性（Fig.4 右）
给上述病态模型加强 $\mathcal{L}_{\text{int}}$	重新变得高度可干预，不掉任务/概念保真	$\mathcal{L}_{\text{int}}$ 是开关（Fig.6）
无任何概念对齐损失的 DNN + $\mathcal{L}_{\text{int}}$	变可干预，伪概念 ROC-AUC $80.79\%$	定位性可隐式涌现（Fig.5）
权重重叠 $O$：$\lambda_{\text{int}}=5$ vs $\lambda_{\text{int}}=0$	$4.31$ vs $2.01$（独立 CBM 自比 $4.45$）	良性泄漏用概念方式像非泄漏模型

关键发现¶

$\mathcal{L}_{\text{int}}$ 是"良性 vs 恶性泄漏"的分水岭：同样允许泄漏，优化充分性的模型可干预、不优化的就崩，去掉它是掉点最狠的消融。
RandInt 本质上在隐式最小化 $\mathcal{L}_{\text{int}}$：CEM/MixCEM 训练时随机干预，等价于近似全干预损失，这解释了它们"既泄漏又可干预"的反常表现。
可解释性论点不可证伪：作者反复强调，没有公认可度量的可解释性定义，"泄漏让模型不可解释"的断言在不完整设定下无法被检验，因此是 ill-posed。

亮点与洞察¶

把哲学之争落到一个可优化损失：与其纠缠"泄漏好不好"，作者用 $\mathcal{L}_{\text{int}}$ 把"良性泄漏"变成训练时多一次前向就能拿到的东西，迁移性强（架构无关，能套到任意 CM 甚至无瓶颈 DNN）。
简单性偏置解释定位涌现：用"SGD 偏好简单假设"解释为何只优化充分性却连带得到定位性和可干预性，是个漂亮且可检验（Fig.5）的论证。
诚实的反例：作者不否认泄漏可能有害（Fig.4 右），明确区分"良性 vs 恶性"，避免把 position 写成一边倒的口号。
可迁移点：$\mathcal{L}_{\text{int}}$（全干预损失）可作为任何需要"测试时可干预"的模型的正则项，不限于 CBM。

局限与展望¶

定位性无法直接优化：只能靠简单性偏置隐式得到，缺乏保证；高维残差上的互信息估计仍是难题。
安全性论点未正面回应：作者承认 shortcut learning 等安全担忧合理，但归因为一般 DNN 表示学习问题、不视为 CM 特有，因此不去反驳——这块辩护是回避而非解决。
可解释性用代理指标：结论"良性泄漏不更差"是相对于概念 ROC-AUC、权重重叠等现有代理指标成立；若换一种更严格的可解释性定义，结论未必保持（作者也承认这正是争论的 ill-posed 之处）。
主要实验集中在 CUB，跨任务结果放在附录，覆盖广度有限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 逆转主流叙事并给出可操作判据（良性泄漏 + $\mathcal{L}_{\text{int}}$），观点鲜明且自洽。
实验充分度: ⭐⭐⭐⭐ 围绕论点设计的对照实验（含无对齐损失 DNN 的反直觉验证）有说服力，但主要在 CUB。
写作质量: ⭐⭐⭐⭐⭐ 论证层层递进，对反方论点逐条拆解、诚实承认未覆盖之处。
价值: ⭐⭐⭐⭐ 可能改变概念模型社区对泄漏的态度，$\mathcal{L}_{\text{int}}$ 即插即用。

模型（不完整 CUB, \(k=22\)）	概念 ROC-AUC	任务精度	可干预性
独立 CBM \(M_I\)（非泄漏）	\(93.90\pm0.11\%\)	\(47.61\pm1.01\%\)	干预曲线上升但精度上限低
Hybrid CBM \(M_H\)（\(\lambda_{\text{int}}=5\)，泄漏）	\(93.65\pm0.22\%\)	\(73.31\pm0.26\%\)	干预曲线单调上升，AUC 更高

配置	现象	说明
泄漏 CM + RandInt / 隐式 \(\mathcal{L}_{\text{int}}\)（CEM, ProbCBM, MixCEM, Hybrid）	与/优于非泄漏 CBM 的可干预性	泄漏 ≠ 不可干预（Fig.4 左）
泄漏 CM 但未优化充分性（如无 RandInt 的 CEM）	不完整下几乎完全不可干预（曲线非递增）	泄漏确实可能伤可干预性（Fig.4 右）
给上述病态模型加强 \(\mathcal{L}_{\text{int}}\)	重新变得高度可干预，不掉任务/概念保真	\(\mathcal{L}_{\text{int}}\) 是开关（Fig.6）
无任何概念对齐损失的 DNN + \(\mathcal{L}_{\text{int}}\)	变可干预，伪概念 ROC-AUC \(80.79\%\)	定位性可隐式涌现（Fig.5）
权重重叠 \(O\)：\(\lambda_{\text{int}}=5\) vs \(\lambda_{\text{int}}=0\)	\(4.31\) vs \(2.01\)（独立 CBM 自比 \(4.45\)）	良性泄漏用概念方式像非泄漏模型