跳转至

Concepts' Information Bottleneck Models

会议: ICLR 2026
arXiv: 2602.14626
代码: 有(论文中提到)
领域: 可解释性
关键词: 概念瓶颈模型, 信息瓶颈, 可解释性, 正则化, 概念泄漏

一句话总结

在概念瓶颈模型(CBM)的概念层引入信息瓶颈(IB)正则化,通过惩罚 I(X;C) 同时保留 I(C;Y) 来学习最小充分概念表示,在六个CBM变体和三个基准上一致提升预测性能和概念干预可靠性。

研究背景与动机

概念瓶颈模型(Concept Bottleneck Models, CBMs)是一类可解释AI方法,其核心思想是在输入X和预测Y之间插入一个人类可理解的概念层C,让决策过程透明可解释。这种设计允许人类专家在推理时干预概念值(concept intervention),从而纠正模型的错误推理。

然而,现有CBM存在两个根本性问题:

准确率下降:强制经过概念瓶颈会导致信息丢失,模型准确率往往低于端到端黑箱模型。这是因为概念层可能编码了与任务无关的冗余信息,同时丢失了部分任务相关信息。

概念泄漏(Concept Leakage):概念表示中混入了与概念定义无关的额外信息,这些"泄漏"信息虽然可能短期提升准确率,但破坏了概念层的忠实性(faithfulness),使得概念干预变得不可靠——修改一个概念的值可能产生不可预期的连锁反应。

这两个问题的核心矛盾在于:概念层编码的信息既不够"纯净"(有泄漏),又不够"充分"(丢失任务信息)。

本文的核心洞察是:这个矛盾恰好可以用信息瓶颈(Information Bottleneck)理论来解决。IB原理的目标就是学习一个关于输入X的最小充分统计量——在概念层的语境下,就是让概念表示C只保留预测Y所需的最少信息,同时压缩掉与任务无关的冗余信息。

方法详解

整体框架

本文不改 CBM 的网络结构、也不加新标注,只往训练目标里塞进一条信息瓶颈正则项。一个 CBM 的数据流是 \(X \to Z \to C \to Y\):输入 \(X\) 先经编码器映成潜表示(latent)\(Z\),再由 \(Z\) 预测出人类可读的概念层 \(C\),最后由 \(C\) 推出标签 \(Y\)。标准 CBM 只逼 \(C\) 把标签预测准,却放任输入里与概念无关的细节顺着 \(Z\to C\) 泄漏进 \(C\)(即概念泄漏),既损害可解释性、又让概念干预不可靠。本文的做法是把 IB 原理直接挂到概念层上:在保留 \(I(Z;C)\)\(I(C;Y)\) 的同时压低 \(I(X;C)\),逼概念层只携带"够用且干净"的信息。整套目标写成 \(\mathcal{L}_{CIBM}=I(Z;C)+I(C;Y)-\beta\,I(X;C)\),其中 \(\beta\) 是调节压缩强度的拉格朗日乘子。由于 \(I(X;C)\) 在高维概念空间无法直接计算,作者给出两种可训练的实现——变分上界版 IBB 与估计器代理版 IBE。

关键设计

1. 在概念层而非潜层施加信息瓶颈:把"干净"约束落到真正要解释的那一层

经典 IB(Tishby 2000;Alemi 2017)压缩的是潜表示 \(Z\)\(I(X;Z)\)。按数据处理不等式 \(I(X;C)\le I(X;Z)\),压 \(Z\) 确实会间接限制 \(C\) 里的信息——但作者指出这只是"上界顺带效应":先把 \(X\to Z\) 压窄、再从 \(Z\) 派生 \(C\),泄漏仍可能在 \(Z\to C\) 这一步存活下来。于是本文把约束直接放到概念层,最小化 \(I(X;C)\) 而非 \(I(X;Z)\),得到目标

\[\mathcal{L}_{CIBM}=I(Z;C)+I(C;Y)-\beta\,I(X;C).\]

这不是退而求其次的近似,而是一个有意的设计选择:无论潜层 \(Z\) 容量多大,都严格控制有多少源信息能进到 \(C\),把"可解释那一层的纯净度"摆在第一位。这正是本文区别于以往把 IB 用在通用潜特征上的工作的关键,也是它能换来更忠实、更可干预概念的根由。

2. IBB:用数据分布的变分近似把目标转成可优化的交叉熵下界

\(I(X;C)\) 这类互信息含无法直接估的边际项,作者对数据分布做变分近似,把 \(\mathcal{L}_{CIBM}\) 下界成一串熵 / 交叉熵:

\[\mathcal{L}_{CIBM}\ge(1-\beta)\,\mathbb{E}_{p(z)}\!\big[H(p(c\mid z))-H(p(c\mid z),q(c\mid z))\big]-\mathbb{E}_{p(c)}H(p(y\mid c),q(y\mid c)).\]

最大化这个下界,等价于最小化概念 \(c\)、标签 \(y\) 各自相对真值的交叉熵、再调节概念分布的熵。好处是把抽象的互信息优化落成标准、可反传的训练损失;代价是要额外估计概念分布 \(p(c)\) 的熵。用此目标训练出的模型记作 IBB(Bounded CIB)。

3. IBE:把熵当常数处理,换更省的互信息估计器

IBB 仍要去估概念熵。作者给出更轻的替代:只展开没被边际化掉的那些条件熵、把概念熵 \(H(C)\) 与标签熵 \(H(Y)\) 当作常数,得到

\[\mathcal{L}_{E\text{-}CIB}=\mathbb{E}_{p(c)}H(p(y\mid c),q(y\mid c))+\mathbb{E}_{p(z)}H(p(c\mid z),q(c\mid z))-\beta\big(\rho-I(X;C)\big),\]

其中 \(\rho\) 为常数,\(I(X;C)\) 直接由互信息估计器给出。这一版不再背概念熵估计的包袱、更省,形式上与 Kawaguchi 等(2023)的潜层 IB 损失同构,只是把条件从潜层换到了概念层。用此目标训练的模型记作 IBE(Estimator-based CIB),实验中与 IBB 表现相当。

两种实现都只是挂在原训练目标后的一项损失,不碰前向结构,因此对训练范式(联合 / 顺序 / 独立)和 CEM、ProbCBM 等概念嵌入家族都能原样叠加——这也是后文能在六个 CBM 家族上统一验证的前提。

损失函数 / 训练策略

最终训练损失就是上面的 \(\mathcal{L}_{S\text{-}CIBM}\)(IBB)或 \(\mathcal{L}_{E\text{-}CIB}\)(IBE),二者都已把"预测概念 \(c\)、预测标签 \(y\)"的交叉熵和 IB 压缩项融在一个目标里。压缩强度 \(\beta\) 是关键旋钮:太小则压缩不足、泄漏照旧,太大则把任务相关信息一并压没、准确率反而下滑。论文在验证集上搜索使"压缩—保留"达到平衡的 \(\beta\);并通过 PAC-Bayes 分析(Theorem 2)证明,只要 \(\beta\) 足够小使泛化间隙 \(\Delta>0\),CIBM 的真实风险上界就严格紧于普通 CBM——复杂度的下降盖过了 \(\beta\) 惩罚带来的训练误差微增。

实验关键数据

主实验

论文在三个基准数据集上评估了六个CBM家族:

CBM变体 数据集 无IB +IB 变化
Joint CBM CUB-200 基线 提升 ✓ 一致提升
Sequential CBM CUB-200 基线 提升 ✓ 一致提升
Independent CBM CUB-200 基线 提升 ✓ 一致提升
CEM CUB-200 基线 提升 ✓ 一致提升
CBM-AUC CUB-200 基线 提升 ✓ 一致提升
ProbCBM CUB-200 基线 提升 ✓ 一致提升

在所有六个CBM家族和三个基准上,IB正则化版本均一致超越对应的原始版本。

消融实验

配置 关键指标 说明
无IB正则化 (Vanilla) 基线 标准CBM训练
变分IB (β=小) 轻微提升 温和压缩
变分IB (β=中) 最佳 最优压缩-保留平衡
变分IB (β=大) 下降 过度压缩
熵基代理 与变分IB可比 更简洁,无额外参数

关键发现

  • IB正则化在所有测试的CBM变体上都带来了一致的提升,说明其方法具有强泛化性
  • 信息平面(Information Plane)分析确认了IB正则化确实在压缩 I(X;C) 的同时保持了 I(C;Y)
  • 概念干预(TTI)实验表明IB正则化版本对概念干预的响应更加可预测和可靠
  • 该方法解决了此前不同CBM评估中的不一致性问题,通过统一训练协议展示了鲁棒的增益

亮点与洞察

  • 理论优雅:将CBM的经验性问题(概念泄漏、准确率下降)统一到信息论框架下,用IB原理自然地给出解决方案
  • 架构无关:作为纯正则化方法,可以即插即用地应用到任何现有CBM变体中
  • 双重受益:既提升了预测准确率,又改善了概念层的忠实性,打破了"准确率vs可解释性"的常见trade-off
  • 信息平面验证:通过信息平面分析直观展示了正则化的效果,增加了方法的可信度

局限与展望

  • IB正则化的超参数 \(\beta\) 需要仔细调优,不同数据集和CBM变体可能需要不同的最优值
  • 变分方法需要对边际分布做高斯假设,可能在某些场景下不够灵活
  • 论文主要在中小规模视觉分类任务上验证,大规模和非视觉任务上的效果有待探索
  • 概念注释的获取成本仍然是CBM方法的通用瓶颈

相关工作与启发

  • vs 标准CBM (Koh et al., 2020): 标准CBM没有约束概念层的信息量,容易出现概念泄漏;IB正则化提供了原则性的解决方案
  • vs CEM (Zarlenga et al., 2022): CEM通过概念嵌入增加概念层表达能力,但缺乏信息压缩约束;IB正则化可叠加其上进一步提升
  • vs Deep VIB (Alemi et al., 2017): Deep VIB在一般分类中应用IB,本文专门化到CBM概念层,利用结构化特性设计更有效正则化

评分

  • 新颖性: ⭐⭐⭐⭐ 将信息瓶颈引入CBM是自然且优雅的,但核心技术(VIB)已有先例
  • 实验充分度: ⭐⭐⭐⭐ 六个CBM变体×三个基准的全面评估,信息平面分析增加了可信度
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,实验设置规范
  • 价值: ⭐⭐⭐⭐ 为CBM社区提供了简洁有效的通用改进工具,即插即用的特性实用性强