There Was Never a Bottleneck in Concept Bottleneck Models¶

会议: ICLR 2026
arXiv: 2506.04877
代码: 无（根据论文描述）
领域: 可解释性 / 概念瓶颈模型
关键词: 概念瓶颈模型, 信息瓶颈, 信息泄漏, 可干预性, 表征学习

一句话总结¶

指出概念瓶颈模型（CBM）实际上并不存在真正的"瓶颈"——表征变量 \(z_j\) 能预测概念 \(c_j\) 不意味着它只编码 \(c_j\) 的信息。提出 MCBM（Minimal Concept Bottleneck Model），通过信息瓶颈正则化约束每个 \(z_j\) 仅保留对应概念的信息，实现真正的解耦表征和可靠的概念干预。

研究背景与动机¶

CBM 的承诺：通过让表征的每个分量 \(z_j\) 预测一个可理解的概念 \(c_j\)，提供可解释性和可干预性
信息泄漏问题：\(z_j\) 预测 \(c_j\) 不等于 \(z_j\) 只编码 \(c_j\)。极端情况下，\(z_j\) 可能编码整个输入 \(\mathbf{x}\) 仍然满足 CBM 约束
两个后果：
可解释性受损：\(z_j\) 不能用 \(c_j\) 完全解释
干预无效：修改 \(z_j\) 不仅改变 \(c_j\)，还影响其中编码的其他信息
CBM 干预的理论缺陷：CBM 中没有从 \(c_j\) 到 \(z_j\) 的有向路径，\(p(z_j|c_j)\) 在图模型中未定义。现有的干预通过 sigmoid 逆函数的经验分位数近似，是 ad-hoc 的。

CBM vs MCBM 核心区别¶

	VM	CBM	MCBM
\(z_j\) 编码全部 \(c_j\)？	✗	✓	✓
\(z_j\) 仅编码 \(c_j\)？	✗	✗	✓

方法详解¶

整体框架¶

MCBM 在标准 CBM 之上补一个被遗漏的约束：不仅要让每个表征分量 \(z_j\) 预测对应概念 \(c_j\)，还要让 \(z_j\) 在给定 \(c_j\) 之后不再携带关于输入 \(\mathbf{x}\) 的任何残余信息。这一约束以一项信息瓶颈正则化的形式加进训练目标，把 \(z_j\) 压成 \(c_j\) 的最小充分统计量，从而让"修改 \(z_j\)"和"干预 \(c_j\)"严格对应起来。

关键设计¶

1. 数据生成假设：把泄漏的源头显式建模出来

论文先假定一个生成过程 \(p(\mathbf{x}, \mathbf{y}, \mathbf{c}, \mathbf{n}) = p(\mathbf{x}|\mathbf{c}, \mathbf{n})\, p(\mathbf{y}|\mathbf{x})\, p(\mathbf{c}, \mathbf{n})\)，输入 \(\mathbf{x}\) 同时由可标注的概念 \(\mathbf{c}\) 和未标注的 nuisance \(\mathbf{n}\) 决定，而 nuisance 又进一步拆成与任务相关的 \(\mathbf{n}_y\) 和与任务无关的 \(\mathbf{n}_{\bar{y}}\)。之所以要这样细分，是因为 CBM 的"泄漏"本质就是 \(z_j\) 把这些本该被瓶颈挡在外面的 nuisance 也编码了进去；只有把 nuisance 显式写出来，才能用信息量精确刻画"该留什么、该扔什么"。

2. 三个信息论目标：从充分到最小的递进

MCBM 的优化由三条互补的信息量约束组成，逐级把表征收紧。第一条是所有变体共有的任务充分性，最大化 \(I(Z;Y)\)，对应最大化 \(\max_{\theta, \phi} \mathbb{E}_{p(\mathbf{x}, \mathbf{y})}[\mathbb{E}_{p_\theta(\mathbf{z}|\mathbf{x})}[\log q_\phi(\hat{\mathbf{y}}|\mathbf{z})]]\)，保证表征能预测标签。第二条是 CBM 也有的概念充分性，最大化 \(I(Z_j; C_j)\)，写成 \(\max_{\theta, \phi} \mathbb{E}_{p(\mathbf{x}, c_j)}[\mathbb{E}_{p_\theta(z_j|\mathbf{x})}[\log q_\phi(\hat{c}_j|z_j)]]\)，要求 \(z_j\) 足以解码出 \(c_j\)。真正区分 MCBM 的是第三条，最小化条件互信息 \(I(Z_j; X | C_j)\)，用 KL 散度近似为 \(\min_{\theta, \phi} \mathbb{E}_{p(\mathbf{x}, c_j)}[D_{KL}(p_\theta(z_j|\mathbf{x}) \| q_\phi(\hat{z}_j|c_j))]\)。它强制 \(z_j\) 在已知 \(c_j\) 后对 \(\mathbf{x}\) 不再有任何额外信息，等价于让 Markov 链 \(X \leftrightarrow C_j \leftrightarrow Z_j\) 成立——前两条只保证 \(z_j\)"足够"编码 \(c_j\)，第三条才保证它"仅仅"编码 \(c_j\)，这正是 CBM 缺失的那个瓶颈。

3. 有理论根基的干预：让改 \(z_j\) 等于改 \(c_j\)

标准 CBM 里并不存在从 \(c_j\) 到 \(z_j\) 的有向路径，\(p(z_j|c_j)\) 在图模型中根本没有定义，所以现有干预只能用 sigmoid 逆函数的经验分位数去近似，是临时拼凑的。MCBM 优化完第三个目标后，\(z_j\) 只剩 \(c_j\) 的信息，干预直接落到 \(p(z_j|c_j) = q_\phi(z_j|c_j)\) 上：替换 \(z_j\) 就严格对应于把概念设成目标值，不会顺带改动其它被偷偷编码的信息，可干预性因此从"近似"升格为"精确"。

4. 概念条件的表征头与随机编码器：把 KL 项做成可训练形式

为了让第三个目标里的 \(q_\phi(\hat{z}_j|c_j)\) 有具体形式，论文按概念类型设计原型化的表征头：二值概念取 \(g_\phi^z(c_j) = \lambda\)（\(c_j=1\)）或 \(-\lambda\)（\(c_j=0\)），多类概念取 \(g_\phi^z(c_j) = \lambda \cdot \text{one\_hot}(c_j)\)，连续概念取 \(g_\phi^z(c_j) = \lambda \cdot c_j\)，相当于为每个概念值学一个原型锚点。编码器则用随机版本 \(p_\theta(\mathbf{z}|\mathbf{x}) = \mathcal{N}(\mathbf{z}; f_\theta(\mathbf{x}), \sigma_x^2 I)\)，配合重参数化技巧训练；在这一高斯假设下，KL 正则项退化为表征到原型的简单 MSE，使整套信息瓶颈约束落地为容易优化的损失。

损失函数 / 训练策略¶

把三个目标合并，MCBM 的总训练目标为

\[\max_{\theta, \phi} \sum_{k=1}^N \sum_i \log q_\phi(\hat{\mathbf{y}}|f'_\theta(x^{(k)}, \epsilon^{(i)})) + \beta \sum_{j=1}^n \log q_\phi(\hat{c}_j|f'_{\theta,j}(\mathbf{x}^{(k)}, \epsilon^{(i)})) - \gamma \sum_{j=1}^n D_{KL}(p_\theta(z_j|\mathbf{x}^{(k)}) \| q_\phi(\hat{z}_j|c_j^{(k)}))\]

其中第一项是任务预测损失，第二项是以 \(\beta\) 加权的概念预测损失，第三项是以 \(\gamma\) 加权的信息瓶颈正则化——也是 MCBM 独有的部分。\(\gamma\) 控制解耦的强度：调大它能把 nuisance 泄漏逼向零，但同时会丢掉 \(\mathbf{n}_y\) 里对任务有用的信息，因此它本质上是在"概念纯度"和"任务精度"之间做权衡的旋钮。

实验结果¶

信息泄漏度量：URR（不确定性缩减比）¶

衡量 \(z\) 中编码了多少超出概念集的 nuisance 信息（越低越好）。

任务相关 nuisance 泄漏¶

方法	MPI3D	Shapes3D	CIFAR-10	CUB	AwA2
Vanilla	35.0	45.5	19.8	3.8	1.5
CBM	28.1	18.1	18.5	3.8	1.4
CEM	43.2	15.8	27.2	3.9	1.1
ECBM	25.2	47.1	18.1	4.5	1.1
MCBM (high γ)	0.0	0.0	17.6	2.4	0.7

任务无关 nuisance 泄漏¶

方法	MPI3D	Shapes3D
Vanilla	11.3	42.7
CBM	7.4	20.6
CEM	15.5	40.9
MCBM (任意 γ)	0.0	0.0

关键发现¶

CEM 和 ECBM 反而加剧泄漏：在某些数据集上泄漏比 Vanilla 模型还多
MCBM 彻底消除泄漏：high γ 下所有数据集上 nuisance 信息降至 0
ARCBM 和 HCBM 无系统优势：相比标准 CBM 并未更好地控制泄漏
代价：MCBM 的任务准确率略有下降——因为排除了 \(\mathbf{n}_y\) 中对任务有用的信息

亮点与洞察¶

根本性的概念批判：指出 CBM 名不副实——从未有过真正的"瓶颈"
信息瓶颈的自然引入：用 \(I(Z_j; X | C_j) = 0\) 精确形式化"仅编码概念"
CBM 干预的理论缺陷分析（Section 5）：证明 CBM 的干预假设在概率论上不成立
实用的 KL 散度正则化：在高斯假设下退化为简单的 MSE 损失
解耦表征的可视化：MCBM 的表征空间中，同概念值的样本紧密聚类

局限性¶

任务准确率和概念纯度之间存在固有权衡：概念集不完整时，排除 nuisance 必然降低性能
需要概念标注——与所有 CBM 方法共享此限制
连续概念的处理依赖高斯假设
超参数 \(\gamma\) 需要调节以平衡解耦程度和任务性能
尚未在更大规模模型或更复杂任务上验证

评分¶

创新性: ⭐⭐⭐⭐⭐ — 对 CBM 领域的根本性重新审视
技术深度: ⭐⭐⭐⭐ — 信息论形式化严谨，变分推导清晰
实验充分性: ⭐⭐⭐⭐ — 5 个数据集，8+ 种方法对比，多角度分析
实用价值: ⭐⭐⭐⭐ — 为真正可解释的概念模型提供原则性解决方案