Calibrated Information Bottleneck for Trusted Multi-modal Clustering¶

会议: ICLR2026
OpenReview: iedlZOdI0d
代码: https://shizhehu.github.io/
领域: 自监督 / 多模态聚类 / 表示学习
关键词: 信息瓶颈, 多模态聚类, 置信度校准, 伪标签筛选, 可信聚类

一句话总结¶

针对信息瓶颈（IB）多模态聚类高度依赖"准确的互信息估计 + 干净伪标签"这两件做不到的事，本文提出 CLIB——用"一个主聚类头 + 多个模态校准头"的并行多头结构，让模态间互相纠偏，再配上一个基于信息冗余度的动态伪标签筛选机制，既把聚类准确率（Caltech-3V 上 ACC 77.8%）做上去，又把过自信问题（ECE 在多个数据集上腰斩）压下来。

研究背景与动机¶

领域现状：信息瓶颈理论把表示学习刻画成"压缩 vs 保真"的权衡——为输入 \(X\) 学一个压缩表示 \(T\)，目标是 \(L_{\min} = I(X;T) - \beta I(T;Y)\)，即一边压掉无关信息（最小化 \(I(X;T)\)），一边保住对目标 \(Y\) 有判别力的信息（最大化 \(I(T;Y)\)）。因为 IB 天生擅长"提纯"特征，近年被大量搬进多模态聚类，用来从多模态数据里剔除冗余和噪声、保留共享语义。

现有痛点：把 IB 直接用到多模态聚类有两个绕不开的硬伤。其一，IB 的效果完全取决于"可靠的目标变量 \(Y\)"，但在无监督聚类里根本没有真标签，只能用模型自己产生的伪标签顶替；而伪标签在训练早期又脏又乱，于是形成恶性循环——烂伪标签 → 烂表示 → 更烂的伪标签，初始误差被一轮轮放大，模型对错误预测越来越自信（过自信）。其二，IB 的核心是互信息估计，但对图像/文本这种高维复杂数据，互信息根本无法精确计算，现有估计器（MINE、变分下界、对比式）都有系统性偏差，且大多只在简单的多元正态分布上验证过，到了真实数据上误差不可控。

核心矛盾：现有 IB 聚类方法都默认"互信息能估准、伪标签能用"，但这两个前提在高维无监督场景下同时失效；更糟的是，没人去管聚类结果的"可信度"——模型预测置信度远超实际准确率，在医疗诊断、自动驾驶这类安全攸关场景里这是致命的。而经典校准手段（温度缩放需要带标签的验证集、标签平滑会过度惩罚高置信样本）又都依赖监督信号，在聚类里用不了。

本文目标：在没有真标签的前提下，同时解决三件事——(1) 校正互信息估计偏差导致的 IB 失稳；(2) 从多模态构造可靠的目标变量喂给 IB；(3) 产出一个既准又"诚实"（不过自信）的聚类结果。

切入角度：作者的关键观察是——既然单一模态的互信息可能估歪，那就别指望"估准"，转而用多模态互相校准来对冲偏差：某个模态估偏了，可以靠其他模态的信息把它纠回来。同时把伪标签当成需要"挑"的对象而非照单全收，用信息冗余度（分布有多"尖锐"）来判断哪些伪标签可信。

核心 idea：用"主聚类头 + 模态校准头"的并行多头结构做模态间互校准，配合基于信息冗余度的动态伪标签筛选，把校准信号经梯度回传给 IB，从而在无监督下隐式构造高质量目标变量，得到准确且可信的聚类。

方法详解¶

整体框架¶

CLIB 要解决的是"无监督多模态聚类下，IB 缺可靠目标变量、互信息又估不准"的问题。整体流程是：先用 IB 从每个模态 \(X^m\) 抽出紧凑特征 \(H^m\)，再自适应加权融合成统一表示 \(H^f\)；然后开两路头——每个模态各接一个校准头（只看单模态特征），融合表示接一个聚类头（产出最终结果）；校准头先各自给出单模态聚类概率，经一个信息冗余度筛选机制挑出高质量伪标签，去监督聚类头；聚类头的梯度不切断，反过来把"校准信号"回传到 IB，相当于在无监督下替 IB 隐式构造了目标变量。整套训练分两阶段：先 100 epoch 预热 IB（只学特征），等特征稳定后再 100 epoch 引入校准模块，避免早期噪声污染校准。总损失为

\[L_{total} = L_{IB} + \alpha L_{Cal}\]

其中 \(\alpha\) 平衡特征提取与校准强度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模态输入<br/>X¹…Xᴹ"] --> B["IB 表示学习<br/>压缩+对齐→Hᵐ，加权融合→Hᶠ"]
    B --> C["模态校准头<br/>每模态各一个，看单模态特征"]
    B --> E["聚类头<br/>看融合特征 Hᶠ，出最终结果"]
    C --> D["动态伪标签筛选<br/>按信息冗余度挑高质量伪标签"]
    D -->|高质量伪标签监督| E
    E -->|梯度回传校准信号| B
    E --> F["可信聚类结果<br/>高 ACC + 低 ECE"]

关键设计¶

1. 信息瓶颈表示学习：压缩单模态、对齐跨模态、再保信息融合

这一步针对"如何从多模态抽出既紧凑又判别的特征"这个底座问题。每个模态先做压缩+对齐：

\[L_C = \sum_{i=1}^{M} I(X^i, H^i) - \sum_{i=1}^{M}\sum_{j=i+1}^{M} I(H^i, H^j)\]

第一项 \(I(X^i,H^i)\) 是压缩项，最小化它逼网络丢掉输入里的无关信息；第二项 \(-I(H^i,H^j)\) 是对齐项，最大化不同模态表示间的互信息，逼各单模态编码器学到共享语义空间（共享语义被假设为有判别力的部分）。融合采用自适应加权平均 \(H^f = \sum_m w^m H^m\)（\(\sum_m w^m = 1\)，权重可学），让模型按各模态对聚类的贡献动态调权。为防止融合表示丢掉模态私有信息，再加一个信息保真项最大化每个模态与融合表示的互信息：\(L_P = \sum_m I(H^m; H^f)\)。合起来 \(L_{IB} = L_C - \beta L_P\)——\(\beta\) 大则更重融合（牺牲单模态纯度），\(\beta\) 小则更重压缩（牺牲融合里的模态保真）。这一设计的价值在于：它给后续校准提供了一个"压缩干净 + 跨模态对齐 + 又保住私有信息"的特征底座。

2. 并行多头校准结构：让模态当"专家"互相纠偏，且不让噪声污染瓶颈

这是全文的核心，直接对冲"单模态互信息估偏"的痛点。每个校准头是一个只观察单模态特征的"专家"，负责学该模态的聚类概率分布、并感知该模态当前学得好不好（分布越尖锐说明该模态越有判别力、学得越充分）。训练校准头时，作者先在融合特征空间跑 K-Means 得到 \(C\) 个伪簇 \(Q_c\)，对每个伪簇内样本求聚类头输出的均值 \(\hat{q}_c = \frac{1}{|Q_c|}\sum_{x_i\in Q_c} p_i^{clu}\) 作为软目标——这种"簇内平均"利用了特征空间的邻域结构，把单样本预测的噪声抹平，给校准头一个更稳的监督信号。校准损失为

\[L_{caliH} = -\frac{1}{B}\sum_C \sum_{x_i\in Q_c}\sum_{m=1}^{M} \hat{q}_c \log(p_{i,m}^{cal})\]

再加一个熵正则 \(L_{re} = \frac{1}{M}\sum_m \bar{p}_m^{cal}\log(\bar{p}_m^{cal})\)（\(\bar p_m^{cal}\) 是该校准头在整个 batch 上的平均预测分布）防止平凡解/模型坍缩。

这里有个关键工程决策：校准头到瓶颈的梯度被切断（stop-gradient）。因为每个校准头只看单模态、可能带噪或与其他模态冲突，若让它的梯度回传到瓶颈，会逼瓶颈同时满足多个互相矛盾的目标，导致训练不稳、特征学习方向混乱——消融实验（设置 II）证实了这点。所以校准头只在自己这一支学，靠下面的聚类头去回传干净的信号。

3. 基于信息冗余度的动态伪标签筛选：先学简单可靠的样本，再逐步放开

这一步专治"伪标签又脏又乱拖垮 IB"。作者用信息冗余度衡量一个概率向量有多"尖锐"：\(R(P) = 1 - \frac{H(P)}{H_{max}}\)，one-hot 向量 \(R=1\)（最可信），均匀分布 \(R=0\)（分不清属于哪簇）。本文用的是它的一个变体作为单样本质量分：

\[S(P) = 1 - \frac{H(P)}{2 \times H_{max}}\]

计算质量分时按 top 概率值排序，从模态 \(m\) 里选前 \(K_m^{sel} = \lfloor \sum_{i=1}^N S(p_{i,m})\rfloor\) 个样本进伪标签集 \(\mathcal{S}\)。妙处在于这个 \(K\) 是动态自适应的：训练初期模型不自信、质量分普遍低、被选样本少，模型只从"简单可靠的结构"学起；随训练推进置信度上升、质量分变高、选入样本自然增多，逐步接触更难更多样的数据。这就避免了对难样本过早做"过自信的错误判断"。

4. 聚类头回传校准信号 + KL 一致性约束：在无监督下给 IB 隐式造目标变量，并压低过自信

筛出高质量伪标签后，聚类头（不切断梯度）用它优化：\(L_{cluH} = -\frac{1}{|\mathcal{S}|}\sum_{x_i,m\in\mathcal{S}} y_{i,m}\log(p_i^{clu})\)。由于聚类头作用在融合特征上、其目标天然与 IB 对齐，允许它的梯度回传意味着主干的更新信号主要来自"融合特征好不好用"，从而激励主干去学"最利于融合"而非"单模态最优"的表示——这等于在无监督场景里隐式给 IB 构造了高质量目标变量（论文用 Theorem 1 论证：筛选机制让聚类头可以对某模态的伪标签"多学或少学"，从而自主纠正互信息估偏的模态）。最后再加一致性损失 \(L_{con} = \sum_m D_{KL}(p_{:,m}^{cal} \| p^{clu})\)：当不同模态对同一样本给出冲突的聚类结果时，它逼模型输出更"平"的分布、诚实表达不确定性，从而有效降低 ECE，让框架变得可信。整个校准损失 \(L_{Cal} = L_{caliH} + L_{re} + L_{cluH} + L_{con}\)。

损失函数 / 训练策略¶

两阶段训练：第一阶段 100 epoch 预热 IB 稳定特征提取，第二阶段 100 epoch 才引入校准模块，避免早期噪声进入校准支路传播错误信号。
互信息优化：压缩项 \(I(X^i,H^i)\) 用变分上界 \(I(X^i;H^i) < \frac{1}{M}\sum_i \mathbb{E}_{\theta_i}\{D_{KL}[p(x_i|h_i)\|q(x_i)]\}\)，最小化上界即最小化互信息；对齐项 \(I(H^i,H^j)\) 转成 NT-Xent 对比损失下界 \(I(H^i,H^j)\ge \log(N) - L_{NT\text{-}Xent}\) 来最大化；\(L_P\) 用神经网络估计器（MINE 类）近似高维互信息。
总目标 \(L_{total} = L_{IB} + \alpha L_{Cal}\)，\(\alpha,\beta\) 均在 \((0,1)\) 内调。

实验关键数据¶

主实验¶

五个多模态基准（Caltech-2V/3V、ESP-Game、MIRFlickr、IAPR），MLP 作 backbone，对比 4 个传统 + 11 个最新多模态聚类方法。指标用 ACC、NMI（越高越好）和 ECE（越低越可信）。CLIB 在全部五个数据集的三项指标上都拿到最优。

数据集	指标	CLIB	次优	提升
Caltech-3V	ACC	77.8%	DIVIDE 71.6%	+6.2%
Caltech-3V	NMI	69.3%	MVCAN 62.6%	+6.7%
ESP-Game	ACC	56.3%	MFLVC 52.1%	+4.2%
MIRFlickr	ACC	55.4%	MFLVC 53.8%	+1.6%
IAPR	ACC	51.6%	COPER 47.2%	+4.4%
IAPR	ECE	7.8%	MVCAN 22.4%	误差约降至 1/3

ECE 上优势尤其明显：ESP-Game、MIRFlickr 上 ECE 相比此前最优腰斩还多（12.1% / 10.5%），IAPR 上 7.8% 近乎是次优的三分之一——说明 CLIB 不仅准，还显著缓解了过自信。（注：KM、DIVIDE 这类硬聚类方法 ECE 标 N/A，因为对其框架无意义。）

消融实验¶

配置	Caltech-3V ACC / ECE	说明
\(L_{IB}+L_{cluH}\)	60.6 / 25.5	只有 IB + 聚类头基线
\(+\,L_{re}\)	64.6 / 19.5	加熵正则，防坍缩、降 ECE
\(+\,L_{caliH}\)	67.8 / 11.6	加校准头，筛高质量伪标签，ACC↑ECE↓双赢
\(+\,L_{con}\)	61.1 / 12.4	加一致性约束，主要降 ECE、聚类增益有限
I. 去掉 IB 预热	61.7 / 15.1	一上来就校准引入大量噪声，性能退化但未崩
II. 校准头梯度回传瓶颈	65.9 / 13.5	模态私有冗余信息污染瓶颈，性能下滑
CLIB（完整）	77.8 / 10.9	各组件协同后大幅领先

关键发现¶

\(L_{caliH}\)（校准头 + 伪标签筛选）贡献最大：它同时拉高 ACC、压低 ECE，是"准 + 可信"双赢的主力。
stop-gradient 是必要的：设置 II 让校准头梯度回传瓶颈，反而把模态私有冗余信息灌进 IB、损害特征质量，验证了切断梯度的设计。
IB 预热不可少：去掉预热（设置 I）会让噪声从一开始就涌入校准，性能退化——但因为有伪标签筛选兜底，模型没有彻底崩溃，反过来也印证了筛选机制的过滤能力。
\(L_{con}\) 是 trade-off 旋钮：它主降 ECE、对 ACC 增益有限（IAPR 上甚至从 39.1% 微降到 37.8%，因为它阻止模型对模糊样本"大胆猜"）。安全攸关场景建议调大它换可信度，重准确率场景调小它。
参数不敏感：\(\alpha,\beta\) 在 \((0,1)\) 网格搜索下 ACC 方差均在 20% 内（平均峰谷差 17.87%）；引入校准（第 101 epoch）后约 40 epoch 内三项指标即稳定，收敛快且稳。

亮点与洞察¶

"别追求估准、而是互相纠偏"的范式转换：现有 IB 方法都在卷"如何把互信息估得更准"，CLIB 反其道——承认估计必然有偏，用多模态互校准对冲偏差。这个思路把一个"估计精度"问题转成了"系统鲁棒性"问题，很值得迁移到其他依赖不可靠估计量的任务。
把"可信/校准"显式写进无监督聚类目标：作者指出温度缩放、标签平滑都依赖监督信号、在聚类里失效，于是用 KL 一致性损失"当模态冲突就输出平分布"来诚实表达不确定性——这是第一个把 ECE 显式纳入多模态聚类优化目标的工作，对安全攸关落地有现实意义。
信息冗余度做伪标签质量分 + 动态 \(K\)：用分布的"尖锐度"\(S(P)=1-\frac{H(P)}{2H_{max}}\) 当置信度代理，且选取数量随训练自适应增长，自然实现了一种课程学习（先易后难），这个无参的筛选器可直接搬到其他自训练/伪标签框架。
stop-gradient 的精巧用法：校准头切断梯度、聚类头保留梯度，等于让"脏的单模态信号"只在自己支路打转、只让"干净的融合信号"回传塑造瓶颈，是一个很有借鉴价值的多头训练工程技巧。

局限与展望¶

只能处理完整、单标签数据：作者明确承认 CLIB 当前无法应对缺失模态或多标签场景，未来计划把校准机制扩展到缺失模态与多标签关联。
依赖预定义簇数 \(C\)：和多数聚类方法一样需要事先给定簇数，限制了灵活性；作者展望做自适应确定簇数的方法。
估计器不能从根上失效：校准能纠正"有偏"的估计，但若估计器一开始就完全失效、IB 抽不出任何有意义特征，框架也无能为力——所以仍需为具体目标选用最合适的现有估计器提供良好初始特征。
数据集规模偏小：实验都在 1k–12k 量级的经典多模态聚类基准上，更大规模、模态更异构（如真实视频-音频-文本）场景下的表现有待验证。
两阶段 + 跑 20 次取最优：训练需 200 epoch 两阶段、且为避局部最优跑 20 次选"最低 loss 下最高 ACC"，实际部署成本与稳定性还有优化空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把"校准/可信"显式引入 IB 多模态聚类，用多模态互校准对冲互信息估偏，范式新颖。
实验充分度: ⭐⭐⭐⭐ 五数据集三指标全面领先 + 完整消融 + 参数/收敛分析，但数据集规模偏小、缺更异构大规模验证。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、三大设计层层递进，理论（3 个定理）与实验呼应，个别符号（\(L_{re}\) 与文中 \(L_{en}\)）略有出入。
价值: ⭐⭐⭐⭐ 把"可信聚类"做进无监督多模态场景，对安全攸关落地有现实意义，筛选器与 stop-gradient 技巧可复用。