跳转至

Reliable Clustering Number Estimation for Contrastive Multi-View Clustering

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多视图聚类
关键词: 对比多视图聚类, 聚类数估计, 强化学习, 表征退化, JSD 视图加权

一句话总结

RCNMC 用一个 JSD 自适应加权的语义感知对比模块缓解低质量视图把高质量视图"拖垮"的表征退化,再把"猜聚类数 K"建模成马尔可夫决策过程、用强化学习在单次训练里自动推断 K,从而在不预设 K、不依赖真值的条件下,在 9 个多视图数据集上达到甚至超过用了真值 K 的对比方法。

研究背景与动机

领域现状:对比多视图聚类(contrastive MVC)的主流做法是给每个视图配一个编码器抽特征,把不同视图的特征当正/负样本对做对比学习对齐,再融合成一个全局判别表征,最后丢给 K-means 之类的算法按预设的聚类数 \(K\) 聚类。这一套深度方法在多个基准上已经显著超过传统方法。

现有痛点:这套流水线有两个被普遍忽视的硬伤。其一,它假设你事先知道真实的聚类数 \(K\)——可现实里 \(K\) 往往未知甚至本身就是个说不清的概念(比如拿到一批病人的多视图数据,根本不知道有几种病、自然也给不出 \(K\))。早期工作靠"换不同 \(K\) 反复跑聚类、再用无监督指标挑最优"来绕过,但在深度多视图场景每个 \(K\) 都要重训一遍,开销大到不实用。其二,多个视图的质量常常参差不齐:当某些视图含噪、质量低时,一味强调"视图间一致性对齐"会反噬——高质量视图被迫向低质量视图看齐,结果高质量视图自己的表征能力反而被削弱,作者称之为表征退化(representation degeneration)

核心矛盾:对比学习的"对齐一致性"在视图质量不均衡时和"保留高质量视图判别力"是冲突的;而"聚类需要预设 \(K\)"和"现实 \(K\) 未知"是另一组冲突。已有方法要么只解决其一,要么把两者割裂处理。

本文目标:在完全无监督、不给真值 \(K\) 的前提下,同时(1)抑制对比学习引起的表征退化,(2)自动可靠地估计聚类数 \(K\)

切入角度:作者注意到——视图与全局表征的"分布差异"可以用 Jensen–Shannon 散度(JSD)稳定度量,差异小说明这个视图语义和共识一致、质量高,应该在对比中被加强;而"找最优 \(K\)"本质是一个序贯决策问题,可以交给强化学习边训练边探索,用聚类的内聚/分离作为奖励,不必为每个候选 \(K\) 重训。

核心 idea:用 JSD 自适应视图加权的对比学习治"表征退化",用强化学习把聚类数估计建成 MDP 治"\(K\) 未知",两个模块在同一框架里互补。

方法详解

整体框架

RCNMC 的输入是 \(M\) 个视图的多视图数据 \(\{X^v\}_{v=1}^M\),输出是无需预设 \(K\) 的聚类结果与自动推断出的聚类数 \(\hat{K}\)。整条流水线分两大块:表征侧先把每个视图编码进共享隐空间,靠视图内重建保住各视图自身信息,再用语义感知对比学习(SACL)融合出全局表征 \(H\)、同时按 JSD 给视图动态加权;决策侧则在这个不断更新的表征上,把"选多少个簇"当成强化学习的动作,用质量网络 \(Q\) 评估每个候选 \(K\)、用聚类导向的奖励驱动,最终收敛到一个可靠的 \(\hat{K}\)。两块通过表征更新(编码器 loss)和状态转移(embedding/质心变化)耦合:编码器每被优化一次,状态就从 \(S_t\) 转到 \(S_{t+1}\),恰好对应 MDP 的状态转移。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视图输入<br/>{X¹...Xᴹ}"] --> B["视图内重建<br/>编码器Eᵥ + 解码器Dᵥ"]
    B --> C["语义感知对比学习<br/>JSD自适应视图加权"]
    C --> D["全局表征 H"]
    D --> E["聚类引导损失<br/>锐化分布KL对齐"]
    E -->|状态 St = embedding + 质心| F["RL聚类数估计<br/>质量网络Q + ε-greedy"]
    F -->|聚类导向奖励 Rt| F
    F --> G["自动推断 K̂<br/>+ 聚类结果"]
    E -.编码器loss LF更新.-> B

关键设计

1. 语义感知对比学习(SACL):用 JSD 给视图打分,让高质量视图主导对齐

针对"高质量视图被低质量视图拖垮"的表征退化痛点,SACL 把传统对比学习里"所有视图等权对齐"改成"按质量加权对齐"。先用非线性融合 MLP \(F\) 把各视图特征 \(\{Z_i^v\}\) 融成全局表征 \(H_i\),常规对比损失 \(l_{cl}(Z_i^v, H_i)\) 用余弦相似度把全局表征和各视图特征拉近。关键改动是给每个视图项乘上自适应权重:\(L_{sacl}=\sum_{v=1}^{M} W^v\, l_{cl}(Z_i^v, H_i)\)。权重 \(W^v\) 怎么来?作者用 JSD 度量视图表征 \(Z_i^v\) 与全局表征 \(H_i\) 的分布差异 \(D_{JSD}(Z_i^v, H_i)=\tfrac12 KL(P\|M)+\tfrac12 KL(Q\|M)\)\(M=\tfrac12(P+Q)\) 是混合分布),差异越小说明该视图越贴近共识、语义越可靠。再把负差异过 Softmax 归一化得到权重:\(W^v=\text{Softmax}(-D(Z_i^v,H_i))\)(原文写成 \(W^v = \frac{e^{1-D_{JSD}(Z_i^v,H_i)}-1}{\sum_j e^{1-D_{JSD}(Z_i^j,H_i)}-1}\) ⚠️ 指数里的 \(-1\) 形式以原文为准)。这样高质量视图拿到大权重、在对比中被加强,低质量视图被削弱,从根上避免了"被迫对齐噪声视图"导致的退化。实验里在 Synthetic3d 上能看到:训练初期权重明显倾向高质量的 View 1,随迭代各视图权重逐渐收敛、弥合语义差距。

2. 聚类引导损失:用锐化分布做自蒸馏,提升簇内聚合度

光有判别表征还不够,作者额外加了一个聚类引导损失把表征往"更聚拢"的方向推。在全局表征 \(H_i\) 上跑聚类算法(默认 K-Means)得到簇心 \(C\in\mathbb{R}^{K\times d}\) 和软分配 \(G_{ij}=\frac{(1+\|H_i-C_j\|^2)^{-1}}{\sum_{j'}(1+\|H_i-C_{j'}\|^2)^{-1}}\)(Student-t 核的软分配),再构造一个"锐化"的目标分布 \(X_{ij}=\frac{G_{ij}^2/\sum_i G_{ij}}{\sum_j G_{ij}^2/\sum_i G_{ij}}\),用 KL 散度把当前分配向锐化分布对齐:\(L_{clu}=KL(G\|X)=\sum_i\sum_j G_{ij}\log\frac{G_{ij}}{X_{ij}}\)。锐化分布会放大高置信度的分配、压低模糊分配,等于让模型对自己更确信的样本"加码",从而提升簇内紧致度。编码器总损失把三项合在一起联合优化:\(L_F=L_{clu}+L_{sacl}+L_{rec}\)\(L_{rec}\) 是视图内重建损失,保各视图自身信息不丢)。

3. 基于强化学习的聚类数估计:把"选 K"建成 MDP,单次训练推断最优簇数

这是治"\(K\) 未知"的核心模块,针对"逐个 \(K\) 重训太贵"的痛点,作者把选 \(K\) 建模成马尔可夫决策过程,一次训练就推断出来。四要素这样定义:状态 \(S_t=\{Z_t, C_t\}\) 同时包含样本 embedding 和簇心,兼顾局部与全局结构;转移靠编码器被 \(L_F\) 优化后 embedding 与簇心更新自然产生 \(S_t\to S_{t+1}\)动作由质量网络打分 \(q_t=Q(S_t)\) 给每个候选簇数评分,策略用 \(\epsilon\)-greedy 选 \(\hat{K}_t\)(以概率 \(\epsilon\)\(\arg\max q_t\)、否则随机探索,\(\epsilon\) 随训练逐渐增大以从探索转向利用);奖励是聚类导向的——

\[R_t = -\frac{1}{N}\sum_i \min_j M(Z_t[i], C_t[j]) + \frac{1}{\hat{K}_t^2}\sum_i\sum_j M(C_t[i], C_t[j])\]

第一项(负的样本到最近簇心距离)鼓励簇内紧致,第二项(簇心两两距离)鼓励簇间分离,\(M\) 是欧氏距离。训练用经验回放:把四元组 \((S_t,\hat{K}_t,S_{t+1},R_t)\) 收进缓冲区 \(B\),再最小化时序差分式的 RL 损失 \(L_Q=\frac{1}{t_e-t_s}\sum_t\big(R_t+\gamma\max Q(S_{t+1})-Q(S_t)[\hat{K}_t]\big)^2\)\(\gamma\) 是折扣因子)来训练 \(Q\)。整个过程只训练一遍,就能让 \(Q\) 学会评估不同簇数的好坏并收敛到最优 \(\hat{K}\),彻底省掉"每个候选 \(K\) 重训一次"的开销。

损失函数 / 训练策略

编码器 \(F\) 训练 400 epoch,最小化 \(L_F=L_{clu}+L_{sacl}+L_{rec}\);经验缓冲区填满后,质量网络 \(Q\) 训练 30 epoch、学习率固定 \(1e^{-3}\),最小化 \(L_Q\)\(F\) 学习率从 \(\{1e^{-5},1e^{-4},1e^{-3}\}\) 中选,缓冲区大小取 \(\{30,40,50\}\),初始贪婪率 \(\epsilon\in\{0.3,0.5,0.7\}\) 且训练中递增,折扣因子 \(\gamma=0.1\),底层聚类算法用 K-Means。

实验关键数据

主实验

在 9 个多视图数据集(MNIST-USPS、BDGP、Prokaryotic、Synthetic3d、CCV、Fashion、Cifar10、Cifar100、Caltech-XV)上,用 ACC / NMI / PUR 三指标,对比 8 个 SOTA 深度聚类方法。关键 caveat:ICMVC、MGBCC、DIVIDE 这些对比方法是喂了真值 \(K\) 的,RCNMC 没用任何 \(K\) 先验,因此这个对比对 RCNMC 是"不公平"的——但即便如此 RCNMC 仍达到或超过它们。

数据集 指标 RCNMC(无真值K) ICMVC(用真值K) MGBCC(用真值K)
MNIST-USPS ACC / NMI 0.981 / 0.955 0.922 / 0.910 0.879 / 0.876
BDGP ACC / NMI 0.992 / 0.938 0.988 / 0.963 0.970 / 0.912
Prokaryotic ACC / NMI 0.706 / 0.432 0.632 / 0.278 0.691 / 0.379
Fashion ACC / NMI 0.995 / 0.978 0.895 / 0.955 0.634 / 0.725
Cifar100 ACC / NMI 0.948 / 0.984 0.852 / 0.967 0.933 / 0.955
Caltech-4V ACC / NMI 0.855 / 0.755 0.823 / 0.726 0.523 / 0.459

与传统方法对比 + K 估计准确性

和参数化(K-Means◦、GMM◦,需预设 \(K\))及非参数化(DBSCAN•、DPCA•,自动估 \(K\))方法对比,RCNMC 不仅聚类指标全面领先,估出的 \(K\) 也更准

数据集 真值 K RCNMC 估计 K DBSCAN 估计 K DPCA 估计 K
MNIST-USPS 10 10 7 5
BDGP 5 5 8 4
Synthetic3d 3 3 5 6
Fashion 10 11 7 6
Cifar10 10 10 14 12
Cifar100 100 101 82 91

DBSCAN/DPCA 这类非参数方法在高维深度/图结构表征上估 \(K\) 偏差很大(Cifar100 真值 100 估成 82/91),RCNMC 几乎贴住真值。

消融实验

在 MNIST-USPS、BDGP、Prokaryotic、Synthetic3d 上逐项消融(聚类数估计模块是核心、不可移除,故只消 \(L_{rec}\) / \(L_{sacl}\) / \(L_{clu}\)):

配置 MNIST-USPS NMI BDGP NMI 说明
\(L_{rec}\) 0.498 0.542 只有重建,表征弱
\(L_{rec}+L_{sacl}\) 0.914 0.905 去掉聚类损失 \(L_{clu}\)
\(L_{rec}+L_{clu}\) 0.875 0.912 去掉语义对比 \(L_{sacl}\)
完整模型 0.955 0.938 三项齐全

关键发现

  • \(L_{sacl}\)\(L_{clu}\) 更关键:在 MNIST-USPS 上去掉 \(L_{clu}\) 仅掉 NMI 4.15%(0.955→0.914),去掉 \(L_{sacl}\) 掉 8%(0.955→0.875),说明语义感知对比学习对抑制表征退化贡献更大。
  • 错误 \(K\) 代价极高:在 BDGP 上把 \(K\) 错设为 2,ACC 仅 39.91%,而正确 \(K=5\) 时 ACC 达 99.2%——印证了自动估 \(K\) 的价值。
  • Elbow 法不可靠:Synthetic3d 上 WSS 曲线在 \(K=3\) 后骤降再平台、缺乏清晰拐点,容易误导;RCNMC 的 RL 估计则稳定命中真值。
  • 效率优势:传统 Elbow 需对每个候选 \(K\) 重训模型,RCNMC 单次训练内用 RL 推断 \(K\),训练时间显著更低。

亮点与洞察

  • 把"调超参 K"变成"学一个策略":最巧妙的地方是不再把聚类数当成需要外部搜索的超参,而是建成 MDP 让 \(Q\) 网络边训边学着评估候选簇数——奖励直接用聚类的内聚(样本到簇心)和分离(簇心间距)构造,无监督、可微动机清晰,单次训练就拿到 \(K\)。这个"用 RL 替代网格搜索超参"的思路可迁移到其他需要选离散结构超参的任务(如层数、码本大小)。
  • JSD 加权治表征退化:用视图-全局表征的 JSD 差异当质量代理、Softmax 成权重,是一个轻量但直击要害的设计——它把"哪些视图可信"这个无监督场景下很难判断的问题,转化成可计算的分布距离,且权重会随训练自适应收敛。
  • 诚实地承认对比"不公平":作者主动指出对手用了真值 \(K\)、自己没用,反而让"仍然超过"更有说服力。

局限与展望

  • 奖励设计偏好球状簇:奖励基于欧氏距离的内聚/分离,对非球状、流形结构的簇可能不友好(这恰是 DBSCAN 类方法的强项),论文未讨论这种场景。
  • 超候选范围的 \(K\)\(K\)\([2, N_K]\) 内搜索,\(N_K\) 的设置和大 \(K\)(如 Cifar100 的 100+)下的探索效率未充分分析;Fashion/Cifar100 估出 11/101 都略偏大 1,提示在簇数很多时仍有轻微高估。
  • 训练复杂度与稳定性:RL 模块引入 \(\epsilon\)-greedy、经验回放、折扣因子等多个超参,\(\epsilon\) 递增策略和缓冲区大小对最终 \(K\) 的敏感性论文给了取值范围但未做系统鲁棒性分析。
  • 改进思路:可把欧氏距离的奖励换成密度/连通性度量以适配非凸簇;或把 JSD 加权与 RL 状态进一步耦合(让视图权重也进入状态)。

相关工作与启发

  • vs 重复跑聚类选 K(Elbow/t-SNE 等):它们对每个候选 \(K\) 都要重训深度模型、开销大且依赖人工读拐点;RCNMC 用 RL 在单次训练里推断 \(K\),又快又自动,且不受"无明显拐点"困扰。
  • vs 非参数聚类(DBSCAN、DPCA、DeepDPM):这类方法虽无需预设 \(K\),但多为单视图设计、在高维深度/图结构表征上估 \(K\) 偏差大,且忽略多视图的语义异质性;RCNMC 面向多视图、表征更强、估 \(K\) 更准。
  • vs 常规对比 MVC(MFLVC、ICMVC、MGBCC、DIVIDE):它们等权对齐各视图、忽视表征退化且依赖真值 \(K\);RCNMC 用 JSD 自适应加权抑制退化,并自学 \(K\),在不用真值的劣势条件下仍达 SOTA。

评分

  • 新颖性: ⭐⭐⭐⭐ 把表征退化抑制与聚类数估计统一进一个 RL 框架、用 JSD 做视图加权,组合新颖且问题设定(同时解两难题)少有人做。
  • 实验充分度: ⭐⭐⭐⭐ 9 个数据集 + 与参数/非参数/深度方法多维对比 + 消融 + K 估计准确性 + 效率分析,较扎实;非球状簇与大 K 鲁棒性可再补。
  • 写作质量: ⭐⭐⭐ 思路清晰、公式齐全,但部分符号(如 \(W^v\) 指数式)排版含糊,需对照原文确认。
  • 价值: ⭐⭐⭐⭐ "无需预设 K 的多视图聚类"贴合医疗等现实场景,RL 估 K 的思路有迁移价值。