跳转至

Explainable K-means Neural Networks for Multi-view Clustering

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ljM1HTSH9c
代码: 待确认
领域: 可解释性 / 多视图聚类 / 表示学习
关键词: 多视图聚类, K-means, 核 K-means, 可解释神经网络, 子空间学习, 三层优化

一句话总结

把多视图聚类拆成"线性聚类 → 非线性聚类 → 多视图融合"三层优化子问题,每层都由 K-means / 核 K-means 目标实现,组装成一个每层作用都可解释的 EKNN 网络,从而在效果、效率、完整性、一致性四个维度上同时取得平衡。

研究背景与动机

领域现状:多视图聚类要把来自不同视图(不同特征/模态)的数据点聚成簇。经典 K-means 计算成本低,但只能处理线性可分簇;核 K-means、谱聚类等非线性方法靠计算所有点对相似度来识别任意形状簇,效果好却空间/时间开销大,在大规模数据上吃不消。

现有痛点:① 多数方法只盯着 effectiveness(聚类质量),效率提升不明显;② 非线性方法用全部数据点表示一个簇,开销高;用"多中心"近似又对中心选择敏感;③ 多视图场景下,一致性(consistency)与完整性(completeness)是公认两大原则,但现有工作无法同时兼顾效果、效率、一致性、完整性这四件事

核心矛盾:非线性可分簇要好效果就得算全部点对相似度(贵),要效率就得用线性近似(不准),二者在多视图设定下还要叠加跨视图一致性/完整性,四个目标互相牵制。

本文目标:在一个可解释框架内同时平衡效果、效率、完整性、一致性,做大规模数据上的非线性多视图聚类。

核心 idea【关键观察】 复杂数据集里不同簇在全局几何空间非线性可分,但在局部几何空间线性可分——即"若干个小的线性可分簇拼成一个非线性可分簇"。【三层分解】 基于这一假设,把多视图聚类显式拆成三个子问题:1) 对原始数据点做线性聚类(降数据规模、保效率);2) 在线性簇集合上做非线性聚类(保效果);3) 跨视图整合各自的划分矩阵做多视图聚类(保完整性+一致性)。【K-means 即卷积】 每个子问题都用 K-means / 核 K-means 目标定义,K-means 在网络里扮演 CNN 里卷积的角色,由此构造出 EKNN,每一层物理含义已知,整体可解释。

方法详解

整体框架

EKNN 把多视图聚类建模成三层优化问题,对每个视图 \(v\) 串起三层 K-means 风格的层:先用自表示得到子空间表示 \(\Theta^v\),再依次做线性聚类层、非线性聚类层、多视图聚类层,最后用一个共享划分矩阵 \(H\) 把所有视图的结果绑在一起。三层联合目标用 K-means 式的迭代算法交替求解,每层的输入、变量、损失都有明确物理含义,所以网络可解释。

flowchart LR
    X["多视图数据 X^v"] --> SR["自表示子空间<br/>Θ^v (X^v=X^vΘ^v)"]
    SR --> L["线性聚类层 (K-means)<br/>f_L = ‖Θ^v − W^v V^v‖²"]
    L --> N["非线性聚类层 (核 K-means)<br/>f_N = Tr(K^v) − Tr(Û^vᵀ K^v Û^v)"]
    N --> M["多视图聚类层 (K-means)<br/>f_M = ‖W^v Û^v − H G^v‖²"]
    M --> H["共享划分矩阵 H<br/>(完整性 + 一致性)"]
    H --> R["最终聚类结果"]

关键设计

1. 线性聚类层:用局部线性簇压缩数据,把"效率"做进框架。 对每个视图先做自表示子空间学习,约束 \(X^v = X^v\Theta^v\) 得到能揭示底层簇结构的子空间表示 \(\Theta^v\),再在其上做 K-means:\(f_{Lv} = \lVert \Theta^v - W^v V^v \rVert_F^2\),其中 \(W^v \in \mathbb{R}^{n\times p}\) 是数据点到 \(p\) 个线性簇的划分矩阵,\(V^v\) 是簇中心矩阵。关键约束是线性簇数 \(p\) 远大于真实簇数 \(k\)——这一步把 \(n\) 个点压成 \(p\) 个局部线性簇("几个线性簇拼成一个非线性簇"),后续非线性聚类只需在 \(p\) 个簇上算,而不是 \(n\) 个点上算,效率由此而来。作者指出这一层其实是两子层:一层负责 \(X^v = X^v\Theta^v\),一层负责重构损失。

2. 非线性聚类层:在线性簇集合上做核 K-means,把"效果"做进框架。 第二层对线性簇中心 \(V^v\) 做核 K-means:\(f_{Nv} = \lVert \Phi(V^v) - U^v Z^v \rVert_F^2 = \mathrm{Tr}(K^v) - \mathrm{Tr}\big((\hat U^v)^\top K^v \hat U^v\big)\),其中 \(U^v \in \mathbb{R}^{p\times k}\)\(p\) 个线性簇划到 \(k\) 个非线性簇,\(K^v\)\(V^v\) 的高斯核矩阵,\(\hat U^v = U^v (D^v)^{-1/2}\) 是归一化划分。因为核运算只作用在 \(p\) 个线性簇而非全部 \(n\) 个点上,既保留了识别任意形状簇的非线性能力,又把核 K-means 高昂的 \(n\times n\) 相似度开销降到 \(p\times p\),这是"既要效果又要效率"的关键折中。

3. 多视图融合层 + 共享 \(H\):用重构把"完整性"和"一致性"做进框架。 第三层把每个视图的线性+非线性划分 \(W^v\hat U^v\) 通过线性映射 \(G^v\) 对齐到一个所有视图共享的划分矩阵 \(H \in \mathbb{R}^{n\times k}\)\(f_{Mv} = \lVert W^v\hat U^v - HG^v \rVert_F^2\)。当 \(W^v\hat U^v\) 固定时这一项就退化成经典 K-means。"强制各视图都重构出同一个 \(H\)"间接实现了一致性,而 \(H\) 聚合了各视图信息则带来完整性。三层加权组合成总目标 \(\min_H F = \sum_v \alpha f_{Lv} + \beta f_{Nv} + \gamma f_{Mv}\),并加上自表示重构项 \(\eta\lVert X^v - X^v\Theta^v\rVert_F^2\) 与核范数正则 \(\mu\lVert\Theta^v\rVert_*\)(抑噪 + 保类内同质性),用 K-means 式迭代交替优化。

4. 可解释性与子空间扩展:把"explainable"落到模型设计而非事后解释。 不同于多数 XAI 用 post-hoc(可视化/文本/特征相关性)解释黑盒,EKNN 的可解释来自模型设计本身——表达为两层透明性:模型可分解性(输入即原始数据、学到的变量都有清晰物理含义、损失就是 K-means/核 K-means)与算法透明性(动态行为与误差曲面可数学推导)。K-means 与核 K-means 本身是 EKNN 的特例。作者进一步把 EKNN 扩展到多视图子空间学习:引入基于 \(H\) 的共享子空间表示 \(\Theta^C\)(约束 \(H = H\Theta^C\)),用 ADMM 引入辅助变量 \(R'\) 与乘子 \(Y'\) 求解,最后对学到的 \(\Theta^C\) 跑谱聚类得到结果——更复杂的映射带来更好的效果。

实验关键数据

主实验表格(ACC% ± STD%)

7 个数据集(COIL20/ORL/BBCSport/Reuters/Football/ANIMAL/NoisyMNIST),对比 COMIC、DMF、MVEC、BMVC、DiMSC、RMSL、SSSL-M。

数据集 RMSL SSSL-M Ours (EKNN) Ours (扩展)
COIL20 82.19 84.36 80.17 85.22
ORL 88.10 91.56 86.28 91.73
BBCSport 97.61 93.25 92.00 94.21
Reuters 54.04 59.46 42.17 60.55
Football 92.29 89.78 80.15 90.25
ANIMAL 73.19 77.49 70.76 79.00
NoisyMNIST 84.28 85.91 72.30 86.20

扩展版(EKNN for 多视图子空间学习)在 7 个数据集中有 5 个取得最高 ACC;F-score、RI 指标趋势一致(扩展版多数最优)。

消融 / 分析

  • 线性簇数 \(p\):在 \(\{20,\dots,200\}\) 扫描,ACC/NMI 随 \(p\) 增大而上升、到一定值后趋平,但计算成本同步上升;最终取 \(p=160\)
  • 收敛性:在 COIL20/ORL/BBCSport 上目标函数 ~50 次迭代内单调下降并收敛。
  • 运行时间:得益于"先线性聚类压缩数据",EKNN 及扩展版耗时远低于 RMSL 和 SSSL-M。

关键发现

  • 扩展版 > 基础版:引入潜在表示 + 共享子空间表示后效果稳定更好,说明更复杂的映射带来更优结果。
  • 三层分解有效:把线性聚类作为其中一层能在一定程度上减少最终聚类的过拟合,间接提升性能。
  • 效率来自结构:先用线性层把 \(n\) 个点压成 \(p\) 个簇,再让昂贵的核运算只作用在 \(p\times p\) 而非 \(n\times n\) 上,是耗时远低于 RMSL/SSSL-M 的根本原因。
  • 鲁棒性:在多种数据类型与多种指标(ACC/F-score/RI/NMI)上都稳定,验证三层分解的普适性。

亮点与洞察

  • "局部线性、全局非线性"假设很漂亮:把"非线性簇 = 若干线性簇的拼装"这一几何直觉直接转成可计算的三层结构,效率(线性层压缩)和效果(核层识别形状)在结构层面就解耦了。
  • 可解释来自设计而非事后:EKNN 不是给黑盒补解释,而是每层损失/变量都有物理含义,K-means 与核 K-means 是它的特例,这种"白盒"可解释在实际部署中更可信。
  • K-means ≈ 卷积的类比:把 K-means 组件类比 CNN 卷积、组件连接类比网络连接,给"用经典聚类搭神经网络"提供了一个统一叙事。

局限与展望

  • 基础版 EKNN 竞争力一般:在多个数据集上基础版 ACC 明显低于 RMSL/SSSL-M(如 Reuters 仅 42.17 vs 59.46),真正打得过 SOTA 的是带子空间学习+谱聚类的扩展版,说明三层框架本身的增益部分依赖额外的子空间/谱聚类组件。
  • 超参数多\(\alpha,\beta,\gamma,\eta,\mu,\eta',\mu'\) 以及线性簇数 \(p\) 都需调,框架虽可解释但调参负担不轻。
  • 求解与复杂度细节在附录:迭代算法与复杂度分析未在正文展开,离散约束(\(w,u,h\in\{0,1\}\))下的优化质量值得进一步审视。
  • 可扩展性:虽强调效率,但实验数据集规模有限,超大规模/在线多视图场景的表现仍待验证。

相关工作与启发

  • K-means / 核 K-means / 谱聚类:本文把这些经典目标当作"网络层"复用,延续了 LMSC、DiMSC、RMSL、SSSL-M 等子空间多视图聚类路线,但用三层分解重组。其中核 K-means 提供识别任意形状簇的非线性能力,谱聚类则在扩展版里对学到的共享子空间表示 \(\Theta^C\) 做最终划分。
  • 自表示子空间聚类(Elhamifar & Vidal):用自表示系数矩阵 \(\Theta^v\) 揭示簇结构,约束 \(X^v = X^v\Theta^v\),是线性层得以在"精炼后的数据点"而非原始噪声特征上做聚类的基础。
  • 多视图一致性 / 完整性原则:现有工作多通过"最大化视图间相关性"实现一致性,本文换成"强制各视图重构同一个共享 \(H\)"来间接达成一致性,并让 \(H\) 聚合各视图信息以保完整性——是对两大经典原则的一种新实现方式。
  • 可解释 AI(XAI):作者明确区分 post-hoc 解释(可视化/文本/特征相关性)与 design-time 透明性,主张后者(模型可分解性 + 算法透明性)更实用——对"可解释聚类/可解释表示学习"是一个清晰的方法论参考。

一句话评价

一个把"局部线性拼非线性"几何直觉工程化为三层 K-means 网络的多视图聚类框架:思路漂亮、可解释性扎实,真正的竞争力来自加了子空间学习与谱聚类的扩展版。

评分

  • 新颖性: ⭐⭐⭐⭐ "局部线性拼非线性"的三层优化分解 + "每层即一种 K-means、整体可解释"的网络化叙事是有新意的视角。
  • 实验充分度: ⭐⭐⭐ 覆盖 7 数据集 × 多指标 + \(p\)/收敛/耗时分析较完整,但基础版多处弱于对比方法,亮点主要靠扩展版撑。
  • 写作质量: ⭐⭐⭐ 框架与动机讲得清楚,但公式密集、求解细节挪到附录,部分表述与排版略粗糙。
  • 价值: ⭐⭐⭐⭐ 给多视图聚类提供了"可解释 + 效率/效果解耦"的结构化框架,对追求白盒聚类的应用场景有参考价值。