Multi-Hierarchical Contrastive Spectral Fusion for Multi-View Clustering¶

会议: CVPR 2026
论文: CVF Open Access
领域: 多视图聚类 / 对比学习 / 谱嵌入
关键词: 多视图聚类, 深度谱嵌入, 对比学习, 共识表示, 流形结构

一句话总结¶

MCSF 把可微的深度谱嵌入塞进多视图聚类的编码器里，再用一个分三层级（视图内结构保持 / 视图-共识对齐 / 共识结构精炼）的对比损失把多个视图融成一个"结构感知"的共识表示，在 8 个 benchmark 上刷出明显领先的聚类精度。

研究背景与动机¶

领域现状：多视图聚类（MVC）要在图文对、多传感器、多语种语料这类"同一批样本、多种异构表示"上挖出一致的聚类结构。近几年主流做法是对比学习：把语义相近的样本（正对）拉近、相异的（负对）推远，从实例级、邻域级一路做到簇级/伪标签级对齐。

现有痛点：作者指出当前对比聚类框架几乎都是 structure-agnostic（结构无关） 的——它们靠余弦相似度、k 近邻或初步聚类伪标签来选正对，能把语义相关样本在嵌入空间拉近，却捕捉不到数据真实的几何/流形结构。结果就是在噪声、视图差异、细微类间差异下，学到的表示簇内不紧凑、簇间不可分，聚类边界破碎（论文 Figure 1(a)）。

核心矛盾：表示学习只优化"谁和谁像"，没有约束"嵌入空间是否还忠实地反映原始数据流形"。已有的深度谱嵌入方法（如 SpectralNet、MvSCN）虽然能保结构，却要靠额外的 Siamese 网络去构相似度图，计算贵、且和表示学习是两张皮。另外，传统对比方法只做视图内或视图间的成对对齐，缺一个统一的共识空间来承载全局语义一致性。

本文目标：(1) 让谱结构约束以可微、低成本的方式直接长在编码器上；(2) 把成对对齐升级成一个能产出"结构感知共识表示"的多层级机制。

切入角度：把"概率矩阵"本身当作谱嵌入——softmax 预测头输出的簇概率矩阵 \(H^{(v)}\) 经 Cholesky 正交化后既满足谱嵌入的正交性，又天然可微、可端到端训练，省掉了 Siamese 构图这一步。

核心 idea：用"概率矩阵谱嵌入 + 三层级对比损失"取代"Siamese 谱图 + 成对对比"，在一个统一网络里同时做到流形保持、跨视图对齐和共识精炼。

方法详解¶

整体框架¶

MCSF（Multi-Hierarchical Contrastive Spectral Fusion）对 \(V\) 个视图各配一套编码器-解码器。每个视图 \(X^{(v)}\in\mathbb{R}^{n\times d_v}\) 经编码器得到隐表示 \(Z^{(v)}\)，隐表示分两路用：一路构高斯核相似度图 \(W^{(v)}\)（局部几何），一路经预测头 \(g_\psi\) 出簇概率矩阵 \(H^{(v)}\)，再 Cholesky 正交化成谱嵌入 \(P^{(v)}\)。把所有视图的 \(P^{(v)}\) 平均初始化出共识表示 \(P\)。训练时三个损失协同：重建损失 \(L_{re}\) 保住各视图原始信息，谱损失 \(L_{spc}\) 把局部流形烙进 \(P^{(v)}\)，多层级对比损失 \(L_c\) 同时优化"视图内结构 / 视图-共识对齐 / 共识内精炼"。收敛后直接对共识矩阵 \(P\) 跑 k-means 出簇标签。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视图输入<br/>X(1) … X(V)"] --> B["视图编码器<br/>得隐表示 Z(v)"]
    B --> C["概率矩阵深度谱嵌入<br/>高斯核图 + 预测头 + Cholesky 正交化 → P(v)"]
    C --> D["KNN 跨视图融合正对挖掘<br/>逐元素取 max 融合亲和图"]
    C --> E["共识表示 P<br/>= 各视图 P(v) 平均"]
    D --> F["多层级对比损失<br/>VSP + VCA + CSR"]
    E --> F
    C -->|"谱损失 Lspc"| F
    B -->|"重建损失 Lre"| F
    F --> G["对共识矩阵 P 跑 k-means<br/>输出聚类"]

关键设计¶

1. 概率矩阵深度谱嵌入：让谱结构免 Siamese 直接长在编码器上

传统谱聚类要算图拉普拉斯 \(L\) 的特征向量，需要昂贵且不可微的特征分解，没法塞进深度网络；已有的深度谱方法又得额外搭 Siamese 网络去学相似度图。MCSF 的做法是：编码器先把 \(Z^{(v)}\) 用高斯核构出相似度矩阵 \(W^{(v)}_{ij}=\exp(-\|z^{(v)}_i-z^{(v)}_j\|_2^2/2\sigma^2)\)，并得到非归一化拉普拉斯 \(L^{(v)}=D^{(v)}-W^{(v)}\)；同时用预测头 \(g_\psi\) 出簇概率矩阵 \(H^{(v)}=\mathrm{softmax}(g_\psi(Z^{(v)}))\in\mathbb{R}^{n\times K}\)（每行是 \(K\) 维概率单纯形）。关键一步是把这个概率矩阵本身当谱嵌入，并用 Cholesky 参数化做批内正交化以防维度坍塌：

\[P^{(v)}=H^{(v)}\,\mathrm{chol}\!\left((H^{(v)})^\top H^{(v)}+\varepsilon I\right)^{-1}.\]

这样 \(P^{(v)}\) 近似正交，再配一个谱损失 \(L_{spc}=\sum_v\sum_{i,j}W^{(v)}_{ij}\|p^{(v)}_i-p^{(v)}_j\|_2^2\) 把相似样本在嵌入里拉近。论文给了 Theorem 1：最小化 \(L_{spc}\) 等价于最小化标准谱目标 \(\sum_v \mathrm{Tr}(P^{(v)\top}L^{(v)}P^{(v)})\)。之所以有效，是因为它把"构图—正交—谱保结构"全部做成可微算子端到端训练，既保住局部几何，又省掉 Siamese 构图那套额外开销，结构学习和表示学习在一张网里统一了。

2. 多层级对比损失：把"成对对齐"升级成"结构感知共识"

现有对比方法只做视图内或视图间的成对对齐，没有一个统一共识空间承载全局语义一致性。MCSF 在谱嵌入 \(P^{(v)}\) 和共识表示 \(P=\frac1V\sum_v P^{(v)}\) 上构造三个层级的对比项，相似度用温度缩放余弦 \(f(p_i,p_j)=\exp(\mathrm{sim}(p_i,p_j)/\tau)\)：

VSP（视图内结构保持）：\(L_{VSP}=-\sum_v\log\frac{\sum_{P_i}f(p^{(v)}_i,p^{(v)}_j)}{\sum_{N_i}f(p^{(v)}_i,p^{(v)}_j)}\)，在同一视图内拉近正对、推远负对，守住单视图局部结构。
VCA（视图-共识对齐）：把每个视图的 \(p^{(v)}_i\) 与共识 \(p_j\) 对齐，逼各视图都向统一共识贡献，承载跨视图共享语义。
CSR（共识结构精炼）：在共识表示 \(P\) 内部做对比，让共识空间里高相似样本继续靠拢，增强簇内紧凑、簇间可分。

三项乘在一起得到完整的多层级对比损失：

\[L_c=-\sum_v\log\Big(\underbrace{\tfrac{\sum_{P_i}f(p^{(v)}_i,p^{(v)}_j)}{\sum_{N_i}f(p^{(v)}_i,p^{(v)}_j)}}_{VSP}\cdot\underbrace{\tfrac{\sum_{P_i}f(p^{(v)}_i,p_j)}{\sum_{N_i}f(p^{(v)}_i,p_j)}}_{VCA}\cdot\underbrace{\tfrac{\sum_{P_i}f(p_i,p_j)}{\sum_{N_i}f(p_i,p_j)}}_{CSR}\Big).\]

为什么这样有效：作者在 Theoretical Analysis 里证明（Theorem 2）最小化 \(L_c\) 等价于同时最大化三层互信息 \(I(P^{(v)};P^{(v)})+I(P^{(v)};P)+I(P;P)\)，并进一步给 Theorem 3——在多层级语义一致性条件下，共识表示与真实标签的互信息不低于任何单视图，\(I(P;Y)\ge\max_v I(P^{(v)};Y)-\epsilon\)。换句话说，三层级对比不是堆 trick，而是有信息论意义上的保证：共识表示一定不比最好的单视图差。

3. KNN 跨视图融合的正对挖掘：用局部结构而非伪标签定义正样本

对比学习成败系于正对怎么选。MCSF 不用余弦阈值或聚类伪标签，而是从输入特征的局部相似结构挖正对：对每个视图算余弦亲和 \(A^{(v)}_{ij}=\cos(x^{(v)}_i,x^{(v)}_j)\)，取每个样本 top-\(k\) 近邻构稀疏 KNN 图；再把所有视图的亲和矩阵逐元素取最大 \(A_{ij}=\max_v A^{(v)}_{ij}\) 融成一张图。融合图里 \(A_{ij}=1\) 的就是正集 \(P_i\)（近邻），其余为负集 \(N_i\)。逐元素取 max 的好处是只要任一视图认为两样本相近就算正对，跨视图地补全了单视图可能漏掉的近邻关系，让正对选择更稳、更贴合真实流形——这也呼应了参数分析里"\(k\) 一般取 2–3 即可，稀疏文本数据 3Sources 才需要 \(k=15\)"的发现。

损失函数 / 训练策略¶

总损失为重建 + 谱 + 对比三项加权：

\[L=L_{re}+\alpha L_{spc}+\beta L_c,\qquad L_{re}=\sum_v\sum_i\|x^{(v)}_i-\hat x^{(v)}_i\|_2^2.\]

其中 \(\alpha,\beta\) 平衡重建保真、结构保持与语义对齐，按数据集网格搜索；温度 \(\tau\) 和高斯带宽 \(\sigma\) 默认 1.0。用自适应动量的 mini-batch 优化器训练，正交约束只在 batch 内施加，所以采用较大 batch 来平滑正交化。收敛后对共识矩阵 \(P\) 跑 k-means 得最终簇标签。

实验关键数据¶

主实验¶

8 个 benchmark（3Sources / MSRC-v1 / Extended YaleB / MNIST-USPS / COIL-20 / Hdigit / NUS-WIDE / CIFAR-100），三指标 ACC/NMI/ARI，对比 4 个浅层 + 7 个深度 MVC 方法。下表摘取几个有代表性数据集的 ACC（%）：

数据集	指标	MCSF (本文)	次优方法	提升
COIL-20	ACC	93.75	82.71 (DCMVSC)	+11.0
Extended YaleB	ACC	81.72	81.09 (PCMVSC)	+0.6
NUS-WIDE	ACC	46.12	41.19 (PCMVSC)	+4.9
MSRC-v1	ACC	96.19	92.38 (CVCL)	+3.8
CIFAR-100	ACC	99.98	95.68 (ROLL)	+4.3
Hdigit	ACC	99.90	99.78 (UMCGL)	+0.1

MCSF 在 8 个数据集上几乎全部拿到最优或次优；在 COIL-20、NUS-WIDE 这类难数据集上 ACC 领先次优 10%+。在含强光照噪声的 Extended YaleB 上压过图方法 UMCGL 和对比方法 CVCL，作者归因于深度谱嵌入显式保住局部流形、对结构噪声更鲁棒。

消融实验¶

三个损失的逐项消融（Table 3，ACC %）：

Lre	Lspc	Lc	3Sources	COIL-20	Hdigit
✓			36.69	56.11	21.80
	✓		73.37	56.46	86.55
		✓	44.38	59.31	21.48
✓	✓		74.56	56.46	84.28
	✓	✓	94.08	84.86	99.84
✓	✓	✓	94.67	93.75	99.90

关键发现¶

谱损失和对比损失是互补的，缺一不可：单用 \(L_{spc}\) 或单用 \(L_c\) 在 COIL-20 都只有 56% 上下；二者合用直接跳到 84.86%，再加重建损失 \(L_{re}\) 补到 93.75%。三项联合才达最优，印证"重建保信息 + 谱保结构 + 对比保语义"三者协同。
三层级对比各有所长（Figure 2）：VCA 在文本数据 3Sources 上单独就 >90% ACC，说明异构数据融合最吃跨视图对齐；VSP 在视觉数据 COIL-20 上单独接近完整模型；CSR 单独表现差，但与其他项组合时稳定加分（如 COIL-20 上 VSP+CSR 明显优于 VSP）。
超参偏好清晰：\(\alpha\) 偏大、\(\beta\) 偏小时聚类更好（谱结构权重更关键）；batch 越大越好（COIL-20 上 batch 从 48→1440，ACC 从 54.37%→93.75%，因为正交化需大 batch 才稳），但 Extended YaleB 在 batch=640 时因过度正则反掉到 60.94%。近邻数 \(k\) 多数数据集取 2–3 最好，稀疏文本 3Sources 需 \(k=15\)。

亮点与洞察¶

把概率矩阵直接当谱嵌入是最巧的一笔：softmax 簇概率矩阵经 Cholesky 正交化既满足谱嵌入正交性、又可微，一举省掉传统深度谱方法必需的 Siamese 构图网络，结构学习和表示学习真正统一进一张网。
三层级对比有信息论背书：VSP/VCA/CSR 不是拍脑袋堆的，论文证明最小化乘积式 \(L_c\) 等价于同时最大化三层互信息，且共识表示与标签的互信息不低于最好单视图——给"为什么共识一定有用"提供了理论下界。
逐元素 max 融合 KNN 图这个正对挖掘 trick 简单且可迁移：任意一个视图认为两样本相近就纳入正对，能补全单视图漏掉的近邻，适用于任何多视图/多模态对比框架。

局限与展望¶

强依赖大 batch 做批内正交化：正交约束只在 batch 内施加，小 batch 直接崩（COIL-20 batch=48 时仅 54%），对显存受限或样本极少的场景不友好；且 Extended YaleB 上过大 batch 反而过度正则掉点，batch 需逐数据集调。
超参较多需逐数据集网格搜索：\(\alpha,\beta,k\) 都对数据集敏感（如 \(k\) 在 2–15 间跨度很大），缺少自适应选择机制，迁移到新数据集时调参成本不低。
多为小/中规模 benchmark：最大的 CIFAR-100 也才 5 万样本，论文反复强调"可微、低成本"，但没有给与 Siamese 谱方法的实际运行时间/显存对比数字，可扩展性优势还停留在定性论述。
共识初始化为简单平均：\(P=\frac1V\sum_v P^{(v)}\) 对各视图等权，当某些视图质量差或含噪时，等权平均可能拖累共识，未来可引入视图置信度加权。

评分¶

新颖性: ⭐⭐⭐⭐ 概率矩阵当谱嵌入 + Cholesky 正交化免 Siamese，加三层级对比，组合新颖且自洽。
实验充分度: ⭐⭐⭐⭐ 8 数据集 ×3 指标、11 个基线、损失/组件/超参多重消融，但缺实际效率（时间/显存）对比。
写作质量: ⭐⭐⭐⭐ 逻辑清晰、定理支撑，符号略密集但配图（Fig 1/3/4）辅助理解到位。
价值: ⭐⭐⭐⭐ 给"结构感知对比聚类"提供了可微、有理论保证的范式，正对融合与共识互信息下界可迁移到多模态对比学习。