Multi-Hierarchical Contrastive Spectral Fusion for Multi-View Clustering¶
会议: CVPR 2026
论文: CVF Open Access
领域: 多视图聚类 / 对比学习 / 谱嵌入
关键词: 多视图聚类, 深度谱嵌入, 对比学习, 共识表示, 流形结构
一句话总结¶
MCSF 把可微的深度谱嵌入塞进多视图聚类的编码器里,再用一个分三层级(视图内结构保持 / 视图-共识对齐 / 共识结构精炼)的对比损失把多个视图融成一个"结构感知"的共识表示,在 8 个 benchmark 上刷出明显领先的聚类精度。
研究背景与动机¶
领域现状:多视图聚类(MVC)要在图文对、多传感器、多语种语料这类"同一批样本、多种异构表示"上挖出一致的聚类结构。近几年主流做法是对比学习:把语义相近的样本(正对)拉近、相异的(负对)推远,从实例级、邻域级一路做到簇级/伪标签级对齐。
现有痛点:作者指出当前对比聚类框架几乎都是 structure-agnostic(结构无关) 的——它们靠余弦相似度、k 近邻或初步聚类伪标签来选正对,能把语义相关样本在嵌入空间拉近,却捕捉不到数据真实的几何/流形结构。结果就是在噪声、视图差异、细微类间差异下,学到的表示簇内不紧凑、簇间不可分,聚类边界破碎(论文 Figure 1(a))。
核心矛盾:表示学习只优化"谁和谁像",没有约束"嵌入空间是否还忠实地反映原始数据流形"。已有的深度谱嵌入方法(如 SpectralNet、MvSCN)虽然能保结构,却要靠额外的 Siamese 网络去构相似度图,计算贵、且和表示学习是两张皮。另外,传统对比方法只做视图内或视图间的成对对齐,缺一个统一的共识空间来承载全局语义一致性。
本文目标:(1) 让谱结构约束以可微、低成本的方式直接长在编码器上;(2) 把成对对齐升级成一个能产出"结构感知共识表示"的多层级机制。
切入角度:把"概率矩阵"本身当作谱嵌入——softmax 预测头输出的簇概率矩阵 \(H^{(v)}\) 经 Cholesky 正交化后既满足谱嵌入的正交性,又天然可微、可端到端训练,省掉了 Siamese 构图这一步。
核心 idea:用"概率矩阵谱嵌入 + 三层级对比损失"取代"Siamese 谱图 + 成对对比",在一个统一网络里同时做到流形保持、跨视图对齐和共识精炼。
方法详解¶
整体框架¶
MCSF(Multi-Hierarchical Contrastive Spectral Fusion)对 \(V\) 个视图各配一套编码器-解码器。每个视图 \(X^{(v)}\in\mathbb{R}^{n\times d_v}\) 经编码器得到隐表示 \(Z^{(v)}\),隐表示分两路用:一路构高斯核相似度图 \(W^{(v)}\)(局部几何),一路经预测头 \(g_\psi\) 出簇概率矩阵 \(H^{(v)}\),再 Cholesky 正交化成谱嵌入 \(P^{(v)}\)。把所有视图的 \(P^{(v)}\) 平均初始化出共识表示 \(P\)。训练时三个损失协同:重建损失 \(L_{re}\) 保住各视图原始信息,谱损失 \(L_{spc}\) 把局部流形烙进 \(P^{(v)}\),多层级对比损失 \(L_c\) 同时优化"视图内结构 / 视图-共识对齐 / 共识内精炼"。收敛后直接对共识矩阵 \(P\) 跑 k-means 出簇标签。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多视图输入<br/>X(1) … X(V)"] --> B["视图编码器<br/>得隐表示 Z(v)"]
B --> C["概率矩阵深度谱嵌入<br/>高斯核图 + 预测头 + Cholesky 正交化 → P(v)"]
C --> D["KNN 跨视图融合正对挖掘<br/>逐元素取 max 融合亲和图"]
C --> E["共识表示 P<br/>= 各视图 P(v) 平均"]
D --> F["多层级对比损失<br/>VSP + VCA + CSR"]
E --> F
C -->|"谱损失 Lspc"| F
B -->|"重建损失 Lre"| F
F --> G["对共识矩阵 P 跑 k-means<br/>输出聚类"]
关键设计¶
1. 概率矩阵深度谱嵌入:让谱结构免 Siamese 直接长在编码器上
传统谱聚类要算图拉普拉斯 \(L\) 的特征向量,需要昂贵且不可微的特征分解,没法塞进深度网络;已有的深度谱方法又得额外搭 Siamese 网络去学相似度图。MCSF 的做法是:编码器先把 \(Z^{(v)}\) 用高斯核构出相似度矩阵 \(W^{(v)}_{ij}=\exp(-\|z^{(v)}_i-z^{(v)}_j\|_2^2/2\sigma^2)\),并得到非归一化拉普拉斯 \(L^{(v)}=D^{(v)}-W^{(v)}\);同时用预测头 \(g_\psi\) 出簇概率矩阵 \(H^{(v)}=\mathrm{softmax}(g_\psi(Z^{(v)}))\in\mathbb{R}^{n\times K}\)(每行是 \(K\) 维概率单纯形)。关键一步是把这个概率矩阵本身当谱嵌入,并用 Cholesky 参数化做批内正交化以防维度坍塌:
这样 \(P^{(v)}\) 近似正交,再配一个谱损失 \(L_{spc}=\sum_v\sum_{i,j}W^{(v)}_{ij}\|p^{(v)}_i-p^{(v)}_j\|_2^2\) 把相似样本在嵌入里拉近。论文给了 Theorem 1:最小化 \(L_{spc}\) 等价于最小化标准谱目标 \(\sum_v \mathrm{Tr}(P^{(v)\top}L^{(v)}P^{(v)})\)。之所以有效,是因为它把"构图—正交—谱保结构"全部做成可微算子端到端训练,既保住局部几何,又省掉 Siamese 构图那套额外开销,结构学习和表示学习在一张网里统一了。
2. 多层级对比损失:把"成对对齐"升级成"结构感知共识"
现有对比方法只做视图内或视图间的成对对齐,没有一个统一共识空间承载全局语义一致性。MCSF 在谱嵌入 \(P^{(v)}\) 和共识表示 \(P=\frac1V\sum_v P^{(v)}\) 上构造三个层级的对比项,相似度用温度缩放余弦 \(f(p_i,p_j)=\exp(\mathrm{sim}(p_i,p_j)/\tau)\):
- VSP(视图内结构保持):\(L_{VSP}=-\sum_v\log\frac{\sum_{P_i}f(p^{(v)}_i,p^{(v)}_j)}{\sum_{N_i}f(p^{(v)}_i,p^{(v)}_j)}\),在同一视图内拉近正对、推远负对,守住单视图局部结构。
- VCA(视图-共识对齐):把每个视图的 \(p^{(v)}_i\) 与共识 \(p_j\) 对齐,逼各视图都向统一共识贡献,承载跨视图共享语义。
- CSR(共识结构精炼):在共识表示 \(P\) 内部做对比,让共识空间里高相似样本继续靠拢,增强簇内紧凑、簇间可分。
三项乘在一起得到完整的多层级对比损失:
为什么这样有效:作者在 Theoretical Analysis 里证明(Theorem 2)最小化 \(L_c\) 等价于同时最大化三层互信息 \(I(P^{(v)};P^{(v)})+I(P^{(v)};P)+I(P;P)\),并进一步给 Theorem 3——在多层级语义一致性条件下,共识表示与真实标签的互信息不低于任何单视图,\(I(P;Y)\ge\max_v I(P^{(v)};Y)-\epsilon\)。换句话说,三层级对比不是堆 trick,而是有信息论意义上的保证:共识表示一定不比最好的单视图差。
3. KNN 跨视图融合的正对挖掘:用局部结构而非伪标签定义正样本
对比学习成败系于正对怎么选。MCSF 不用余弦阈值或聚类伪标签,而是从输入特征的局部相似结构挖正对:对每个视图算余弦亲和 \(A^{(v)}_{ij}=\cos(x^{(v)}_i,x^{(v)}_j)\),取每个样本 top-\(k\) 近邻构稀疏 KNN 图;再把所有视图的亲和矩阵逐元素取最大 \(A_{ij}=\max_v A^{(v)}_{ij}\) 融成一张图。融合图里 \(A_{ij}=1\) 的就是正集 \(P_i\)(近邻),其余为负集 \(N_i\)。逐元素取 max 的好处是只要任一视图认为两样本相近就算正对,跨视图地补全了单视图可能漏掉的近邻关系,让正对选择更稳、更贴合真实流形——这也呼应了参数分析里"\(k\) 一般取 2–3 即可,稀疏文本数据 3Sources 才需要 \(k=15\)"的发现。
损失函数 / 训练策略¶
总损失为重建 + 谱 + 对比三项加权:
其中 \(\alpha,\beta\) 平衡重建保真、结构保持与语义对齐,按数据集网格搜索;温度 \(\tau\) 和高斯带宽 \(\sigma\) 默认 1.0。用自适应动量的 mini-batch 优化器训练,正交约束只在 batch 内施加,所以采用较大 batch 来平滑正交化。收敛后对共识矩阵 \(P\) 跑 k-means 得最终簇标签。
实验关键数据¶
主实验¶
8 个 benchmark(3Sources / MSRC-v1 / Extended YaleB / MNIST-USPS / COIL-20 / Hdigit / NUS-WIDE / CIFAR-100),三指标 ACC/NMI/ARI,对比 4 个浅层 + 7 个深度 MVC 方法。下表摘取几个有代表性数据集的 ACC(%):
| 数据集 | 指标 | MCSF (本文) | 次优方法 | 提升 |
|---|---|---|---|---|
| COIL-20 | ACC | 93.75 | 82.71 (DCMVSC) | +11.0 |
| Extended YaleB | ACC | 81.72 | 81.09 (PCMVSC) | +0.6 |
| NUS-WIDE | ACC | 46.12 | 41.19 (PCMVSC) | +4.9 |
| MSRC-v1 | ACC | 96.19 | 92.38 (CVCL) | +3.8 |
| CIFAR-100 | ACC | 99.98 | 95.68 (ROLL) | +4.3 |
| Hdigit | ACC | 99.90 | 99.78 (UMCGL) | +0.1 |
MCSF 在 8 个数据集上几乎全部拿到最优或次优;在 COIL-20、NUS-WIDE 这类难数据集上 ACC 领先次优 10%+。在含强光照噪声的 Extended YaleB 上压过图方法 UMCGL 和对比方法 CVCL,作者归因于深度谱嵌入显式保住局部流形、对结构噪声更鲁棒。
消融实验¶
三个损失的逐项消融(Table 3,ACC %):
| Lre | Lspc | Lc | 3Sources | COIL-20 | Hdigit |
|---|---|---|---|---|---|
| ✓ | 36.69 | 56.11 | 21.80 | ||
| ✓ | 73.37 | 56.46 | 86.55 | ||
| ✓ | 44.38 | 59.31 | 21.48 | ||
| ✓ | ✓ | 74.56 | 56.46 | 84.28 | |
| ✓ | ✓ | 94.08 | 84.86 | 99.84 | |
| ✓ | ✓ | ✓ | 94.67 | 93.75 | 99.90 |
关键发现¶
- 谱损失和对比损失是互补的,缺一不可:单用 \(L_{spc}\) 或单用 \(L_c\) 在 COIL-20 都只有 56% 上下;二者合用直接跳到 84.86%,再加重建损失 \(L_{re}\) 补到 93.75%。三项联合才达最优,印证"重建保信息 + 谱保结构 + 对比保语义"三者协同。
- 三层级对比各有所长(Figure 2):VCA 在文本数据 3Sources 上单独就 >90% ACC,说明异构数据融合最吃跨视图对齐;VSP 在视觉数据 COIL-20 上单独接近完整模型;CSR 单独表现差,但与其他项组合时稳定加分(如 COIL-20 上 VSP+CSR 明显优于 VSP)。
- 超参偏好清晰:\(\alpha\) 偏大、\(\beta\) 偏小时聚类更好(谱结构权重更关键);batch 越大越好(COIL-20 上 batch 从 48→1440,ACC 从 54.37%→93.75%,因为正交化需大 batch 才稳),但 Extended YaleB 在 batch=640 时因过度正则反掉到 60.94%。近邻数 \(k\) 多数数据集取 2–3 最好,稀疏文本 3Sources 需 \(k=15\)。
亮点与洞察¶
- 把概率矩阵直接当谱嵌入是最巧的一笔:softmax 簇概率矩阵经 Cholesky 正交化既满足谱嵌入正交性、又可微,一举省掉传统深度谱方法必需的 Siamese 构图网络,结构学习和表示学习真正统一进一张网。
- 三层级对比有信息论背书:VSP/VCA/CSR 不是拍脑袋堆的,论文证明最小化乘积式 \(L_c\) 等价于同时最大化三层互信息,且共识表示与标签的互信息不低于最好单视图——给"为什么共识一定有用"提供了理论下界。
- 逐元素 max 融合 KNN 图这个正对挖掘 trick 简单且可迁移:任意一个视图认为两样本相近就纳入正对,能补全单视图漏掉的近邻,适用于任何多视图/多模态对比框架。
局限与展望¶
- 强依赖大 batch 做批内正交化:正交约束只在 batch 内施加,小 batch 直接崩(COIL-20 batch=48 时仅 54%),对显存受限或样本极少的场景不友好;且 Extended YaleB 上过大 batch 反而过度正则掉点,batch 需逐数据集调。
- 超参较多需逐数据集网格搜索:\(\alpha,\beta,k\) 都对数据集敏感(如 \(k\) 在 2–15 间跨度很大),缺少自适应选择机制,迁移到新数据集时调参成本不低。
- 多为小/中规模 benchmark:最大的 CIFAR-100 也才 5 万样本,论文反复强调"可微、低成本",但没有给与 Siamese 谱方法的实际运行时间/显存对比数字,可扩展性优势还停留在定性论述。
- 共识初始化为简单平均:\(P=\frac1V\sum_v P^{(v)}\) 对各视图等权,当某些视图质量差或含噪时,等权平均可能拖累共识,未来可引入视图置信度加权。
相关工作与启发¶
- vs SpectralNet / MvSCN(深度谱聚类): 它们用神经网络逼近谱嵌入、靠 Siamese 网络学相似度图;MCSF 把概率矩阵直接当谱嵌入、用 Cholesky 正交化,省掉 Siamese 构图,把结构学习并入主网络,更省算力。
- vs CVCL / MFLVC(对比 MVC): 它们做实例级或簇级的成对对比,是 structure-agnostic 的;MCSF 加了谱流形约束并把成对对齐升级成 VSP/VCA/CSR 三层级 + 共识空间,因此在噪声大的 Extended YaleB 上更鲁棒。
- vs DCMVSC(GCN 子空间 MVC): DCMVSC 用 GCN 在表示与聚类结果间交互优化;MCSF 不依赖图卷积,靠可微谱损失保几何 + 多层级对比保语义,t-SNE 上共识矩阵呈更清晰的块对角结构。
评分¶
- 新颖性: ⭐⭐⭐⭐ 概率矩阵当谱嵌入 + Cholesky 正交化免 Siamese,加三层级对比,组合新颖且自洽。
- 实验充分度: ⭐⭐⭐⭐ 8 数据集 ×3 指标、11 个基线、损失/组件/超参多重消融,但缺实际效率(时间/显存)对比。
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰、定理支撑,符号略密集但配图(Fig 1/3/4)辅助理解到位。
- 价值: ⭐⭐⭐⭐ 给"结构感知对比聚类"提供了可微、有理论保证的范式,正对融合与共识互信息下界可迁移到多模态对比学习。