跳转至

Global-Graph Guided and Local-Graph Weighted Contrastive Learning for Unified Clustering on Incomplete and Noise Multi-View Data

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/hhq-sr/GLGC
领域: 多视图聚类 / 对比学习
关键词: 多视图聚类, 对比学习, 不完整数据, 噪声鲁棒, 亲和图

一句话总结

GLGC 在不依赖数据补全的前提下,用一张全局亲和图为不完整多视图数据补出新的正负样本对(治"稀配对"),再用一张局部亲和图给每个跨视图样本对打自适应权重(治"误配对"),把两者塞进统一的对比学习框架,在不完整 + 噪声多视图聚类上全面超过 SOTA。

研究背景与动机

领域现状:多视图聚类(MVC)想从同一样本的多个视图里挖互补信息,得到聚类友好的表示。近年主流是基于对比学习的 MVC——把同一样本的不同视图当正对、不同样本的视图当负对,最大化视图间互信息,天然契合 MVC 目标。

现有痛点:真实多视图数据常常既不完整又含噪声。对比学习在这两种污染下会崩: - 大量样本因缺视图而无法成对,对比学习只能在"完整的那部分"里挑正对,可用正对急剧变少; - 噪声视图和正常视图配成对,喂给对比损失的是错误监督,把模型往错方向拉。

核心矛盾:现有路线要么先补全缺失数据再做完整 MVC(COMPLETER、DCG 等),但补出来的数据不可靠、反而注入额外噪声;要么用视图粒度(view-grained)加权压制噪声视图,但粒度太粗,分辨不出"哪几个具体样本对是误配的"。两条路都没正面解决"配对本身"的问题。

本文目标:在不做任何数据补全(imputation-free)的前提下,同时解决两个被前人忽视的问题——作者命名为: - 稀配对问题(rare-paired):不完整数据里其实还藏着没被利用的语义关联,但缺视图导致它们配不上对; - 误配对问题(mis-paired):噪声视图与正常视图配成的样本对是错误监督。

切入角度:作者借图学习的思路,认为"配对"这件事不该只看是否物理成对,而该看特征空间里的语义亲和度。于是用图来重新定义"谁该和谁配"以及"这一对该信几分"。

核心 idea:用一张全局图给稀配对补正负对、用一张局部图给每个对算可信权重——全局图治"配不上",局部图治"配错了",二者合成一个统一的 global-local 图引导对比学习框架。

方法详解

整体框架

GLGC(Global-Local Graph based Contrastive learning)分两个阶段。阶段一·视图专属特征学习:每个视图各训练一个自编码器,用重构损失抽取视图专属隐表示 \(\{Z^v\}_{v=1}^V\),全程不补全缺失数据;隐表示之上再叠一个 MLP 对比头得到对比特征 \(H^v=\mathrm{MLP}(Z^v)\)阶段二·全局-局部图引导对比学习:在所有视图的对比特征上,(a) 用全局图引导对比(GGC)构造跨全部视图的新正负对以补稀配对,(b) 用局部图加权对比(LWC)给每个跨视图对算自适应权重以压误配对。训练时三项损失(重构 + GGC + LWC)联合优化;测试时对每个样本的可用视图特征取均值,再用 K-means 出聚类结果。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视图数据<br/>(含缺失 + 噪声)"] --> B["视图专属特征学习<br/>免补全自编码器 → Z、H"]
    B --> C["全局图引导对比 GGC<br/>全局亲和图补稀配对"]
    B --> D["局部图加权对比 LWC<br/>局部亲和图压误配对"]
    C --> E["联合损失<br/>L_rec + α·L_ggc + β·L_lwc"]
    D --> E
    E --> F["视图均值融合 → K-means 聚类"]

关键设计

1. 免补全的视图专属特征学习:不冒险补数据,先把每个视图的表示学干净

针对"补全路线注入额外噪声"这一痛点,GLGC 干脆放弃补全。每个视图 \(v\) 配一对编码器/解码器 \(f^v_{\theta_v}/g^v_{\phi_v}\),只在该视图实际可用的样本上做重构,损失为 \(\mathcal{L}_{rec}=\sum_{v=1}^V\sum_{i=1}^{N_v}\big\|x_i^v-g^v_{\phi_v}(f^v_{\theta_v}(x_i^v))\big\|_2^2\),其中 \(N_v\) 是第 \(v\) 视图的可用样本数。隐表示 \(Z^v=f^v_{\theta_v}(X^v)\) 上再接对比头得到 \(H^v=\mathrm{MLP}(Z^v)\)。这一步看似常规,但"免补全"是后续两个模块成立的前提——它把"缺失"从需要被填的窟窿,转化为后面用图去重新建立关联的对象,避免了"先补出假数据再在假数据上对比"的错误叠加。

2. 全局图引导对比学习(GGC):用一张全局亲和图给配不上对的样本补正负对

针对稀配对痛点:传统对比损失(下式 Eq.2)只把物理成对的 \(\{h_i^v,h_i^u\}\) 当正对,缺视图样本直接被排除在外,可用正对太少。

\[\mathcal{L}^{v,u}_{con}=-\sum_{P_{ii}\in\mathcal{P}}\Big[\log\frac{e^{P_{ii}/\tau}}{\sum_{P_{ij}\in\mathcal{N}}e^{P_{ij}/\tau}}\Big]\]

GGC 的做法是:把所有视图的所有可用样本的对比特征汇到一起,构造一张全局亲和图 \(G\in\mathbb{R}^{N_c\times N_c}\)\(N_c\) 为可用样本总数),边权用余弦相似度 \(G_{ij}=\frac{\langle h_i,h_j\rangle}{\|h_i\|\cdot\|h_j\|}\)。然后按相似度自适应选对:对每个节点 \(h_i\),取它所在行中相似度排前 \(pos\%\) 的节点组成正对、排后 \(neg\%\) 的组成负对,

\[\begin{cases}\{h_i,h_j\}\in\mathcal{P}_{ggc}, & \text{if } G_{ij}>\text{top-}pos\%\text{ of row }i\\ \{h_i,h_j\}\in\mathcal{N}_{ggc}, & \text{if } G_{ij}<\text{bottom-}neg\%\text{ of row }i\end{cases}\]

再在这套新对上算 GGC 损失 \(\mathcal{L}_{ggc}=-\sum_{P_{ii}\in\mathcal{P}_{ggc}}\big[\log\frac{e^{P_{ii}/\tau}}{\sum_{P_{ij}\in\mathcal{N}_{ggc}}e^{P_{ij}/\tau}}\big]\)。关键在于:正对不再要求"物理成对",而是"特征空间里语义最近",于是缺视图样本只要和别的样本语义相近就能被配上正对——这等于跨越直接配对,挖出了藏在全部视图里的间接语义关联,把稀配对的正对集合补厚。

3. 局部图加权对比学习(LWC):用局部亲和图给每个对打可信权重,自适应强化/削弱

针对误配对痛点:噪声视图与正常视图配成的对是错误监督,而 Eq.2 对所有对一视同仁。LWC 不删对,而是给每个对算一个自适应权重来决定"信几分"。在每个 mini-batch(\(n\le N\))内,基于两视图特征 \(\{H^u,H^v\}\) 构局部亲和图 \(W^{(u,v)}_{ij}=\exp\!\big(-\frac{\|h_i^u-h_j^v\|^2}{\sigma}\big)\)\(\sigma\) 控制距离尺度),它刻画两视图间的几何亲和。为捕捉间接语义关联,再做一次高阶传播得到 \(\hat{W}^{(u,v)}=W^{(u,v)}(W^{(v,v)})^{T}\),让相似度经中间节点传递、丰富局部结构上下文。最后把这个权重塞进对比损失的正对分子上:

\[\mathcal{L}^{u,v}_{lwc}=-\sum_{P_{ii}\in\mathcal{P}_{lwc}}\Big[\log\frac{\hat{W}^{(u,v)}_{ii}\,e^{P_{ii}/\tau}}{\sum_{P_{ij}\in\mathcal{N}_{lwc}}e^{P_{ij}/\tau}}\Big]\]

对全部视图对求和即 \(\mathcal{L}_{lwc}=\sum_{u=1}^{V}\sum_{v=u+1}^{V}\mathcal{L}^{(u,v)}_{lwc}\)。直观看:\(\hat{W}^{(u,v)}_{ii}\) 大说明这个跨视图对在局部邻域里语义一致、可信,正对项被放大(强化吸引);反之噪声造成的不可靠对权重小,吸引被削弱。比起只能区分"哪个视图整体差"的视图粒度加权,LWC 做到了样本对粒度的细分辨,正面压住误配对带来的反向优化。

损失函数 / 训练策略

总损失把三项联合:\(\mathcal{L}_{GLGC}=\mathcal{L}_{rec}+\alpha\mathcal{L}_{ggc}+\beta\mathcal{L}_{lwc}\)\(\alpha,\beta\) 为权衡系数。训练先用 \(\mathcal{L}_{rec}\) 预训练得到 \(\{Z^v\}\),再迭代:随机取 mini-batch → 推理出 \(\{\hat{X}^v,H^v\}\) → 算全局图 \(G\)\(\mathcal{P}_{ggc}/\mathcal{N}_{ggc}\)、高阶局部图 \(\hat{W}^{(u,v)}\)\(\mathcal{P}_{lwc}/\mathcal{N}_{lwc}\) → 联合损失反传更新。测试时对每个样本按可用视图取均值 \(\hat{h}_i=\frac{1}{\sum_v M_{iv}}\sum_v h_i^v\)\(M_{iv}=1\) 表示该视图可用),再 K-means。复杂度方面,每 batch 跨视图对算相似度与高阶图为 \(O(V^2|B|^2)\),整体训练复杂度约 \(O(N)+(EN/|B|)\,O(V^2|B|^2)\),关于样本数 \(N\) 线性。实现上编码器结构为 \(X^v\to500\to500\to2000\to Z^v\)\(\dim Z^v=512\)\(\dim H^v=128\),batch=256,\(\tau=0.5\),Adam 优化。

实验关键数据

四个数据集:DHA(483 样本/2 视图/23 类)、LandUse-21(2100/2/21)、ProteinFold(694/12/27)、ALOI(10800/4/100)。三种设置:不完整(随机删视图,保证每样本至少留 1 视图)、噪声(加均值 0、标准差 0.4 的高斯噪声)、不完整 + 噪声。指标 ACC / NMI,对比 DSIMVC、CPSPAN、RPCIC、SCSL、DCG、GHICMC、FreeCSL,报 5 次均值。

主实验

不完整设置下 ACC(节选,缺失率 0.5 / 0.7 / 1.0;GLGC vs 次优 FreeCSL):

数据集 缺失率 FreeCSL GLGC 提升
DHA 0.5 67.2 75.5 +8.3
DHA 1.0 32.0 39.4 +7.4
ProteinFold 0.7 20.8 28.7 +7.9
ALOI 0.7 75.5 85.4 +9.9
ALOI 1.0 48.1 82.8 +34.7

作者报告:ALOI 上 GLGC 比 FreeCSL 平均 ACC 高 11.7%;缺失率达 1.0(极端不完整)时仍高出 34.7%——印证 GGC 靠全局语义关联补稀配对,在重度缺失下尤其救命。噪声设置下,ProteinFold 噪声率从 0.1 升到 1.0,次优方法 ACC 掉 9.1%,而 GLGC 只掉 2.3%,体现 LWC 的抗噪。不完整 + 噪声双重扰动下,DHA 在缺失率与噪声率都为 0.5 时,GLGC 比次优高 7.6% ACC。

消融实验

损失组件消融(ACC,节选 I = 不完整 / N = 噪声 / I+N,LandUse-21 与 ProteinFold):

设置 配置 LandUse-21 ProteinFold 说明
I \(\mathcal{L}_{rec}\) 15.1 17.0 只重构
I + \(\mathcal{L}_{ggc}\) 23.3 17.1 LandUse +8.2
I 26.9 30.6 三项齐全
N \(\mathcal{L}_{rec}\) 22.0 17.4 只重构
N + \(\mathcal{L}_{lwc}\) 25.6 19.7 ProteinFold +4.9(论文口径)
N 27.4 31.5 三项齐全

关键发现

  • GGC 主治不完整、LWC 主治噪声,分工清晰:不完整设置下加 \(\mathcal{L}_{ggc}\) 让 LandUse-21 的 ACC +8.2%;噪声设置下加 \(\mathcal{L}_{lwc}\) 让 ProteinFold +4.9%(论文文字口径)。
  • 加权机制(带高阶局部图 \(\hat W\))有效:去掉/加上权重 \(W\) 的对比中,DHA 不完整设置 ACC 从 64.2% 升到 75.5%,ProteinFold 噪声设置从 26.8% 升到 31.5%,说明对样本对粒度的自适应加权确实压住了不可靠对应。
  • 越极端越能拉开差距:缺失率 1.0 时 ALOI 领先 34.7%,说明全局图补对的收益随稀配对加剧而放大。

亮点与洞察

  • 把"缺失/噪声"从数据问题重定义成"配对问题":不去补数据,而是用图重新决定"谁配谁、信几分",绕开了补全路线"假数据→假监督"的恶性叠加,这个视角切换很干净。
  • 全局图 vs 局部图分工互补:全局图(全样本)负责"补正负对治稀配对",局部图(batch 内、带高阶传播)负责"算可信权重治误配对",一个加对、一个调权,刚好对上不完整与噪声两类污染。
  • 可迁移 trick:把局部亲和度 \(\hat W_{ii}\) 直接乘到 InfoNCE 正对分子上做软加权,是个轻量、即插即用的"对级置信度"做法,可迁到任意有噪声对应(noisy correspondence)的跨模态对比学习里。

局限与展望

  • 跨视图对的二次复杂度:每 batch 算所有视图对的亲和与高阶图是 \(O(V^2|B|^2)\),视图数 \(V\) 大(如 ProteinFold 的 12 视图)时开销可观;虽对 \(N\) 线性,但 \(V\) 维度上偏重。
  • 多个超参需调\(pos\%/neg\%\) 阈值、\(\sigma\)\(\alpha/\beta\) 都要设,论文未充分给出跨数据集的敏感性曲线,实际迁移时调参成本待评。⚠️ 高阶局部图 \(\hat W^{(u,v)}=W^{(u,v)}(W^{(v,v)})^{T}\)\(W^{(v,v)}\) 为视图 \(v\) 自身的亲和图,具体传播语义以原文为准。
  • 噪声类型受限:实验的"噪声"是特征加高斯扰动(对应关系仍保留),不同于会引入假正对的 noisy correspondence;对后者的鲁棒性未直接验证。
  • 数据集规模偏小(最大 ALOI 1.08 万样本),更大规模下全局图的可扩展性待考。

相关工作与启发

  • vs 补全式不完整 MVC(COMPLETER / DCG / CPSPAN):它们先恢复缺失视图再聚类,本文 imputation-free,用全局图直接补对,避开补全引入的额外噪声。
  • vs 视图粒度加权抗噪(Wang et al. / Xu et al.):它们给整个视图赋权、粒度粗,本文 LWC 做到样本对粒度的自适应加权,能分辨具体哪几个对是误配的。
  • vs FreeCSL 等对比式不完整 MVC:前人对比学习仍只在物理成对样本上做,忽视稀配对与误配对,本文正面把这两个问题作为优化对象。

评分

  • 新颖性: ⭐⭐⭐⭐ 把不完整/噪声重铸为稀配对/误配对,并用全局图补对 + 局部图加权统一解决,视角清晰
  • 实验充分度: ⭐⭐⭐⭐ 四数据集 × 三设置 × 多比例的系统对比,消融到位;但数据集规模偏小、超参敏感性展示不足
  • 写作质量: ⭐⭐⭐⭐ 问题命名(rare/mis-paired)和框架图清楚,公式完整
  • 价值: ⭐⭐⭐⭐ imputation-free + 对级软加权可迁到更广的噪声对应对比学习