跳转至

Incomplete Multi-View Multi-Label Classification via Shared Codebook and Fused-Teacher Self-Distillation

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=LAuep7N7rF
代码: https://github.com/xuy11/SCSD
领域: 多视图多标签学习 / 表示学习
关键词: 不完整多视图、多标签分类、向量量化、共享码本、自蒸馏、标签相关性

一句话总结

针对"视图和标签同时缺失"的双缺失场景,SCSD 用一个跨视图共享的离散码本把不同视图量化对齐成一致表示,再用基于标签相关性的加权融合和"融合预测当教师"的自蒸馏,实现稳健的多视图多标签分类。

研究背景与动机

领域现状:多视图多标签学习(同一样本由多个模态/特征描述,且带多个标签)已被广泛研究,主流做法是用对比学习(DICNet)或信息瓶颈(SIP)学习视图间一致表示,再用平均/可学习权重/质量判别器做决策融合。

现有痛点:现实中"视图完整 + 标签全标注"几乎不可能——传感器故障、遮挡、隐私限制导致视图缺失;细粒度标注昂贵导致标签缺失。当视图缺失标签缺失同时发生(dual-missing),只针对单一缺失设计的方法往往失效。

核心矛盾:现有一致表示学习依赖基于 loss 的软约束(对比损失、最小化非共享信息的正则),缺乏显式结构约束——视图缺失时容易欠表示或过正则,难以学到稳定且判别性强的共享语义;而多数融合策略忽视标签相关性蕴含的结构信息,且可学习权重/质量判别器会引入额外训练开销。

本文目标:在双缺失条件下,用更"结构化"的机制学习一致表示,并设计无需额外网络的融合与训练范式,提升泛化能力。

核心idea:(1)离散化对齐 —— 用跨视图共享码本把连续特征量化进有限码本嵌入空间,不同视图自然对齐、冗余降低;(2)结构感知融合 —— 用各视图预测能否保持标签相关性结构来打分赋权;(3)融合教师自蒸馏 —— 把融合预测作为教师反哺各单视图分支。

方法详解

整体框架

SCSD(Shared Codebook + Self-Distillation)分上下两段:上段是多视图一致离散表示学习,把各视图编码→共享码本量化→跨视图重构;下段是多视图预测融合 + 自蒸馏,各视图分类后按标签相关性加权融合,再用融合预测当教师蒸馏回各视图。缺失视图/标签用零填充,并由指示矩阵 \(W\)(视图)、\(G\)(标签)在各损失中做掩码。

flowchart TD
    X["多视图输入 X⁽ᵛ⁾<br/>(部分缺失)"] --> E["视图专属 MLP 编码器<br/>→ 连续特征 Z⁽ᵛ⁾"]
    E --> Q["共享码本量化<br/>(分组VQ, 最近邻查表)"]
    Q --> Zhat["离散一致表示 Ẑ⁽ᵛ⁾"]
    Zhat --> R["跨视图 MLP 解码重构<br/>L_rec + L_vq"]
    Zhat --> C["各视图分类器 → P⁽ᵛ⁾"]
    C --> F["标签相关性加权融合<br/>→ 融合预测 P"]
    F --> Lc["BCE 监督 L_c"]
    F -->|teacher, stop-grad| D["融合教师自蒸馏<br/>L_dis (MLD)"]
    C -->|student| D

关键设计

1. 共享码本 + 跨视图重构:用离散瓶颈做结构化对齐。 不同视图原始维度 \(d_v\) 各异,先用视图专属 MLP 编码器映射到统一维度 \(Z^{(v)}=E^{(v)}(X^{(v)})\)。关键一步是向量量化:定义一个所有视图共享的可学习码本 \(V=\{e_i\}_{i=1}^{k}\),对每个样本特征分成 \(g\) 段,每段用 \(\ell_2\) 归一化后的最近邻查表 \(t^*=\arg\min_j \|\ell_2(z_t)-\ell_2(e_j)\|_2^2\) 替换成码本嵌入,再拼回离散表示 \(\hat{Z}^{(v)}\)。由于所有视图共用同一个有限码本,不同视图自然落到同一离散空间里对齐,冗余被压缩。为进一步强化一致性,作者用跨视图重构——用视图 \(j\) 的解码器去重构视图 \(v\) 的表示 \(\hat{X}^{(j,v)}=D^{(j)}(\hat{Z}^{(v)})\),重构损失 \(\mathcal{L}_{rec}\) 只在两视图都存在时(\(W_{i,j}W_{i,v}=1\))计算。量化的不可导问题用直通梯度估计 \(z_t=\text{sg}[z_t-\hat{z}_t]+\hat{z}_t\) 解决,码本学习目标 \(\mathcal{L}_{vq}\) 含 codebook 项和 commitment 项两边对齐。这一离散瓶颈替代了对比/信息瓶颈的软约束,提供了显式结构约束。

2. 标签相关性导向的加权融合:让"懂标签结构"的视图说话。 不引入任何额外网络或可学习权重,而是用标签相关性矩阵来评估各视图预测质量。先从训练集真值标签用条件概率算出全局相关矩阵 \(S_{i,j}=\frac{Y_{:,i}^\top Y_{:,j}}{Y_{:,i}^\top Y_{:,i}+\varepsilon}\)(标签 \(i\) 出现时标签 \(j\) 出现的概率);再用每个视图当前 batch 的预测 \(\hat{P}^{(v)}\) 同样算出 \(S^{(v)}\)。对称化、行归一化后,用 Frobenius 范数衡量视图能否保持全局相关结构,质量分 \(q^{(v)}=-\|\hat{S}^{(v)}-\hat{S}\|_F\),再经温度 softmax 得到权重 \(w_i^{(v)}=\frac{\exp(q^{(v)}/\tau)\cdot W_{i,v}}{\sum_u \exp(q^{(u)}/\tau)\cdot W_{i,u}}\),融合预测 \(P_{i,:}=\sum_v w_i^{(v)}P_{i,:}^{(v)}\)\(S^{(v)}\) 每个 batch 随预测更新,权重随训练阶段自适应变化,与全局标签依赖一致的视图被优先采信,噪声视图被抑制。融合预测用掩码 BCE(\(G\) 掩盖缺失标签)监督。

3. 融合教师自蒸馏 + 多标签 logit 蒸馏(MLD):把全局知识反哺单视图。 把聚合了所有视图信息的融合预测 \(P\)教师(stop-gradient),各单视图预测 \(P^{(v)}\)学生。蒸馏损失 \(\mathcal{L}_{dis}=\frac{1}{\sum W}\sum_i\sum_v\big[\lambda D_{KL}(\text{sg}[P_{i,:}]\,\|\,P_{i,:}^{(v)})+(1-\lambda)\mathcal{L}_{bce}(P_{i,:}^{(v)},Y_{i,:})\big]W_{i,v}\),由模仿系数 \(\lambda\) 平衡"学教师"与"学真值"。注意传统蒸馏假设类概率和为 1,在多标签下不成立——作者改用多标签 logit 蒸馏(MLD),按 one-versus-all 把任务拆成多个二分类、逐标签对齐师生概率差,使蒸馏在多标签场景下有效。这样单视图分支既吸收融合预测里的全局知识,又保留自身视图特性,提升一致性与泛化。

总损失 \(\mathcal{L}=\mathcal{L}_c+\mathcal{L}_{dis}+\alpha\mathcal{L}_{rec}+\mathcal{L}_{vq}\),整体复杂度由编解码主导、随样本数 \(n\) 线性增长。

实验关键数据

主实验(50% 缺视图 + 50% 缺标签 + 70% 训练,AP 指标)

数据集 DICNet SIP RANK DRLS(次优) SCSD
Corel5k 0.378 0.416 0.425 0.433 0.447
Pascal07 0.502 0.550 0.554 0.567 0.578
Espgame 0.299 0.310 0.314 0.326 0.345
Iaprtc12 0.327 0.331 0.347 0.356 0.385
Mirflickr 0.586 0.615 0.606 0.630 0.634

SCSD 在全部 5 个数据集、平均排名(Ave.R)均为 1.0。在标签空间更复杂的 Espgame / Iaprtc12 上较次优 DRLS 提升 5.83% / 8.15%;相较 DICNet(对比学习)和 SIP(信息瓶颈)的 5 数据集平均 AP 提升 14.94% / 8.65%。在"视图完整 + 标签完整"设置下(图 2 雷达图)SCSD 仍在多数指标取得最优,说明共享码本机制的表示能力并不局限于缺失场景。

消融实验(Corel5k / Pascal07,AP)

变体 Corel5k Pascal07
SCSD(完整) 0.447 0.578
w/o \(\mathcal{L}_{dis}\)(去自蒸馏) 0.376 0.560
w/o \(\mathcal{L}_{dis}\) KL(只去 KL 模仿项) 0.411 0.572
w/o \(\mathcal{L}_{rec}\)(去跨视图重构损失) 0.439 0.560
w/o VQ(不量化,用连续特征) 0.430 0.565
w/o cross-view rec(改单视图重构) 0.442 0.553
w/o S fusion(改掩码平均融合) 0.445 0.570

关键发现

  • 自蒸馏 + 共享码本贡献最大:去掉 \(\mathcal{L}_{dis}\) 在 Corel5k 上 AP 暴跌 0.447→0.376;去掉 VQ 也明显下降,证实离散码本对一致表示学习的支撑作用。
  • 标签数多时融合更有效:去 S fusion 在 Pascal07(20 个标签)上掉得更明显,因为标签多→相关矩阵 \(S\) 更可靠→更能识别各视图预测质量。
  • 超参不敏感:温度 \(\tau\) 在较宽区间内对结果影响很小;\(\alpha\)\(\lambda\) 在合理范围内稳定。码本配置 \(k=2048\)、嵌入维度 \(d_c=4\)、k-means 初始化。

亮点与洞察

  • 用离散瓶颈替代软对齐约束:把"学一致表示"从对比/信息瓶颈的 loss 约束,换成共享码本的显式结构约束——有限码本天然强制不同视图落到同一离散空间,这是处理视图缺失时更鲁棒的思路。
  • 融合权重"零额外参数":用标签相关性结构的 Frobenius 差作为视图质量代理,不需要质量判别器或可学习权重网络,且 batch 级自适应更新。
  • 直面多标签蒸馏的本质难题:明确指出传统 KL 蒸馏"概率和为 1"假设在多标签下失效,引入 MLD 的 one-vs-all 逐标签对齐,是把自蒸馏正确落地到多标签的关键。

局限与展望

  • 码本带来额外开销:存储/更新码本嵌入占内存,量化时计算特征与码本的距离矩阵增加计算量。
  • 高缺失率下对齐变弱:量化模块假设不同视图能在共享潜空间对齐,当视图缺失率非常高时,可用于对齐的跨视图信息骤减,共享码本的泛化能力会被削弱。
  • 可探索方向:自适应码本大小、面向极端缺失的对齐补偿机制,以及把离散码本一致表示推广到更多视图缺失模式。

相关工作与启发

  • 一致表示学习:DICNet(对比学习构造跨视图正对)、SIP(信息瓶颈最大化共享信息)——SCSD 用离散码本提供了第三条"结构化"路线。
  • 多视图融合:AIMNet(平均融合)、LMVCAT(可学习权重)、RANK(视图质量子网络)——SCSD 用标签相关性做无参数质量评估。
  • 向量量化 / 自蒸馏:借鉴 VQ-VAE 的直通估计与分组量化、自蒸馏框架与 MLD 多标签蒸馏,迁移到双缺失多视图多标签设定。
  • 启发:当软对齐在数据缺失时不稳,引入"有限离散瓶颈"作为显式结构约束是值得迁移的范式;监督信号里的结构信息(标签相关性)可直接当作免费的质量度量。

评分

  • 新颖性: ⭐⭐⭐⭐ 把共享码本离散瓶颈、标签相关性无参数融合、多标签融合教师自蒸馏三者组合到双缺失场景,思路新颖且各模块动机清晰,虽各组件源自已有技术。
  • 实验充分度: ⭐⭐⭐⭐ 5 个标准数据集、8 个对口 baseline、6 个指标,含完整/缺失两种设置、消融与超参分析,证据扎实;但缺失率仅测 50% 这一档,未系统扫描不同缺失程度。
  • 写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅,公式与框架图清晰,三个设计的取舍说明到位。
  • 价值: ⭐⭐⭐⭐ 双缺失是现实高频但研究少的设定,方法稳定且开源,对多视图多标签学习社区有实用参考价值。