Bootstrapping Multi-view Learning for Test-time Noisy Correspondence¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/XLearning-SCU/2026-CVPR-BML
领域: 多视图学习 / 可信融合
关键词: 测试时噪声对应, 多视图融合, 可靠性估计, 自举增强, 揭示监督
一句话总结¶
针对部署时才出现的"视图错配"(Test-time Noisy Correspondence, TNC),BML 在干净训练集上就地自举注入可控错配并记录被污染的视图,用这份已知答案监督一个轻量可靠性估计器(同时吃视图内不确定性 + 视图间预测分歧),推理时直接用估计的可靠性权重加权融合压制坏视图,在 11 个基准上稳定超过现有 SOTA。
研究背景与动机¶
领域现状:多视图/多模态学习靠融合互补视图(RGB、深度、文本等)提升感知与决策。一类"可信融合"方法(TMC、ECML、FUML 等)会给每个视图估一个可靠性/不确定性权重,融合时给可疑视图降权。
现有痛点:现实部署里,传感器异步采样、瞬时网络拥塞等会让推理时某些视图与真实标签不再对应——作者把这种现象正式定义为 Test-time Noisy Correspondence (TNC)。而现有方法的可靠性权重几乎全是在干净、对齐良好的训练集上学的,然后硬套到推理时的噪声输入上。
核心矛盾:这里存在一个被忽视的 train-test 任务鸿沟——训练阶段模型从没见过错配样本,估出来的可靠性是"盲估",在 TNC 下往往过度自信、标定失准;而且这些方法多是无监督地间接推断不确定性,没有任何"这个视图到底是不是坏的"的直接监督信号。
本文目标:在不引入任何额外数据/标注的前提下,让模型显式地"学会在 TNC 下融合"——既要在测试集真实分布上训练可靠性估计器,又要给它明确的监督信号。
切入角度:错配既然是"把视图 m 换成了别的样本的视图 m",那它在训练时是可以人为制造并且自己知道答案的。于是作者从"数据"和"模型"两端同时下手:数据端就地造可控错配、模型端用"已知被污染位置"当监督。
核心 idea:用 reveal-supervised(揭示监督) 范式替代无监督不确定性——自举生成带 TNC 的增强集、把人为注入的噪声位置作为监督标签,直接训练一个轻量可靠性估计器。
方法详解¶
整体框架¶
BML 是一个即插即用的后期融合框架。设 \(M\) 视图分类任务,每个视图 \(m\) 经过编码器-分类器 \([f(\cdot;\theta_m), g(\cdot;\phi_m)]\) 得到特征 \(z_i^{(m)}\)、logits \(\ell_i^{(m)}\) 和预测分布 \(p_i^{(m)}=\mathrm{softmax}(\ell_i^{(m)})\)。最终融合是视图自适应的加权求和:
整个方法的关键就是怎么得到每个视图的可靠性权重 \(\alpha_i^{(m)}\in(0,1)\)。BML 的流水线是:每个 epoch 开始时,从干净训练集就地自举生成一份带可控错配的增强集(并记下哪些视图被污染)→ 把增强集和干净数据交织送进训练 → 对每个视图,用一个轻量 MLP 估计器 \(E(\cdot;\psi_m)\) 吃"特征 + 视图间预测分歧 \(J\) + 视图内不确定性 \(Q\)"三路证据,输出可靠性 → 用"被污染位置"这个已知答案监督估计器 → 推理时直接用估计的 \(\alpha\) 加权融合。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["干净训练集<br/>M 视图样本"] --> B["就地 TNC 自举增强<br/>掩码注入错配 + 记录污染位置"]
B --> C["双路预测信号<br/>视图间分歧 J + 视图内不确定性 Q"]
C --> D["揭示监督可靠性估计器<br/>MLP 吃 [z‖J‖Q] 出 α"]
D -->|已知污染掩码 s 监督 BCE| D
D --> E["可靠性加权后期融合<br/>Σ α·ℓ"]
E --> F["TNC 下鲁棒预测 ŷ"]
关键设计¶
1. 就地 TNC 自举增强:把"训练没见过错配"的鸿沟从数据端补上
现有方法的根本问题是训练集干净、测试集带错配,估计器从没"见过"它将来要处理的输入。BML 直接在训练集上模拟出 TNC:每个 epoch 开始,先从 \(N\) 个样本里采一个子集 \(\widetilde{S}\)(\(|\widetilde{S}|=\lfloor\rho N\rfloor\),\(\rho\) 是增强率)。对子集里每个样本 \(i\),抽一个视图级掩码 \(s_i=(s_i^{(1)},\dots,s_i^{(M)})\in\{0,1\}^M\),并约束在 TNC 的"少数错配"区间:
即至少错配 1 个、至多错配一半视图,保证剩下的干净视图仍能识别标签。当 \(s_i^{(m)}=1\) 时,把视图 \(m\) 的输入在自举池内换成另一个样本 \(j\) 的同视图 \(x_j^{(m)}\)(标签 \(y_i\) 不变,从而制造"视图与标签不对应"),\(s_i^{(m)}=0\) 则保留原视图。子集外的样本掩码恒为 0。"就地(in-place)+ 每个 epoch 重采样"是关键——既不需要外部数据,又能让错配模式不断变化,避免估计器记住固定的污染模式。
2. 揭示监督的可靠性估计器:把人造噪声的"已知答案"当监督
既然错配是自己造的,哪个视图被污染是已知的——这正是无监督方法缺的监督信号。BML 用一个轻量 MLP \(E(\cdot;\psi_m)\) 把每个视图的证据 \(u_i^{(m)}\) 映射成可靠性分数 \(\alpha_i^{(m)}=\sigma[E(u_i^{(m)};\psi_m)]\in(0,1)\)。然后用掩码的反码 \(1-s_i^{(m)}\)(干净=1、污染=0)作为标签,对 \(\alpha\) 做二元交叉熵监督:
这个目标把干净视图的可靠性推向 1、被污染视图推向 0,让权重直接服务于鲁棒融合。和过去"无监督地建模不确定性、再寄希望于它恰好等价于可靠性"相比,这里是直接告诉模型答案,因此权重更稳定、更可解释。
3. 双路预测衍生信号:光看特征不够,再补"分歧"和"含糊"两个证据
只从特征 \(z_i^{(m)}\) 学可靠性不足以判断错配,因为特征本身不直接量化"这个视图有多噪"。BML 再补两路从预测里挖的信号。其一是视图间预测分歧,用对称化的 Jeffreys 散度衡量视图 \(m\) 与其它视图的不一致:
\(J_i^{(m)}\) 越大,说明该视图越偏离其它视图的共识、越可能错配。其二是视图内预测不确定性,用归一化熵衡量视图自身的预测质量:
预测越自信 \(Q\) 越小、越含糊越大。两者互补——\(J\) 看"跟别人比对不对得上",\(Q\) 看"自己有没有把握"。最后把三路拼起来作为估计器输入:
这样估计器能更好地把可信证据(低 \(J\)、低 \(Q\))和坏视图(高 \(J\) 和/或高 \(Q\))区分开。
损失函数 / 训练策略¶
端到端联合优化分类损失与可靠性监督损失。分类用融合后预测的交叉熵 \(\mathcal{L}_{cls}=-\frac{1}{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\log\hat{p}_{i,y_i}\),总损失为:
\(\lambda>0\) 平衡任务目标与自举监督(特征向量数据集 \(\lambda=1.0\),原始数据集 SUN R-D-T 上 \(\lambda=50.0\))。推理时对潜在噪声输入直接算 \(\hat{J}\)、\(\hat{Q}\)、\(\alpha\) 并加权融合,无需任何显式噪声指示器,因为估计器已在自举集上学会自动识别并压制不一致视图。
实验关键数据¶
主实验¶
11 个基准(10 个特征向量数据集 + 自建原始数据集 SUN R-D-T),对比 9 个 SOTA(TMC/UIMC/ECML/CCML/ETF/TMCEK/FUML 等可信方法 + MAMC/RML 确定性方法),噪声比 \(\eta\in\{0\%,50\%,100\%\}\),10 个随机种子取均值。下表节选部分数据集的平均准确率(AVG. 为该表 5 个数据集均值):
| 噪声比 | 数据集组 | 之前最佳 baseline | BML | 提升 |
|---|---|---|---|---|
| 0% | Caltech/Leaves/HW/LandUse/Scene | 89.38 (FUML) | 92.45 | +3.07 |
| 50% | 同上 | 83.49 (FUML) | 89.02 | +5.53 |
| 100% | 同上 | 78.11 (FUML) | 85.39 | +7.28 |
| 0% | CCV/Fashion/NUS-OBJ/AWA/YouTubeFace | 64.51 (ETF) | 69.79 | +5.28 |
| 50% | 同上 | 57.04 (FUML) | 63.72 | +6.68 |
| 100% | 同上 | 51.32 (FUML) | 57.83 | +6.51 |
噪声越大、BML 优势越明显(100% TNC 下领先幅度最大),印证它确实补上了 train-test 鸿沟。即便 0% 干净场景,BML 也全面领先(如 LandUse 上超 RML 6.03%、NUS-OBJ 上超 FUML 4.77%),说明揭示监督让它即使对齐良好也能利用逐视图质量。SUN R-D-T 原始数据集(RGB+深度+文本三视图)上 BML 在三档噪声均显著最优(0%/50%/100% 分别 68.15/64.54/60.97,均超第二名约 4-5 个点)。
消融实验¶
50% TNC 下逐组件消融(7 个数据集 AVG.):
| 配置 | AVG. | 说明 |
|---|---|---|
| FULL | 79.38 | 完整 BML |
| W/O \(\mathcal{L}_w\) | 71.77 | 去掉揭示监督损失,掉 7.61(最关键) |
| W/O on-the-fly | 74.25 | 不每 epoch 重采样错配,掉 5.13 |
| W/O \(J\) | 78.35 | 去掉视图间分歧信号,掉 1.03 |
| W/O \(Q\) | 79.14 | 去掉视图内不确定性,掉 0.24 |
关键发现¶
- 揭示监督损失 \(\mathcal{L}_w\) 贡献最大:去掉它直接掉 7.61,说明"用已知污染位置当监督"是 BML 区别于无监督可信方法的核心,远比两路预测信号重要。
- on-the-fly 重采样不可省:固定污染模式(W/O on-the-fly)掉 5.13,验证自举式多样化错配能防止估计器过拟合到特定噪声模式。
- 两路预测信号是锦上添花:\(J\)(+1.03)比 \(Q\)(+0.24)更有用,因为视图间分歧更直接地暴露"错配"这种跨视图不一致;\(Q\) 提供的额外信息相对有限。
- 可靠性标定合理(Q3):可视化显示干净视图与噪声视图的可靠性 \(\alpha\) 分布明显分离,证明估计器确实把坏视图降权了。
亮点与洞察¶
- 把"测试时才出现的错配"形式化为 TNC 并指出 train-test 任务鸿沟:这是一个被以往 noisy correspondence 研究忽视的部署侧问题(过去几乎只在训练时处理 NC),定义清晰、动机扎实。
- "自己造噪声所以自己知道答案"的揭示监督范式很巧妙:把无监督不确定性估计变成有监督二分类,既省标注又稳定,这个"用可控数据增强反向制造监督信号"的思路可迁移到其它"测试时分布偏移但偏移可模拟"的问题。
- 即插即用的后期融合:只在融合权重上动刀、不改主干编码器,迁移成本低,且在干净数据上也不掉点甚至涨点。
局限与展望¶
- TNC 假设"多数视图仍对齐"(错配数 \(1\le k_i\le\lfloor M/2\rfloor\)):当过半视图同时坏掉时方法不再适用,作者主要在此 regime 验证。
- 自举增强是"换同视图的别的样本":模拟的是"视图与标签不对应",但真实部署里的退化可能是噪声/模糊/时序错位等更复杂形态,⚠️ 这类非"整体替换"型错配是否同样有效,文中未充分覆盖。
- 可靠性估计器的标定依赖增强分布:若测试时错配统计与自举注入的差异很大,监督信号的有效性可能下降,可考虑自适应调整 \(\rho\) 或错配类型。
- 多数实验在特征向量数据集上,原始数据(图像/文本)只有一个自建 SUN R-D-T,更大规模真实多模态部署场景的验证仍有限。
相关工作与启发¶
- vs 可信多视图融合(TMC / ECML / FUML):他们用 EDL 或模糊集理论无监督地在干净训练集上估不确定性,BML 指出这会带来 train-test 鸿沟与盲估;BML 改用自举增强 + 揭示监督有监督地学可靠性,在所有噪声档全面领先(FUML 是各表第二名时 BML 仍稳超 5-7 个点)。
- vs 训练时 noisy correspondence 方法(鲁棒目标 / 样本重加权 / 对应矫正):他们把错配当训练阶段现象处理,BML 把视角扩展到部署/推理阶段,是对这条线的互补。
- vs 确定性多视图方法(MAMC / RML):他们靠提升表示质量或跨视图对齐,但默认测试时对应干净,遇到 TNC 会脆化;BML 显式建模测试时错配,鲁棒性更强。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 形式化 TNC 这一被忽视问题,并用"自造噪声反向制造监督"的揭示监督范式优雅破题
- 实验充分度: ⭐⭐⭐⭐⭐ 11 个基准 × 3 档噪声 × 10 种子,消融与可靠性可视化齐全
- 写作质量: ⭐⭐⭐⭐ 问题定义与方法叙述清晰,公式排版有 OCR 噪声但逻辑完整
- 价值: ⭐⭐⭐⭐⭐ 即插即用、面向真实部署的鲁棒融合,思路可迁移到其它可模拟的测试时偏移