Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration¶

会议: CVPR 2026
arXiv: 2605.03820
代码: https://github.com/XunCHN/CPSC (有)
领域: 多模态VLM
关键词: 多模态学习, 共形预测, 模态不平衡, 噪声鲁棒, 自校准训练

一句话总结¶

本文提出 CPSC（Conformal Predictive Self-Calibration），把模态不平衡和噪声污染这两个看似独立的"低质量数据"问题归因于同一个根源——模型对各模态/各样本可靠性的预测不确定性，并用共形预测（CP）在训练过程中实时生成可靠性分数，同时在特征层（挑出可靠特征分量重组）和梯度层（按样本可靠性重加权梯度）做自校准，在 6 个数据集的不平衡与噪声设置下都刷新了 SOTA。

研究背景与动机¶

领域现状：现实多模态系统经常面对"低质量数据"，主要表现为两种形态——隐式模态不平衡（不同模态收敛速度不一致，模型偏向占主导的强模态，弱模态被忽略）和显式噪声污染（某些模态被高斯/椒盐噪声等动态干扰）。学界一直把这两个问题分开处理：不平衡这边有加权损失、梯度调制、重采样；噪声那边则做鲁棒融合、可靠性建模。

现有痛点：分而治之的方案各自只在自己的设定里有效，缺一个能同时管住两类问题的统一框架。更深一层，这些方法大多绑定特定架构（late fusion 加权、中间层引导）或先验假设（如贝叶斯需要 prior），不是 model-agnostic 的。

核心矛盾：作者指出不平衡与噪声其实共享同一个根源——它们都会抬高模型的预测不确定性（Fig.1 用预测分布的对数熵佐证）。不平衡让弱模态被忽视，噪声往学习里注入错误信息，二者最终都导致模型给出"自信但不可靠"的过自信预测。既然根源相同，就该从"量化并校准预测不确定性"这一个角度统一解决。

本文目标：设计一个模型无关、分布无关的预测不确定性量化机制，并把它嵌进训练循环，让模型一边训练一边诊断自己的不确定性、纠正学习轨迹。

切入角度：作者借用共形预测（Conformal Prediction, CP）——一个能给出带有限样本、分布无关覆盖保证的预测集合的统计框架。和贝叶斯不同，CP 不需要先验，天然 model-agnostic；但已有 CP 工作几乎都是事后（post-hoc）用，训练完才套个预测集。本文的新意是把 CP 拉进训练循环里动态维护，让它和主模型协同进化。

核心 idea：用一个随训练动态刷新的 CP 模型，给每个特征分量、每个样本-模态对打"可靠性分数"，再用这个分数同时校准特征表示和梯度流向，把不平衡和噪声当成同一个不确定性问题一起治。

方法详解¶

整体框架¶

CPSC 在标准多模态训练管线上加一套"自校准训练循环"。给定含 \(M\) 个模态的训练数据，先把它按同分布随机切成训练集 \(\mathcal{D}_{train}\) 和校准集 \(\mathcal{D}_{cal}\)（校准集专门喂给 CP 模型算分位数）。整个流程分两阶段：预热阶段先用普通交叉熵把多模态模型 \(f_\theta=\{E^1,\dots,E^M,F\}\)（各模态编码器 + 融合分类器）训到 \(t_0\) 个 epoch，再用校准集初始化 CP 模型（算非一致性分数、取初始分位数 \(\hat{q}_{t_0}\)）；之后进入自校准循环，每个 iteration 依次做：① 抽单模态特征并用当前 CP 模型做表示自校准（RSC），② 融合校准后的特征算预测，③ 用 CP 可靠性分数做梯度自校准（GSC）再反传，④ 更新模型参数 \(\theta_t\to\theta_{t+1}\)，⑤ 用更新后的模型在校准集上重算分位数刷新 CP 模型（CP Updating），形成闭环。关键在于 CP 模型与主模型共享参数（CP 的"分类器"就是主模型的分类器），所以模型一变，可靠性判断也跟着变，二者同步进化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模态数据<br/>切成 训练集 + 校准集"] --> B["预热训练 + CP 模型构建<br/>交叉熵训到 t0，校准集定初始分位数"]
    B --> C["表示自校准 RSC<br/>特征分解→CP打分→挑可靠分量重组"]
    C --> D["融合校准特征<br/>算多模态/单模态预测"]
    D --> E["梯度自校准 GSC<br/>按模态可靠性重加权梯度"]
    E --> F["更新模型参数 θt→θt+1"]
    F --> G["共形预测器更新<br/>用新模型在校准集重算分位数 q̂"]
    G -->|进入下一 iteration| C

关键设计¶

1. 共形预测器构建与协同更新：让 CP 实时跟着模型走，而不是事后套一层

CP 的核心是非一致性分数（nonconformity score）：对样本 \((x,y)\)，\(s(x,y)=1-f(x)_y\)，即模型给真标签的预测概率越低、分数越高，说明这对样本越"反常"。给定风险因子 \(\alpha\)，在校准集 \(n\) 个分数里取第 \(\lceil(n+1)(1-\alpha)\rceil/n\) 分位数 \(\hat{q}\)，就能构造预测集 \(C(x)=\{y:s(x,y)\le\hat{q}\}\)，并保证边际覆盖 \(\mathbb{P}(y\in C(x))\ge 1-\alpha\)。本文不把这套机制留到测试后，而是在每个 iteration 结束后用更新过的模型 \(f_{\theta_{t+1}}\) 在校准集上重算所有 \(s_i^{t+1}=1-f_{\theta_{t+1}}(x_i)_{y_i}\)、刷新分位数 \(\hat{q}_{t+1}\)（式 16–17）。这样 CP 模型始终和当前模型状态同步，避免用"过期"的不确定性判断误导后续训练——消融显示更新间隔越长性能单调下降，正说明这一点。

2. 表示自校准 RSC：把单模态特征拆成分量，只留 CP 认证最可靠的那几块来融合

针对"噪声会污染部分特征、弱模态特征被淹没"的痛点，RSC 不直接用整条单模态特征，而是先分解：把原始特征 \(h^m\) 经一个模态专属全连接 \(W^m_{dec}\in\mathbb{R}^{l\times d}\)（\(l=n\times d\)）升维并 ReLU 得 \(h^m_{high}\)，再切成 \(n\) 个分量 \(\{c^m_k\}\)，每个 \(c^m_k\in\mathbb{R}^d\) 捕捉表示的不同侧面。为让分量既贴近原特征又彼此有差异，加了一个 KL 散度约束 \(\mathcal{L}^m_{div}=\frac{\lambda_1}{n}\sum_k D_{KL}(P(h^m)\|P(c^m_k))-\frac{\lambda_2}{n(n-1)}\sum_{i\neq j}D_{KL}(P(c^m_i)\|P(c^m_j))\)（一致性项把分量拉向原特征核心，多样性项推开分量之间，\(\lambda_1{=}0.8,\lambda_2{=}0.2\)）。

接着用 CP 给每个分量打可靠性分数：把 \(c^m_k\) 喂给单模态分类器 \(F_m\) 得概率 \(p^m_k\)，算各类非一致性分数 \(s(c^m_k,y)=1-p^m_k[y]\)，构造预测集 \(C(c^m_k)\)，然后看真标签 \(y\) 在按非一致性升序排序后的预测集里排第几——\(r^m_k=1-\frac{\text{rank}[y,C(c^m_k)]}{|C(c^m_k)|}\)（真标签排得越靠前、分越高；\(y\) 不在预测集里则 \(r^m_k=0\)）。最后把分数 top-\(K\) 的分量取平均得到校准特征 \(\tilde{h}^m=\frac{1}{K}\sum_{k\in\mathcal{S}^m}c^m_k\)。论文给了 Proposition 1：校准表示与理想鲁棒表示的期望偏差被选中分量的偏差上界控制，从理论上佐证"挑可靠分量"的有效性。直觉上，噪声污染的分量得分低被丢掉，弱模态里稀有但有信息的分量得分高被保留，从而抵抗噪声、缓解不平衡。

3. 梯度自校准 GSC：按样本-模态可靠性重加权梯度，把优化往可信方向推

RSC 管特征，GSC 管优化。拿到最终预测 \(\hat{y}=F(\{\tilde{h}^m\})\) 后，同步算多模态交叉熵 \(\mathcal{L}_{CE}(\hat{y},y)\) 和各单模态 \(\mathcal{L}^m_{CE}\)。反传之前先估每个模态的可靠性：注意这里不用真标签，而是把多模态预测标签 \(y'\) 当成"当前模型的协同判断"，再走一遍和 RSC 类似的 CP 流程，得到单模态可靠性 \(\rho^m=1-\frac{\text{rank}(y',C(\tilde{h}^m))}{|C(\tilde{h}^m)|}\)——它度量某模态与多模态协同判断的一致程度。然后用线性权重 \(w(\rho^m)=a\cdot\rho^m+b\)（\(a,b\) 控制校准强度和基线）调制该模态的梯度：\(\nabla_\theta\mathcal{L}^m_{GSC}=\frac{1}{|\mathcal{B}|}\sum_i w(\rho^m)\cdot\nabla_\theta\mathcal{L}^m_{CE}\)。可靠性低（\(\rho^m\) 小）的样本-模态梯度被压低，可靠性高的被放大。Proposition 2 论证：当 \(w(\rho)\) 与梯度范数正相关时，GSC 能降低随机梯度估计的有效方差，故优化更稳。

训练时 RSC 与 GSC 协同；推理阶段不做特征分解、不用 RSC，直接用训好的模型出预测——所以 CPSC 是个只在训练期生效、不增加推理开销的 model-agnostic 框架。

损失函数 / 训练策略¶

总训练目标为多模态分类损失 + 各模态多样性约束：\(\mathcal{L}=\mathcal{L}^{\text{mul}}_{CE}+\sum_{m=1}^M\mathcal{L}^m_{div}\)，参数更新时再叠加 GSC 调制后的单模态梯度：\(\theta\leftarrow\theta-\eta(\nabla_\theta\mathcal{L}+\nabla_\theta\mathcal{L}^m_{GSC})\)。超参：预热 epoch \(t_0\)、CP 风险因子 \(\alpha\)、分量数 \(n\) 与选取数 \(K\)、\(\lambda_1{=}0.8/\lambda_2{=}0.2\)、梯度权重 \(a,b\)。骨干网络：音视频用 ResNet18（音频转 257×1004 频谱图、视频从 10 帧片段采样）；RGB-Depth 用 ResNet18；图文 MVSA 用 ResNet152 提图像 + 预训练 BERT 提文本。

实验关键数据¶

主实验¶

不平衡多模态学习（Acc\(_m\)/Acc\(_a\)/Acc\(_v\) 分别为多模态/音频/视觉准确率，Avg 为均值）：

数据集	指标	CPSC	之前SOTA(ARL/IPRM等)	提升
Kinetics Sounds	Acc\(_m\)	76.08	74.82 (IPRM)	+1.26
CREMA-D	Acc\(_m\)	87.83	86.02 (LFM)	+1.81
CREMA-D	Avg	78.65	75.94 (LFM)	+2.71
AVE	Acc\(_m\)	77.66	75.81 (MMPareto)	+1.85
AVE	Avg	63.41	61.85 (MMPareto)	+1.56

三个数据集的多模态与单模态准确率全面领先；论文称在 AVE 上多模态准确率较 ARL 提升约 5%、CREMA-D 上约 3%。

鲁棒多模态学习（含高斯 GS / 椒盐 SP 噪声，强度 \(\epsilon\)）：

数据集	Clean	GS@5	GS@10	SP@5	SP@10
MVSA (CPSC)	80.07	74.12	63.32	73.95	61.27
MVSA 次优	79.15(EAU)	73.34	61.78	73.69	60.46
NYU Depth V2 (CPSC)	73.12	64.15	57.32	61.22	47.40
SUN RGB-D (CPSC)	62.12	54.11	49.10	53.37	41.28

Clean 与各噪声强度下 CPSC 都最优，且噪声越强相对优势越明显（基线随噪声大幅退化、CPSC 更稳）。

消融实验¶

在 CREMA-D（不平衡）与 NYU Depth V2（噪声）上拆 RSC/GSC：

配置	CREMA-D Avg	NYU SP@10	说明
无 RSC / 无 GSC	73.10	41.22	baseline
仅 GSC	75.32	41.36	噪声下几乎无提升
仅 RSC	76.20	45.94	噪声下提升显著
Full (RSC+GSC)	78.65	47.40	完整模型最佳

RSC 子约束消融（Fig.3）：去掉 \(\mathcal{L}_{div}\)、只留一致性、只留多样性、全约束四档，单约束都有增益、全约束最优——一致性保语义连贯，多样性增覆盖减冗余。

关键发现¶

噪声场景下 RSC 远比 GSC 重要：噪声下 RSC 单独带来 2–5% 增益，GSC 单独几乎无提升；因为 RSC 能直接在特征层抑制被污染分量，而梯度重加权对显式噪声乏力。不平衡场景下二者则更接近、互补。
GSC 不挑优化器：SGD/Adam/AdaGrad 叠加 CPSC 都涨，CREMA-D 上 SGD 提升超 10%、AdaGrad 超 8%、Adam 约 2%，说明它是在引导优化轨迹避开局部极小、收敛到更优解。
CP 更新频率越低越差、预热不可省：更新间隔越长性能单调下降（用过期不确定性误导训练）；去掉 warm-up 明显变差（需要先建立基本表示能力，校准才有可靠基础）。
可靠性分布右移：训练后可靠性分数整体向高分集中（Fig.6），t-SNE 显示类内更紧、类间更分（Fig.5），证实它确实纠正了"过自信却不可靠"的预测。

亮点与洞察¶

把两个分家的问题归并到同一根因：不平衡和噪声看似无关，作者用"预测不确定性升高"把它们统一，这个 reframing 本身比具体模块更有价值——一旦统一，就能用一套机制（CP 可靠性分数）同时下两味药。
CP 从 post-hoc 变成训练内回路：以往 CP 都是训完套预测集；这里让 CP 与主模型共享分类器、每个 iteration 重算分位数协同进化，是把统计保证工具"内化"进训练的巧思，可迁移到任何分类式多模态训练。
特征层 + 梯度层双路校准且分工明确：RSC 管"用哪些特征"、GSC 管"信哪些样本的梯度"，消融还给出了"噪声靠 RSC、不平衡靠两者"的清晰边界，便于后人按场景裁剪。
用多模态预测标签而非真标签算模态可靠性：GSC 里把 \(y'\)（多模态协同判断）当参照来度量单模态一致性，巧妙地把"模态间协同程度"转成可计算的可靠性，可迁移到其它需要衡量模态贡献的任务。

局限与展望¶

依赖校准集的同分布假设：CP 的覆盖保证建立在校准集与测试同分布上，遇到 OOD/分布漂移时分位数可能失准，论文未讨论这种情形。
训练开销上升：每个 iteration 要做特征分解 + 逐分量 CP 打分，且每轮在整个校准集上重算分位数，相比普通训练更重；论文未给训练时间/显存对比。
超参偏多：\(n,K,\alpha,\lambda_1,\lambda_2,a,b\) 都需调，敏感性分析只覆盖了更新频率与部分约束，\(K/n\) 的选取、\(\alpha\) 的影响交代不充分。
只验证分类任务：方法天然绑定"分类预测集"，对回归、检索、生成等非分类多模态任务能否套用未知；作者把扩展到更多场景列为 future work。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用"预测不确定性"统一不平衡与噪声，并把共形预测从事后工具改造成训练内自校准回路，视角和机制都新。
实验充分度: ⭐⭐⭐⭐ 6 数据集双设置 + 模块/约束/优化器/更新频率/预热多维消融 + t-SNE/可靠性可视化，较完整；但缺训练开销对比、OOD 与超参敏感性分析。
写作质量: ⭐⭐⭐⭐ 动机递进清晰、模块分工明确、配两条命题；个别记号（CP 模型与主模型共享）需读图才完全对上。
价值: ⭐⭐⭐⭐ 提供了一个 model-agnostic、即插即用、只在训练期生效的多模态低质量数据通用方案，实用性强、易被复用。