CICA: Coupling Confidence-Aware Pretraining with Confidence-Informed Attention for Robust Multimodal Sentiment Analysis¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（未公开）
领域: 多模态VLM
关键词: 多模态情感分析, 置信度感知, 可靠性建模, 自适应融合, 模态冲突

一句话总结¶

CICA 让每个单模态编码器在预训练时学会"自评"信号可靠性（输出置信度 \(s_m\) 和不确定度 \(u_m\)），再用这两个信号去调制一个置信度感知注意力的输出，从而在文本/视觉/语音相互矛盾或缺失时自适应地放大可信模态、压制噪声模态，在 MOSI/MOSEI/CH-SIMS/CH-SIMSv2 四个基准上刷新 SOTA。

研究背景与动机¶

领域现状：多模态情感分析（MSA）要联合建模语言、视觉、语音三路信号来推断情感。主流做法从早期的张量融合（TFN、LMF）发展到基于 Transformer 的跨模态注意力（MulT），近年又出现了各种"引导式/非对称"融合（ALMT 假设文本主导、KuDA/CLGSI 用动态引导）。

现有痛点：真实数据几乎不可能干净、时间对齐。常见的是模态之间互相冲突——比如一个人脸上在笑（视觉强正），语气却很沮丧（语音负），文本中性，而 ground truth 跟随语音（-1.33），多数模型却被视觉的"笑"误导。它们用的是统一注意力，默认所有模态同等可信，内部根本没有一个机制去判断"这一条样本里到底哪个模态该说了算"。

核心矛盾：融合质量取决于"每个模态此刻有多可信"，但现有方法把可靠性当成全局常量，缺乏样本级、模态级的可靠性度量。已有的不确定性建模（证据深度学习、贝叶斯近似）大多是事后挂在决策层；三支决策类方法（如 3WD-DRT）只预测单一置信分 \(s_m\) 然后做离散分区缩放，信号过于粗糙。

本文目标：构建一个"先感知、再决策"（perceive-and-decide）的框架——模型必须先量化每个模态对当前样本的可信度，再决定怎么组合。

核心 idea：把"自评置信度"和"融合时的决策"直接耦合起来：预训练阶段让编码器自己估出可靠性（置信 \(s_m\) + 不确定 \(u_m\)），融合阶段把这两个信号当作连续调制因子作用到注意力输出上，可信且一致才放大贡献。

方法详解¶

整体框架¶

CICA 把"感知信号质量"和"决策怎么融合"拆成两个协同阶段。Phase 1（CAP，置信度感知预训练）单独训练每个单模态编码器 \(E_m\)（\(m\in\{T,V,A\}\)），让它不仅输出表示 \(H_m\)，还输出该样本的置信分 \(s_m\) 与不确定度 \(u_m\)——这就是"自我感知"。Phase 2（CIF，置信度引导融合）冻结这些编码器，训练一个融合模块：先用置信度感知注意力（CIA）感知特征的内在结构质量，再把 CAP 给出的可靠性信号 \((s_m,u_m)\) 作为外部调制因子作用上去，最后用一个互信息对比保持（MCP）损失防止某个模态独占融合（"模态坍塌"）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    X["文本 / 视觉 / 语音<br/>三路原始输入"] --> CAP
    subgraph CAP["Phase 1 · 置信度感知预训练 CAP"]
        direction TB
        E["单模态编码器 + MixDomainAdapter<br/>输出 H_m"] --> H["三个辅助头<br/>任务 / 置信 s_m / 不确定 u_m"]
    end
    CAP -->|冻结编码器, 传出 H_m 与 (s_m,u_m)| CIA["置信度感知注意力<br/>Q·K + S_mod 感知内在质量"]
    CIA --> MOD["可靠性调制耦合<br/>r_m=ReLU(1+s_m-u_m), z×r_m"]
    MOD --> MCP["互信息对比保持 MCP<br/>防模态坍塌"]
    MCP --> Y["情感预测 ŷ"]

关键设计¶

1. CAP 置信度感知预训练：让编码器学会"自评"，而非只学特征

针对"模型没有内部机制判断哪个模态可信"这个痛点，CAP 把每个单模态编码器 \(E_m\) 训练成一个"感知器"：\((H_m, s_m, u_m)=E_m(X_m)\)。编码器用 Transformer 主干，内部的 MixDomainAdapter 从最后一层抽任务相关特征 \(h_{\text{spci}}\)、从中间层抽域相关特征 \(h_{\text{domain}}\)，拼成 \(H_m=\text{Concat}(h_{\text{spci}},h_{\text{domain}})\)。在此之上挂三个辅助头，用联合目标预训练：

\[\mathcal{L}_{\text{CAP}}=\mathcal{L}_{\text{task\_pre}}+\lambda_{\text{CA}}\mathcal{L}_{\text{CA}}+\lambda_{\text{uncert}}\mathcal{L}_{\text{uncert}}\]

任务头 \(C_{\text{pred}}\) 预测单模态情感、用 MSE 监督；置信头 \(C_{\text{CA}}\) 预测标量 \(s_m\in[0,1]\)；不确定头 \(C_{\text{uncert}}\) 预测有界绝对误差 \(u_m\in[0,1]\)。这一步的关键是它显式校准了编码器自身的不确定性：与 3WD-DRT 只给单个置信分不同，CICA 同时建模"自适应置信"和"任务不确定"，从而能把认知不确定（epistemic）和偶然不确定（aleatoric）拆开。

2. Adaptive CA 损失：用可学习的分段惩罚把置信分标定成"真·可靠性"

直接训练置信分很别扭：分类损失（如 BCE）会错误地把它当二分类，而静态回归损失 \(L=(s_m-1)^2\) 又太死板（无脑逼所有样本都自信）。作者提出一个可学习的标定函数 \(\mathcal{L}_{\text{CA}}\)，用一组参数 \(\theta_{\text{CA}}=\{\hat\alpha,\hat\beta,\hat w_{\text{high}},\hat w_{\text{mid}},\hat w_{\text{low}}\}\) 自适应地定义两条可靠性边界（\(0<\beta<\alpha<1\)，由 sigmoid 约束 \(\beta=\sigma(\hat\beta),\ \alpha=\beta+(1-\beta)\cdot\sigma(\hat\alpha)\)）和三档惩罚权重（Softplus 保正）。分段权重函数为：

\[W(s_m,\theta_{\text{CA}})=\begin{cases}w_{\text{low}} & s_m\ge\alpha\\ w_{\text{mid}} & \beta\le s_m<\alpha\\ w_{\text{high}} & s_m<\beta\end{cases}\]

损失则是加权的"鼓励高置信"项 \(\mathcal{L}_{\text{CA}}=\frac{1}{B}\sum_i W(s_{m,i},\theta_{\text{CA}})\cdot(s_{m,i}-1)^2\)。不确定头的目标用 detach 后的误差给定 \(u_{\text{target}}=\tanh(|y_m-\hat y_m^{\text{detach}}|)\)，再用 MSE 拟合。⚠️ \(\theta_{\text{CA}}\) 的完整参数化与论证在原文附录 H.1，这里给出的边界/权重形式以原文为准。这样置信分就不是拍脑袋的标量，而是被一条可学习的标定曲线约束出来的可靠性度量。

3. CIA 置信度感知注意力 + 可靠性调制：把"内在质量感知"和"外部可靠性"解耦再耦合

作者的核心观察是：标准注意力 \(Q\cdot K^\top\) 只建模 query 和 key 的相关性，却完全忽略 key \(K_m\) 本身的内在质量。CIA 因此在 softmax 内部加一个内在结构调制项 \(S_{\text{mod}}\)，它捕捉 key 的局部依赖 \(N_m\) 和 token 级显著性 \(\rho_m\)，产出结构感知表示：

\[z_{\text{struct},m}=\text{softmax}\!\left(\frac{QK_m^\top}{\sqrt{d_k}}+S_{\text{mod}}\right)V_m\]

这是"感知内在质量"。然后把 CAP 算出的两路可靠性 \((s_m,u_m)\) 通过投影 \(g(\cdot)\) 合成统一可靠性分 \(r_m=g(s_m,u_m)=\text{ReLU}(1+s_m-u_m)\)——只有置信强（\(s_m\) 大）且不确定低（\(u_m\) 小）时 \(r_m\) 才大。最后用 \(r_m\) 沿序列和特征维广播，连续调制结构表示：\(z_{\text{CIF},m}=z_{\text{struct},m}\times r_m\)。被判为不可靠的模态（\(r_m\approx0\)）贡献被自然压低。这一步是全框架的"耦合点"：把预训练阶段的"感知"和融合阶段的"决策"用一个乘法门显式接通，比 3WD-DRT 仅靠置信缩放更严格（要"自信且一致"才放大）。

4. MCP 互信息对比保持损失：防止融合被单一模态独占

把可靠性门做强之后会有新风险——某个模态（尤其文本）可能直接独占融合，导致"模态坍塌"，丢掉其它模态的独特信息。MCP 受对比预测编码（CPC）/NCE 启发，约束最终融合表示 \(z_{\text{final}}\) 与每个单模态池化表示 \(h_m=\text{MeanPool}(H_m)\) 保持对应：\(\mathcal{L}_{\text{MCP}}=\sum_{m\in\{T,V,A\}}\mathcal{L}_{\text{NCE},m}(z_{\text{final}},h_m)\)。这样即使在压制某个"骗人"的模态时，融合表示仍保留所有来源的足够信息。微调阶段的总目标为 \(\mathcal{L}_{\text{Total}}=\mathcal{L}_{\text{task}}+\lambda_{\text{mcp}}\mathcal{L}_{\text{MCP}}\)，主任务用 L1 损失 \(\mathcal{L}_{\text{task}}=\frac{1}{B}\sum_i|y_i-\hat y_i|\)，\(\lambda_{\text{mcp}}=0.1\)。

损失函数 / 训练策略¶

两阶段训练：先用 \(\mathcal{L}_{\text{CAP}}\) 预训练单模态编码器（含任务/置信/不确定三头），冻结后再用 \(\mathcal{L}_{\text{Total}}=\mathcal{L}_{\text{task}}+0.1\cdot\mathcal{L}_{\text{MCP}}\) 微调 CIF 融合模块。原文只在正文给出 \(\lambda_{\text{mcp}}=0.1\)，其余优化器/学习率/epoch 等配置在附录 C、D。

实验关键数据¶

主实验¶

四个基准（英文 MOSI/MOSEI，中文 CH-SIMS/CH-SIMSv2）全面刷新 SOTA。\(\Delta\) 行为相对最强基线的提升：

数据集	MAE↓	Corr↑	Acc-7/3↑	Acc-2↑	对比最强基线
MOSI	0.630	0.855	49.56	88.19/90.24	MAE ↓0.071, Corr ↑0.060
MOSEI	0.489	0.856	55.29	84.72/90.18	MAE ↓0.029, Corr ↑0.077
CH-SIMS	0.378	0.754	76.37	86.00	Corr ↑0.127, Acc-3 ↑9.73
CH-SIMSv2	0.245	0.842	80.56	85.98	Acc-3 ↑4.35, Corr ↑0.078

提升在交互更复杂的 CH-SIMS 上尤其夸张（Corr +0.127、Acc-3 +9.73）。

消融实验¶

在 MOSI/MOSEI 上逐项移除组件（括号为相对 Full 的掉幅）：

配置	MOSI Corr↑	MOSI F1(non-0)↑	MOSEI F1(non-0)↑	说明
Full	0.855	90.23	90.16	完整模型
(A) w/o CAP	0.791 (↓0.064)	85.05 (↓5.18)	83.19 (↓6.97)	去掉置信感知预训练
(B) w/o CIF	0.812 (↓0.043)	86.13 (↓4.10)	83.90 (↓6.26)	去掉置信注意力融合
(D) w/o Coupling	0.831 (↓0.024)	87.02 (↓3.21)	84.13 (↓6.03)	CAP/CIF 不耦合，独立用
(C) w/o MCP	0.847 (↓0.008)	87.66 (↓2.57)	84.71 (↓5.45)	去掉防坍塌损失
(E) w/o S_mod	0.840 (↓0.015)	89.15 (↓1.08)	88.05 (↓2.11)	去掉内在结构调制项

关键发现¶

CAP 和 CIF 是两根顶梁柱：分别去掉它们掉点最多（MOSEI F1 non-0 各掉 6.97/6.26），证实"感知"和"决策注意力"缺一不可。
耦合本身有价值：即使 CAP、CIF 都在、只是不显式耦合（D），MOSI Corr 仍掉 0.024——说明两个模块各自独立还不够，关键在于把感知信号接进融合决策。
MCP 和 \(S_{\text{mod}}\) 是稳定器：掉幅小但一致，主要贡献跨模态平衡与注意力稳定性。
鲁棒性是最大卖点：注入高斯噪声（方差 0.2–0.8）后性能平滑衰减——MOSEI 轻度音频噪声下 Corr 仅 0.856→0.843，说明 CAP 检测到污染、CIF 下调其权重；缺模态时，MOSEI 去掉视觉（T+A）几乎不掉（MAE 0.483 vs 0.489），因为 CAP 把缺失模态标成 \(s_V=0\)、CIF 自动调整融合。
⚠️ 一个值得注意的现象：MOSI 上纯文本（T-only）Corr 0.857 还略高于 T+V+A 的 0.855，因为 MOSI 高度文本主导，0.857 就是文本上限；0.002 的差距来自 MCP 的轻度融合正则，作者认为这点代价换来跨基准的稳健性是值得的。

亮点与洞察¶

"感知-决策"显式耦合：大多数不确定性方法把可靠性事后挂在决策层，CICA 把它前移到预训练、再用乘法门接回融合，整条链路"先量化可信度再决定怎么用"，思路干净且可解释。
置信分用可学习分段损失标定：不是拍一个标量，而是用 \(\theta_{\text{CA}}\) 学出可靠性边界，避免了 BCE/静态回归的两个极端，这个"learnable calibration"trick 可迁移到任何需要自评置信度的任务。
\(r_m=\text{ReLU}(1+s_m-u_m)\) 的双信号门：要"自信"且"低不确定"才放大，比单一置信缩放更严格，天然处理了缺模态（\(s\approx0\) 时直接归零）。
MCP 防模态坍塌：把可靠性门做强后用对比损失兜底保留各模态信息，是"压制噪声"和"不丢信息"之间一个聪明的平衡补丁。

局限与展望¶

代码未公开，\(S_{\text{mod}}\)（局部依赖 \(N_m\)、显著性 \(\rho_m\)）和 \(\theta_{\text{CA}}\) 的具体实现都压在附录，复现门槛偏高。
两阶段、冻结编码器再训融合的流程较重；置信/不确定双头 + 三损失预训练带来额外开销，论文未报训练成本对比。
MOSI 上多模态甚至略逊于纯文本，说明在文本极度主导的数据上多模态收益有限——框架更像是"在该用多模态时不被噪声带偏"，而非在文本足够时还能涨点。
自评可靠性的标定质量依赖标签质量；在弱标注或域偏移场景下 \(s_m/u_m\) 是否仍准确，论文未充分检验。

评分¶

新颖性: ⭐⭐⭐⭐ "感知-决策"显式耦合 + 可学习置信标定，思路新颖且贴合冲突/缺模态痛点。
实验充分度: ⭐⭐⭐⭐⭐ 四基准 SOTA + 细致消融 + 噪声/缺模态鲁棒性双重压力测试。
写作质量: ⭐⭐⭐⭐ 主线清晰、公式完整，但 \(S_{\text{mod}}\) 与 CA 损失参数化大量压进附录。
价值: ⭐⭐⭐⭐ 鲁棒多模态融合的可复用范式，置信标定与双信号门可迁移到其它多模态任务。