Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis¶

会议: CVPR 2026
arXiv: 2602.19585
代码: 无
领域: 语音/音频
关键词: 多模态情感分析, 三子空间解耦, 跨注意力融合, 成对共享, HSIC

一句话总结¶

提出 TSD 框架，将多模态特征显式分解为全局共享/成对共享/模态专属三个互补子空间，并通过子空间感知跨注意力融合模块自适应整合三层信息，在 CMU-MOSI/MOSEI 上全面 SOTA。

研究背景与动机¶

多模态情感分析整合语言/视觉/声学三模态。现有方法大多采用"共享-私有"二分法（如 MISA），将特征分为全局共享和模态专属。但人类情感中大量线索仅在部分模态对之间共享——如讽刺场景中语气和表情共同传达否定情感，但文本表达积极。这种"成对共享"信号在二分法中被忽略或错误归类。

方法详解¶

整体框架¶

TSD 想解决的是"共享-私有"二分法把成对模态信号丢掉的问题，办法是给每个模态多开一层表示。三模态特征先各自经过编码，被显式拆进三类子空间——全局共享、成对共享、模态私有，三模态合计产出 9 个子空间表示（3 共享 + 3 成对 + 3 私有）。一组解耦损失和一个对抗式监督器负责把这 9 份表示"按职责钉死"、互不串味，最后由 SACA 融合模块让每个子空间互相参照、自适应加权汇总，再送进回归头预测情感强度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["语言 / 视觉 / 声学三模态"] --> ENC
    subgraph ENC["三子空间编码器"]
        direction TB
        B["共享编码器<br/>全模态共参 → 3 个全局共享表示"]
        C["成对共享编码器<br/>每对模态一套参数 → 3 个成对共享表示"]
        D["私有编码器<br/>各模态独立 → 3 个模态私有表示"]
    end
    ENC -->|"9 份子空间表示"| SACA["子空间感知跨注意力融合 SACA<br/>各子空间互相参照 + 门控逐样本自适应加权"]
    SACA --> OUT["回归头 → 情感强度预测"]
    SUP["解耦监督器<br/>对抗鉴别子空间归属"] -. 约束 .-> ENC
    CON["子空间约束损失<br/>共享对齐 / 成对协作 / HSIC 独立 / 正交"] -. 约束 .-> ENC

关键设计¶

1. 三子空间编码器：给"成对共享"信号一个专属容身处

二分法只有"所有模态都共享"和"某模态独有"两档，可现实里语气和表情这种只在两模态间共享、文本却不参与的线索无处安放。TSD 因此把编码拆成三套并行分支：共享编码器 \(I(\cdot;\theta_c)\) 全模态共用一套参数，逼出模态无关的全局一致特征 \(\mathbf{C}_m\)；成对共享编码器 \(S_{mn}(\cdot;\theta_{mn})\) 对每一对模态 \((m,n)\) 单独配一套参数，捕捉只在这两模态间流动的交互特征 \(\mathbf{S}_{mn}^{(m)}\)；私有编码器 \(P_m(\cdot;\theta_m)\) 各模态独立，留住模态特有信息 \(\mathbf{P}_m\)。"参数共享粒度"正好对应"信息共享范围"——全共享参数学全局共性，成对共享参数学成对共性，独立参数学个性，结构上自然把三类信号分开。

2. 解耦监督器：用对抗鉴别堵住子空间之间的信息泄漏

光靠编码器结构并不能保证各子空间真的只装该装的信息——共享分支可能偷偷夹带模态私货。监督器是一个三分支鉴别器，对任意一个嵌入去预测它"本该来自哪个子空间"（共享/成对/私有），编码器则被训练得让鉴别器认得出每份表示的身份：

\[\mathcal{L}_{sup} = -\frac{1}{M}\sum_m \Big[\log D_{com}(\mathbf{c}_m) + \sum_{n \neq m}\log D_{sub}(\mathbf{s}_{mn}^{(m)}) + \log D_{pri}(\mathbf{p}_m)\Big]\]

相比 MISA 只用一个"判模态来源"的判别器，这里判的是"判子空间归属"，约束更细——它直接逼着每类子空间维持自己的可辨识统计特征，从而压住跨子空间的泄漏。

3. 子空间约束损失：把"该靠近的靠近、该正交的正交"写成几何约束

监督器管的是身份可辨，这组损失则正面规定各表示之间应有的几何关系，四项各管一件事。共享一致性损失 \(\mathcal{L}_{com}=\sum\|\mathbf{c}_m-\mathbf{c}_n\|_2^2\) 把不同模态的共享表示往一起拉，逼出真正模态无关的公共信号；成对协作损失 \(\mathcal{L}_{pair}=\sum\|\mathbf{s}_{mn}^{(m)}-\mathbf{s}_{mn}^{(n)}\|_2^2\) 让同一对模态各自抽出的成对表示彼此对齐，确认它俩谈的是同一件"成对共享"的事；私有独立损失 \(\mathcal{L}_{pri}=\sum\text{HSIC}(\mathbf{p}_{m_1},\mathbf{p}_{m_2})\) 用 HSIC（一种能刻画非线性统计依赖的核度量）压低不同模态私有表示间的依赖，比单纯 L2 更彻底地保证它们互相独立；正交性损失 \(\mathcal{L}_{ort}=\sum\|\mathbf{C}_m^\top\mathbf{P}_m\|_F^2+\cdots\) 再把共享与私有方向拉到正交，避免同一模态内部共享和私有内容重叠。四项合起来，等于从"对齐""独立""正交"三个角度把 9 份表示的相对位置全部约束死。

4. 子空间感知跨注意力融合 SACA：让每个子空间先看清别人再决定自己出多少力

九份表示若直接拼接，权重一刀切，丢了"哪类信号此刻更可信"的判断。SACA 给每个子空间构造一个包含其余子空间的上下文集，做多头跨注意力增强，使该子空间在融合前先吸收其他层的信息；随后门控网络按当前样本算出一组自适应权重 \(\psi_k\)，对增强后的各子空间表示 \(F_{\mathcal{S}}^{(k)}\) 加权求和：

\[\mathbf{Y}_{final} = \sum_k \psi_k \cdot F_{\mathcal{S}}^{(k)}\]

关键在于权重是样本相关的——讽刺样本里成对共享子空间会被门控调高、共享子空间调低，简单拼接做不到这种逐样本的层次化取舍，消融里去掉 SACA 也是掉得最多的一项。

一个完整示例¶

以一句讽刺评论"做得真'好'啊"（文本积极、语气讽刺、表情不屑）走一遍：三套编码器先把它编成 9 份表示，其中文本-声学这一对的成对共享表示 \(\mathbf{S}_{ta}\) 会强烈编码"语气否定了字面意思"，而全局共享表示因三模态各说各话、被 \(\mathcal{L}_{com}\) 拉得偏弱、信息量有限；监督器和约束损失保证这份否定信号被钉在成对子空间里、不会渗进共享或私有层；进到 SACA 时，门控发现成对共享层信息最关键，给它 \(\psi\) 调高、给疲软的全局共享层调低，最终融合结果偏向"负面情感"——这正是二分法因为没有成对子空间而容易误判成"正面"的场景。

训练策略¶

总损失把任务回归项和三子空间正则项相加：\(\mathcal{L}_{all} = \mathcal{L}_{task} + \mathcal{L}_{TS}\)，其中 \(\mathcal{L}_{TS}\) 汇总了监督器损失与四项约束损失，各项权重 \(\lambda_{1\text{-}4}\) 由验证集调优。

实验关键数据¶

主实验¶

数据集	指标	TSD	EMOE (前SOTA)	提升
CMU-MOSI	MAE ↓	0.691	0.697	-0.9%
CMU-MOSI	ACC7 ↑	49.0%	47.8%	+2.5%
CMU-MOSI	ACC2 ↑	86.5%	85.4%	+1.3%
CMU-MOSEI	ACC7 ↑	54.9%	54.1%	+1.5%
CMU-MOSEI	ACC2 ↑	86.2%	85.5%	+0.8%

消融实验¶

配置	MOSI MAE	说明
无成对共享	+0.015	成对共享信号对情感判断重要
无解耦监督器	+0.012	监督器有效防止信息泄漏
无 SACA	+0.018	SACA 融合显著优于简单拼接
HSIC 替换为 L2	+0.008	HSIC 更好地保证独立性

关键发现¶

三子空间在所有指标上优于二子空间（共享-私有），5 次随机种子标准差很小
在多模态意图识别任务上也展现了良好的迁移能力

亮点与洞察¶

"成对共享"子空间的显式建模——填补了共享-私有二分法的理论空白
SACA 的层次化融合设计——每个子空间都能"看到"其他子空间的信息再决定融合权重
解耦监督器是对抗训练的自然应用，比 MISA 的模态判别器更精细

局限与展望¶

三模态时成对子空间数量为 3，扩展到更多模态时组合爆炸（\(C_n^2\)）
所有损失的权重 \(\lambda_{1-4}\) 需要仔细调优
未涉及时序动态建模（仅在 utterance 级别做情感分析）

评分¶

新颖性: ⭐⭐⭐⭐ 三子空间分解理论动机清晰
实验充分度: ⭐⭐⭐⭐ 两数据集+意图识别迁移+消融
写作质量: ⭐⭐⭐⭐ 数学符号规范
价值: ⭐⭐⭐ 提升幅度相对有限，但方向正确