DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=LasUPe2UxG
代码: https://taco-group.github.io/DecAlign/ （项目页）
领域: 多模态VLM
关键词: 多模态表示学习, 跨模态对齐, 特征解耦, 最优传输, 最大均值差异

一句话总结¶

DecAlign 把多模态特征拆成"各模态独有的异质特征"和"跨模态共享的同质特征"两路，分别用原型引导的最优传输对齐异质部分、用潜空间分布匹配 + MMD 对齐同质部分，在四个情感分析基准上稳定刷过 13 个 SOTA。

研究背景与动机¶

领域现状：多模态表示学习要把视觉、音频、语言这些异构模态融成统一表示，既抓住它们共享的语义，又保留各自独有的特征。主流做法是把原始多模态数据投到一个统一空间里——要么直接拼接，要么做线性变换后融合。

现有痛点：这种"不加区分的融合"会把模态独有的细节特征和全局共享语义搅在一起，产生语义干扰：某个模态的局部特征会破坏跨模态的全局关系。尤其在维度不匹配时更明显——高维、空间相关的图像特征和低维、时间相关的文本特征硬凑在一起，对齐效果很差，要么信息冗余、要么关键信息在融合中丢失。

核心矛盾：问题的根本在于异质性（heterogeneity）与同质性（homogeneity）的纠缠。模态独有的异质模式（分布、尺度、语义粒度各不相同）和跨模态共享的同质语义被绑在一起处理，导致两边都做不好——想对齐共享语义就会抹掉模态独有特征，想保留独有特征又会破坏全局一致性。

本文目标：把这两类特征显式解耦，再用各自合适的策略分别对齐，使得"对齐共享语义"和"保留模态独有特征"不再互相打架。

切入角度：作者观察到，模态独有特征虽然形态各异，但当它们指向同一个底层概念/类别时，往往携带语义上对齐的信息。所以可以引入类别原型作为跨模态的语义锚点，让异质特征围绕原型去对齐，而不是做不可靠又昂贵的逐点对齐。

核心 idea：先解耦再分层对齐——把多模态表示拆成异质/同质两路，异质路用"原型引导的多边际最优传输 + 跨模态 Transformer"做细粒度对齐，同质路用"潜空间语义匹配 + MMD 正则"做全局一致性对齐。

方法详解¶

整体框架¶

DecAlign 解决的核心问题是：多模态融合时模态独有特征和共享语义纠缠导致的语义干扰。它的整体流程是先解耦再分层对齐最后融合预测：给定 \(M\) 个模态的输入，先用模态独有的 1D 时序卷积把所有模态对齐到相同的时序长度 \(T_s\) 和维度 \(d_s\)，得到 \(\tilde{X}_m \in \mathbb{R}^{T_s \times d_s}\)；然后每个模态过一个独有编码器 \(E^{(m)}_{uni}\) 抽出异质特征 \(F^{(m)}_{uni}\)、过一个共享编码器 \(E_{com}\) 抽出同质特征 \(F^{(m)}_{com}\)。

接下来是双流对齐：异质特征走"原型引导最优传输"分支（先 GMM 建原型、再多边际最优传输对齐），同质特征走"潜空间语义对齐 + MMD 分布匹配"分支。异质特征再经过模态专属的 Transformer 做进一步精修，最后和同质特征拼接，过一个全连接层做下游预测（分类或回归）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视觉 / 音频 / 语言输入"] --> B["模态特征解耦<br/>独有编码器 + 共享编码器"]
    B -->|异质特征| C["异质对齐<br/>原型引导多边际最优传输"]
    B -->|同质特征| D["同质对齐<br/>潜空间语义 + MMD"]
    C --> E["模态专属 Transformer 精修"]
    E --> F["拼接 + 全连接预测"]
    D --> F

关键设计¶

1. 模态特征解耦：用一个编码器拆出异质特征、另一个拆出同质特征

针对"独有特征和共享语义纠缠"这个痛点，DecAlign 不再把原始特征一股脑投到统一空间，而是为每个模态配一个独有编码器 \(E^{(m)}_{uni}\) 抽异质特征 \(F^{(m)}_{uni}=E^{(m)}_{uni}(\tilde{X}_m)\)，再配一个所有模态共享的编码器 \(E_{com}\) 抽同质特征 \(F^{(m)}_{com}=E_{com}(\tilde{X}_m)\)，所有编码器输出同维度以保证兼容。为了让两路真的分得开，作者没有去建分布或算互信息（太贵），而是直接用余弦相似度做正交约束，最小化两路特征的重叠：

\[L_{dec}=\sum_{m=1}^{M}\frac{F^{(m)}_{uni}\cdot(F^{(m)}_{com})^{T}}{\|F^{(m)}_{uni}\|\,\|F^{(m)}_{com}\|}\]

这一步是后续"分而治之"对齐的前提——只有先拆开，才能对异质、同质各下不同的药。

2. 异质对齐：原型引导的多边际最优传输，做细粒度跨模态对齐

模态独有特征在空间结构、尺度、噪声、密度上差异巨大，逐点对齐既不可靠又昂贵。作者的思路是引入类别原型当语义锚点：先用高斯混合模型（GMM）对每个模态的独有特征建模，原型由各高斯分量的均值和协方差表示 \(P_m=\{(\mu^1_m,\Sigma^1_m),\dots,(\mu^K_m,\Sigma^K_m)\}\)，其中分量数 \(K\) 设为下游任务的类别数；GMM 用标准 EM 算法拟合，软分配权重 \(w^n_m(k)\) 表示样本属于第 \(k\) 个分量的概率。

有了原型后，用多边际最优传输在所有模态的原型之间建匹配。跨模态原型匹配代价同时考虑均值距离和协方差差异：\(C_{i,j}(k_i,k_j)=\|\mu^{k_i}_i-\mu^{k_j}_j\|^2+\mathrm{Tr}(\Sigma^{k_i}_i+\Sigma^{k_j}_j-2(\Sigma^{k_i}_i\Sigma^{k_j}_j)^{1/2})\)，优化目标在满足边际分布约束下最小化总传输代价并加熵正则 \(T^*=\arg\min_T\sum_k T(k)\cdot C(k)+\lambda\sum_k T(k)\log T(k)\)。最终异质对齐损失 \(L_{hete}\) 由两项组成：全局的最优传输项 \(L_{OT}\)（对齐各模态原型分布）和局部的原型校准项 \(L_{Proto}\)（把样本拉向其它模态对应原型），\(L_{Proto}=\frac{1}{N}\sum_n\sum_k w^n_i(k)\|F^n_i-\mu^k_{j\neq i}\|^2\)。这样同时抓住全局和局部关系，比逐点对齐更鲁棒。

3. 同质对齐：潜空间语义匹配 + MMD 分布校正，保证共享语义一致

同质特征虽然共享语义，但分布上仍有全局偏移和不一致。作者分两步处理。第一步潜空间语义对齐：把模态共享特征近似为高斯 \(Z^{m_i}_{com}\sim N(\mu^{m_i}_{com},\Sigma^{m_i}_{com},\Gamma^{m_i}_{com})\)，特别引入偏度（skewness） \(\Gamma\) 来刻画分布的不对称性（捕捉非高斯的语义变化），然后对齐各模态的均值、协方差、偏度三阶统计量：\(L_{sem}=\frac{1}{M(M-1)}\sum_{i<j}(\|\mu^{m_i}_{com}-\mu^{m_j}_{com}\|^2+\|\Sigma^{m_i}_{com}-\Sigma^{m_j}_{com}\|^2_F+\|\Gamma^{m_i}_{com}-\Gamma^{m_j}_{com}\|^2)\)。

第二步跨模态分布对齐：用概率分布编码器（PDE）在潜空间编码特征分布，再用最大均值差异（MMD）度量跨模态分布距离——把分布映到再生核希尔伯特空间（RKHS），比较均值嵌入的差异 \(L_{MMD}=\frac{2}{M(M-1)}\sum_{i<j}[\mathbb{E}[k(x,x')]+\mathbb{E}[k(y,y')]-2\mathbb{E}[k(x,y)]]\)，核函数取高斯核。两步合起来 \(L_{homo}=L_{sem}+L_{MMD}\)，先做语义对齐再做分布校正，构成分层的同质对齐机制。这种非参数核方法不依赖先验，还能捕捉高阶统计性质，相比只对齐均值的方法更细。

4. 模态专属 Transformer 融合与预测：对齐后再精修，兼顾共享语义和模态独有线索

前面的对齐已经把异质特征放进语义一致的空间，但这些表示还含有丰富的模态内信息（语言的句法结构、视觉的空间布局、音频的时序模式）值得进一步精修。作者为每个模态配一个专属 Transformer 当"模态感知精修器"——因为表示空间已被对齐损失正则化，分开用 Transformer 不会破坏对齐。精修后的异质特征和同质特征拼接，过全连接层出预测。总目标为 \(L_{total}=L_{task}+L_{dec}+\alpha L_{hete}+\beta L_{homo}\)，其中 \(L_{task}\) 是任务损失（分类用交叉熵、回归用 MSE），\(\alpha,\beta\) 是两路对齐的权衡超参。

实验关键数据¶

主实验¶

在 CMU-MOSI、CMU-MOSEI、CH-SIMS、IEMOCAP 四个多模态情感/情绪数据集上，与 13 个 SOTA 比较，结果取 5 次独立运行平均：

数据集	指标	DecAlign	之前最好	说明
CMU-MOSI	MAE↓ / Acc-2↑ / F1↑	0.735 / 85.75 / 85.82	0.744 / 83.24 / 83.55 (DMD)	Acc-2 提升约 2.5 个点
CMU-MOSEI	MAE↓ / Acc-2↑ / F1↑	0.543 / 86.48 / 86.07	0.561 / 84.17 / 83.88 (DMD)	F1 提升约 2.2 个点
IEMOCAP (六类)	WAcc↑ / WAF1↑	73.35 / 73.43	72.25 / 72.17 (CGGM)	加权指标稳定领先
CH-SIMS	MAE↓ / F1↑	0.403 / 81.85	0.413 / 80.41 (ReconBoost)	中文数据集同样最优

DecAlign 在所有数据集、所有指标上都拿到最好或并列最好，对连续目标值的细微变化捕捉更准，离散类别区分也更清晰。

消融实验¶

在 MOSI / MOSEI 上做两组消融（满配 MOSI MAE 0.735 / F1 85.82，MOSEI MAE 0.543 / F1 86.07）：

配置	MOSI MAE↓ / F1↑	MOSEI MAE↓ / F1↑	说明
满配	0.735 / 85.82	0.543 / 86.07	完整模型
w/o Homo	0.747 / 84.46	0.562 / 84.74	去同质对齐，小幅掉点
w/o Hete	0.754 / 84.03	0.588 / 84.37	去异质对齐，掉点更大
w/o Hete & Homo	0.784 / 81.92	0.632 / 82.22	两路都去，大幅退化
w/o MFD（全去）	0.794 / 81.56	0.624 / 81.87	连解耦也去

对齐策略细分消融（Proto-OT / 跨模态 Transformer CT / 语义 Sem / MMD）显示去掉原型最优传输（w/o Proto-OT）退化最明显（MOSEI F1 降到 85.03、MAE 升到 0.624），印证细粒度异质对齐是主力。

关键发现¶

异质对齐贡献大于同质对齐：去掉 Hete 的掉点（MOSEI MAE 0.543→0.588）比去掉 Homo（→0.562）更大，说明模态独有特征的干扰是融合质量的主要瓶颈。
解耦 + 分层对齐缺一不可：两路全去时性能大幅退化（MOSI F1 85.82→81.92），证明"先拆开、再分别对齐"的设计是有机整体，不是简单堆模块。
极端情感类上更稳：混淆矩阵显示，在 -3/+3 这类极端情感和 -2/+2 相邻类上，DecAlign 比 MulT/MISA/DMD 显著减少误判，对角线更集中。

亮点与洞察¶

"解耦优先"的思路很干净：把"对齐共享语义"和"保留模态独有"这对矛盾，从"在统一空间里硬调和"变成"先物理拆成两路、再各下各的药"，从根上回避了语义干扰。这个 decouple-then-align 范式可迁移到任何模态纠缠严重的融合任务。
用原型 + 最优传输做异质对齐很巧：逐点对齐异构特征又贵又不靠谱，改成"GMM 建类别原型当锚点 + 多边际 OT 在原型间匹配"，既降了复杂度又保住了类别语义结构，多边际 OT 还能一次性对齐多个模态。
同质对齐引入偏度（三阶统计量）：大多数分布对齐只对均值/协方差，DecAlign 额外对齐偏度来捕捉非高斯的不对称语义变化，这是个容易被忽略但有效的细节，可借鉴到其它分布匹配场景。

局限与展望¶

论文主要在多模态情感/情绪分析（视觉+音频+语言）上验证，是否能推广到检索、生成、自动驾驶等更异构、更大规模的多模态场景未充分检验。
GMM 的分量数 \(K\) 直接绑定下游任务类别数，对类别数很大或无明确类别（如回归/开放域）的任务，原型机制可能退化或需要重新设计。
多边际最优传输在模态数 \(M\) 增大时，原型组合空间会指数膨胀，论文实验只到 3 个模态，更高模态数下的可扩展性存疑。
引入了解耦、异质、同质三类损失 + 模态专属 Transformer，组件多、需调 \(\alpha,\beta\) 等超参，工程复杂度和训练成本不低。

评分¶

新颖性: ⭐⭐⭐⭐ decouple-then-align 范式 + 原型引导多边际 OT 组合清晰，单个组件多为已有技术的巧妙拼装
实验充分度: ⭐⭐⭐⭐ 四数据集、13 个 SOTA、两组消融 + 混淆矩阵分析，但局限在情感分析场景
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，公式完整，框架图清楚
价值: ⭐⭐⭐⭐ 解耦 + 分层对齐的设计思路对多模态融合有普适借鉴意义