Beyond Missing Modalities: Hypergraph Guided Diffusion for Uncertainty-Aware Multimodal Emotion Recognition¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/wdqdp/HyperDiff
领域: 多模态VLM
关键词: 对话多模态情感识别, 缺失模态, 超图注意力, 条件扩散, 证据融合

一句话总结¶

针对对话多模态情感识别（MERC）中音/文/视模态随机缺失的问题，HyperEF 用一个掩码超图注意力网络（MHGAT）捕捉对话里的高阶多元依赖，再以它为条件引导扩散模型在隐空间补全缺失模态特征，最后用双通道证据融合（DCEF）从"特征来源"和"判别"两个层面量化不确定性来自适应融合各模态，在 IEMOCAP / MELD 的全部缺失率下都刷新了 SOTA。

研究背景与动机¶

领域现状：对话多模态情感识别（MERC）要在一段对话里逐句判断说话人的情绪，靠融合文本、语音、视觉三种模态拿到比单模态更丰富的情绪线索，是人机交互、心理健康监测等场景的关键能力。

现有痛点：现实里传感器故障、传输错误会让某些模态随机缺失，直接拖垮识别效果。主流的补救分两类：一类做"融合空间补全"——在已经融好的表示里补，可解释性弱、补全质量差；另一类做"模态空间补全"——直接重建缺失模态的隐特征，但很难保证重建特征和同一句话里仍存在的模态在语义上一致。

核心矛盾：要让重建语义一致，就得建模对话里复杂的多元依赖——情绪既受模态维度的高阶关系影响（u3 的文本含糊、语气平淡，但配上画面就能推出"厌恶"），又受上下文维度的高阶关系影响（u3 的情绪和 u1/u4/u5 强相关）。而且这些依赖里各节点贡献并不均等。传统图神经网络只能建两两的成对关系，超图虽能建多元关系，却对节点/超边一视同仁，抓不住"谁更重要"。

另一重被忽略的问题：现有方法要么把所有模态同等对待，要么给固定权重。但缺失模态场景下，生成模型补出来的特征和真实可用特征置信度天然不同，且各模态的判别置信度在不同样本间波动很大，固定权重会导致模糊预测。

核心 idea：用掩码超图注意力捕捉对话高阶依赖、以此为条件引导扩散模型做语义一致的缺失特征恢复（取代盲目重建），再用双通道证据理论从"来源不确定性 + 判别不确定性"两个解耦轴自适应融合各模态（取代固定权重融合）。

方法详解¶

整体框架¶

HyperEF（Hypergraph Diffusion and Evidence Fusion based Emotion Recognition）的输入是一段带随机缺失的对话：\(N\) 句话、每句三模态 \(u_i=\{u_i^t,u_i^v,u_i^a\}\)，外加一个 0/1 掩码 \(M\) 标记每个位置模态是否可用；输出是每句话的情绪类别。整条管线分三段串行：

掩码超图注意力（MHGAT）：把全部 \(3N\) 个单模态节点建成超图，节点上叠掩码嵌入，用双向注意力聚合出携带高阶上下文/模态信息的节点表示，拼接后作为后续扩散的条件 \(C\)。
MHGAT 条件扩散：以 \(C\) 为引导、用 U-Net 噪声预测网络在隐空间对缺失模态特征做去噪恢复，靠 classifier-free guidance 让恢复结果和现存模态语义一致。
双通道证据融合（DCEF）：把每个模态的预测变成证据（Dirichlet 参数），从"特征来源不确定性"和"判别不确定性"两个解耦轴估计不确定性，再按 Dempster 组合规则自适应融合各模态证据，输出最终情绪。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>三模态对话 + 缺失掩码 M"] --> B["掩码超图注意力 MHGAT<br/>超图 + 双向注意力<br/>捕捉高阶依赖 → 条件 C"]
    B --> C["MHGAT 条件扩散<br/>U-Net + CFG<br/>隐空间恢复缺失特征"]
    C --> D["双通道证据融合 DCEF<br/>来源不确定性 + 判别不确定性<br/>Dempster 自适应融合"]
    D --> E["输出<br/>逐句情绪类别"]

关键设计¶

1. 掩码超图注意力网络 MHGAT：用带注意力的超图区分"谁重要"和"谁缺失"

针对"传统图只能建成对关系、普通超图对节点/超边一视同仁"的痛点，MHGAT 把一段对话建成超图 \(H=(V,E)\)：节点 \(V\) 是全部 \(3N\) 个单模态话语（\(|V|=3N\)），超边 \(E\) 包含 3 条上下文超边 \(e^c\)（按模态把同一模态的所有话语连起来）和 \(N\) 条多模态超边 \(e^m\)（把同一句话的三模态连起来），\(|E|=N+3\)，一条超边可连多个节点。构图时保留缺失节点的超边关系和位置、只把值置零，再给所有节点叠一个掩码嵌入 \(v_i = v_i + \text{embedding}(M_i)\)，让网络能识别哪些是缺失模态。

聚合分两步双向进行（共 2 层）：先"节点→超边" \(e_j^{l+1}=\sigma(\sum_{v_i\in V_j}\alpha_{ji}W_1 v_i^l)\)，再"超边→节点" \(v_i^{l+1}=\sigma(\sum_{e_j\in E_i}\beta_{ij}W_2 e_j^{l+1})\)。关键是注意力分数 \(\alpha_{ji}\)、\(\beta_{ij}\) 用 LeakyReLU + 拼接打分（如 \(\alpha_{ji}\propto\exp(\text{LeakyReLU}(a_1^\top[W_1 v_i^l\,\|\,W_2 e_j^l]))\)），让模型把权重压在"funny/like"这类强情绪词上、降低"Okay"这种含糊词，并在文本线索不足时自动把注意力转移到其它模态。超边本身没有内在特征，用可学习嵌入 \(e_j^{(0)}\sim\mathcal N(0,\sigma^2 I)\) 初始化。相比 2 层 Transformer，MHGAT 只用 23% 参数就拿到相当或更好的精度（见实验），因为它显式建了对话的多元结构而非让自注意力盲学。

2. MHGAT 条件扩散：用高阶语义条件引导去噪，做语义一致的缺失特征恢复

针对"直接重建缺失模态难保语义一致"的痛点，本文不在融合空间补、而是在模态隐空间用条件扩散显式恢复。把 MHGAT 输出的节点表示沿模态维拼成条件 \(C\in\mathbb R^{n\times 3d}\)，喂进 U-Net 噪声预测网络，用交叉注意力把条件注入每层中间特征：\(F^{(l+1)}=\text{Concat}(F^{(l)},\text{CrossAttn}(F^{(l)},\text{Linear}(C)))\)。训练借鉴 classifier-free guidance，以固定概率 \(p\) 随机丢掉条件让网络也学会无条件预测，目标是标准噪声回归 \(L=\mathbb E\big[\|\epsilon_\theta(x_t,C,p)-\epsilon\|^2\big]\)。

采样时把条件/无条件预测加权组合放大条件信号：

\[\hat\epsilon_\theta(x_t,C)=\epsilon_\theta(x_t,\varnothing)+w\cdot\big(\epsilon_\theta(x_t,C)-\epsilon_\theta(x_t,\varnothing)\big)\]

再用引导后的噪声驱动反向去噪 \(x_{t-1}=\tilde\mu_t(x_t,t,C)+\sigma_t z\)，其中均值 \(\tilde\mu_t=\frac{1}{\sqrt{\eta_t}}\big(x_t-\frac{1-\eta_t}{\sqrt{1-\bar\eta_t}}\hat\epsilon_\theta\big)\)，\(\eta_t=1-\beta_t\)。因为条件本身携带了对话的高阶上下文/模态依赖，恢复出的特征分布和真实特征高度贴合（t-SNE 几乎重合、MSE/MMD 远低于纯扩散的 IMDer），从源头压低了重建与现存模态的语义歧义。这里设 timesteps=300、引导权重 \(w=7.5\)。

3. 双通道证据融合 DCEF：把不确定性解耦成"来源 + 判别"两轴再自适应融合

针对"补出来的特征置信度和真实特征不同、固定权重融合会出错"的痛点，DCEF 把每个模态的分类头从 softmax 换成 ReLU 输出"证据" \(e\)，对应 Dirichlet 参数 \(\alpha=e+1\)，把不确定性显式建模进融合。传统 DST 只用 vacuity（证据总量缺乏）一个维度，抓不住多模态里纠缠的复杂不确定性，于是 DCEF 把全集 \(\Omega\) 的基本概率分配解耦成两个充分且低冗余的轴：

特征来源层 \(m_s(\Omega)\)：用扩散采样最后一步的预测噪声与真实噪声的 MSE 衡量恢复特征的可靠度 \(u=\|\epsilon-\epsilon_\theta(x_t,T,C)\|_2^2\)，再 \(m_s(\Omega)=a\cdot\text{Sigmoid}(b\cdot(u-\bar u))\) 映射到合适范围；真实（非恢复）特征的 \(m_s(\Omega)\) 直接置 0。
判别层 \(m_d(\Omega)\)：用归一化交叉熵 \(m_d(\Omega)=-\frac{\sum_k P_k\log P_k}{\log K}\) 衡量预测本身的模糊程度（熵越高越不确定）。作者实测对比了 vacuity / dissonance / consonance / entropy 四个候选，发现 entropy（判别层）是最佳的第二解耦轴。

两轴合成全集与各类的 BPA：\(m(\Omega)=\gamma\cdot m_d(\Omega)+m_s(\Omega)\)，\(m(k)=(1-m(\Omega))P_k\)，再按 Dempster 组合规则 \((m_1\oplus m_2)(A)=\frac{\sum_{B\cap C=A}m_1(B)m_2(C)}{1-\sum_{B\cap C=\varnothing}m_1(B)m_2(C)}\) 两两迭代融合各模态。这样置信度低的恢复模态会被自动降权，缓解模态冲突、强化支持正确情绪类别的证据。

损失函数 / 训练策略¶

两阶段训练：① 先把 MHGAT 条件扩散预训练 100 epoch；② 再训练骨干网络 50 epoch。最终目标在交叉熵基础上加两个证据约束——vacuity 正则 \(V\!ac(\alpha)=K/S\) 和一个 KL 散度正则 \(L_{KL}\)（把错误类别的 Dirichlet 拉向均匀分布以惩罚虚假证据）：

\[L=\arg\min_{\alpha_i}\sum_{i=1}^n L_{CE}(P_i,y_i)+\lambda_1 L_{KL}(\alpha_i)+\lambda_2 V\!ac(\alpha_i)\]

作者分析了 vacuity / dissonance / consonance / \(L_{KL}\) 四个候选，发现 Con 和 Dis 影响微乎其微，只保留互补有效的 \(V\!ac\) 与 \(L_{KL}\)。超参用贝叶斯优化定：\(\lambda_1=0.5\)、\(\lambda_2=0.8\)、\(\bar u=1.3\)、\(b=5\)、\(a=\tfrac17\)、\(\gamma=0.2\)，MHGAT 取 2 层，IEMOCAP/MELD 分别用学习率 \(5\times10^{-5}\)/\(1\times10^{-4}\)。

实验关键数据¶

主实验¶

在 IEMOCAP（4 类 / 6 类标注）与 MELD（7 类）上，按随机缺失协议（缺失率 \(\kappa\in[0,0.7]\)、保证每句至少 1 个模态可用）对比 SOTA。HyperEF 在全部数据集、全部缺失率下都最优。下表节选 IEMOCAP4 准确率（%）：

缺失率	MMIN	GCNet	IMDer	CIF-MMIN	SDR-GNN	HyperEF
0.0	74.9	78.4	74.3	79.3	79.6	82.9 (↑3.3)
0.1	71.8	77.5	73.5	77.9	78.6	82.1 (↑3.5)
0.3	66.3	76.2	64.1	77.3	77.5	80.3 (↑2.8)
0.5	60.5	73.8	64.5	76.0	75.8	78.2 (↑2.2)
0.7	55.4	71.4	44.2	73.6	74.4	77.0 (↑2.6)

在 IEMOCAP6 上高缺失率优势更明显（缺失率 0.6 时 ↑4.0），作者将其归因于 MHGAT 引导的语义特征重建。八个缺失率设置下所有配对差异同向，Wilcoxon 符号秩检验对每个 baseline 都取到极端统计量 \(W=0\)、双侧 \(p=0.0078\)。

消融实验¶

目标函数项消融（IEMOCAP4 / MELD，缺失率 0.3，baseline 仅用 \(L_{CE}\)）：

\(L_{KL}\)	\(V\!ac\)	IEMOCAP4 Acc.	MELD Acc.	说明
✗	✗	76.85	55.06	只用交叉熵
✗	✓	48.75	62.92	缺 \(L_{KL}\)，IEMOCAP 暴跌
✓	✗	77.60	50.40	缺 \(V\!ac\)，MELD 暴跌
✓	✓	80.31	63.78	完整模型

证据解耦方向消融（MELD，缺失率 0.3，固定锚点 \(m_s(\Omega)\) 配第二轴）显示：用 entropy（判别层）作第二轴最好（Acc 63.78 / F1 60.47），优于 vacuity baseline（60.28）、consonance、dissonance。恢复质量上（Table 3），HyperEF 各模态 MSE/MMD 远低于纯扩散的 IMDer（如 IEMOCAP 语音模态 MSE 0.024 vs 4.883）。

关键发现¶

\(L_{KL}\) 和 \(V\!ac\) 在两个数据集上呈互补、缺一不可：IEMOCAP4 去掉 \(L_{KL}\) 掉到 48.75，MELD 去掉 \(V\!ac\) 掉到 50.40——说明不同数据集主导的不确定性来源不同，需要两类约束协同。
MHGAT 用 1.60M 参数（Transformer 6.83M 的 23%）就拿到相当或更高精度，且单 epoch 仅 0.82s，证明显式超图结构比让自注意力盲学更高效。
缺失率越高、HyperEF 相对 baseline 优势越大（IEMOCAP6 0.6 时 ↑4.0），说明语义一致的特征恢复在严重缺失下尤其关键。

亮点与洞察¶

"高阶依赖 → 扩散条件"的串联很自然：把超图聚合出的高阶上下文/模态语义直接当 classifier-free guidance 的条件，等于让扩散"知道这句话的情绪该往哪个方向补"，比无条件/弱条件重建语义一致性强得多——这个"用结构化先验做生成条件"的思路可迁移到任何带缺失/补全的多模态任务。
掩码嵌入 + 置零保位的小设计很巧：缺失节点不删、只置零并叠掩码嵌入，既保住超图拓扑又让网络显式感知缺失，注意力可视化里能看到 mask 让多模态超边对缺失模态降权。
把不确定性拆成"来源 + 判别"两轴是核心洞察：恢复特征的可靠度（来源层，用扩散末步噪声 MSE 量化）和预测模糊度（判别层，用归一化熵量化）是两类正交的不确定性，DCEF 据此自适应降权低质恢复模态，这套证据级融合框架对任何"部分输入由生成模型补出"的系统都有借鉴价值。

局限与展望¶

只在 IEMOCAP / MELD 两个对话数据集、三模态（文/音/视）上验证，未涉及更多模态或非对话场景，泛化性待考。
两阶段训练 + 扩散 300 步采样带来额外开销，作者把扩散的时间复杂度分析放进附录，正文未给端到端推理延迟，实时部署成本⚠️以原文附录为准。
DCEF 的两轴解耦是在四个候选里实验筛出 entropy，属经验最优而非理论保证；\(a,b,\gamma,\lambda\) 等超参靠网格搜索 + 贝叶斯优化定，迁移到新数据集可能需重调。
改进方向：把"缺失感知"从输入掩码扩展到连续可靠度、或让扩散步数随缺失程度自适应，可能在效率/精度间取得更好平衡。

评分¶

新颖性: ⭐⭐⭐⭐ 把掩码超图注意力当扩散条件 + 双轴证据融合，组合新颖且针对缺失模态的真实痛点。
实验充分度: ⭐⭐⭐⭐ 覆盖 8 个缺失率 × 3 个 benchmark，配恢复质量、注意力可视化、证据解耦、目标函数等多角度消融，并做了显著性检验。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰，公式完整；部分不确定性度量符号略密集。
价值: ⭐⭐⭐⭐ 缺失模态是 MERC 落地的真问题，"结构化条件引导生成 + 证据级不确定性融合"思路可迁移到更广的多模态补全场景。