Solution for 10th Competition on Ambivalence/Hesitancy (AH) Video Recognition Challenge using Divergence-Based Multimodal Fusion¶

会议: CVPR2026
arXiv: 2603.16939
作者: Aislan Gabriel O. Souza, Agostinho Freire, Leandro Honorato Silva 等 (Universidade de Pernambuco) 领域: 音频语音
关键词: 多模态融合, 矛盾/犹豫识别, Action Units, 跨模态冲突, 情感计算

一句话总结¶

针对第10届 ABAW 竞赛的矛盾/犹豫 (A/H) 视频识别任务，提出基于散度的多模态融合策略，通过计算视觉（AU）、音频（Wav2Vec 2.0）和文本（BERT）三个模态嵌入的逐对绝对差来显式建模跨模态冲突，在 BAH 数据集上以 Macro F1 0.6808 大幅超越基线 0.2827。

研究背景与动机¶

矛盾（Ambivalence）和犹豫（Hesitancy）是一类复杂的情感状态，其核心特征在于个体对行为改变持有相互冲突的情感或意图。与离散情感（如快乐、愤怒）不同，A/H 不表现为某种固定的面部表情或语调，而是体现为跨通信渠道之间的不一致性——一个人说的话、说话的语调、面部表情三者之间的矛盾才是 A/H 的本质信号。

现有多模态情感计算方法在融合策略上存在根本性的假设偏差：

拼接融合（Concatenation）：直接将各模态特征首尾拼接，假设模态之间是互补关系，让分类器自行学习模态间的交互，但这种隐式学习在数据有限时难以捕捉到微妙的跨模态冲突信号
后期混合（Late Blending）：在决策层面融合各模态的独立预测，同样无法显式建模模态之间的分歧
注意力融合（Co-attention）：虽然提升了模态间交互的建模能力，但计算代价较高，且注意力权重的物理含义不如直接的差异度量清晰

这些方法的共同问题是将模态视为"互补信息源"，而非"可能产生冲突的信号源"。对于 A/H 检测而言，真正有诊断价值的信号恰恰在于模态之间的不一致，例如面部微笑但语调犹豫，或言语肯定但面部表情紧张。

此外，在上一届 ABAW-8 竞赛中，Savchenko 使用 EmotiEffLib 面部描述子配合 Wav2Vec 2.0 和 RoBERTa 进行后期混合融合取得了较好成绩；Hallmen 等人发现文本模态提供最强信号。但这些工作都未显式建模跨模态冲突这一 A/H 的核心定义特征。

基于这一洞察，作者提出：既然 A/H 在理论定义上就是"共存的冲突信号"，那么融合模块应当直接计算模态间的散度/差异，而非简单堆叠。这一思路简洁且理论动机充分。

方法详解¶

整体架构¶

系统采用三模态流水线：视觉（面部 Action Units）→ 音频（Wav2Vec 2.0）→ 文本（BERT），各模态独立编码后通过 BiLSTM + Attention Pooling 生成固定维度表示，再经投影层映射到共享嵌入空间，最后通过散度融合模块进行分类。

特征提取¶

视觉模态：使用 Py-Feat 从预裁剪的人脸图像中逐帧提取 20 个 Action Units (AUs)，采样率为每 3 帧取 1 帧（约 10 fps）。为建模时间动态，设计滑动窗口统计特征——在窗口大小 $W=16$、步长 $S=8$ 的滑动窗口内，对每个 AU 计算四种统计量（均值、标准差、斜率、范围），得到 80 维的窗口描述子。这一设计的关键洞察是：A/H 体现为面部动作的时间波动，而非某个固定表情。

音频模态：以 16 kHz 单声道提取音频，使用预训练的 Wav2Vec 2.0 (wav2vec2-base-960h) 编码，生成 768 维嵌入，时间分辨率约 50 Hz。

文本模态：使用 BERT-base 编码转录文本，取 [CLS] token 的 768 维输出，微调最后两层（学习率降低）以适配下游任务。

时序建模与注意力池化¶

视觉和音频模态的时序特征分别经过 2 层 BiLSTM（隐藏维度 64）处理，随后通过注意力池化将变长序列压缩为固定长度向量。每个模态的输出再经线性投影层映射到 $D=128$ 维的共享嵌入空间，得到 $\mathbf{h}'_v$、$\mathbf{h}'_a$、$\mathbf{h}'_t$。

三种融合策略对比¶

这是本文的核心设计——作者系统比较了三种融合策略：

Fusion A（隐式融合）：传统拼接方式，将三个模态的嵌入直接拼接： $$\mathbf{f}_A = [\mathbf{h}'_v;\, \mathbf{h}'_a;\, \mathbf{h}'_t]$$ 分类器需要自行从 $3 \times 128 = 384$ 维向量中学习模态间关系。

Fusion B（散度融合）：计算所有模态对之间的逐元素绝对差： $$\mathbf{f}_B = [|\mathbf{h}'_v - \mathbf{h}'_a|;\, |\mathbf{h}'_v - \mathbf{h}'_t|;\, |\mathbf{h}'_a - \mathbf{h}'_t|]$$ 这种设计直接捕捉跨模态冲突——如果视觉表达与音频情感一致，差值趋近于零；如果存在矛盾，差值会在相关维度上产生显著响应。维度同样为 $3 \times 128 = 384$。

Fusion C（组合融合）：同时保留原始嵌入和散度信息： $$\mathbf{f}_C = [\mathbf{f}_A;\, \mathbf{f}_B]$$ 维度为 768，信息最丰富但参数量更大。

分类与训练¶

融合向量通过 3 层 MLP（含 Dropout $p=0.3$）进行二分类。训练细节： - 损失函数：BCEWithLogitsLoss + 类别权重（应对正负样本不均衡） - 优化器：AdamW，BERT 部分学习率 $5 \times 10^{-5}$，其他参数 $5 \times 10^{-4}$ - 学习率调度：余弦退火，共 30 个 epoch - 梯度裁剪阈值 1.0，早停 patience 为 8

AU 时间波动的统计验证¶

作者在 1132 个视频上进行了 Mann-Whitney U 检验，验证了 AU 特征的判别能力。结论是：AU 的时间变异性（标准差）是 A/H 的主要视觉判别因子，而非 AU 的均值强度。这说明 A/H 表现为面部的"不稳定性"——面部肌肉的频繁波动而非持续的某种表情。

实验关键数据¶

Table 1: AU 特征判别力分析（Mann-Whitney U, N=1132）¶

特征	统计量	A/H vs 非A/H	效应量 \|r\|
AU06 (颧大肌/脸颊提升)	std	0.076 vs 0.059	0.186
AU09 (鼻翼提升)	std	0.095 vs 0.084	0.186
AU12 (微笑/嘴角提升)	std	0.089 vs 0.068	0.172
AU26 (下颚张开)	zcr	0.421 vs 0.384	0.168
AU02 (外侧眉毛提升)	std	0.110 vs 0.102	0.149

所有特征均通过 Bonferroni 校正后仍显著。效应量 |r| < 0.2 属于小效应，这解释了为什么纯视觉模型性能有上限（约 0.56 F1），需要多模态融合来弥补。

Table 2: BAH 数据集结果（Macro F1）¶

模型	Val F1	Test F1
单模态
Visual AUs (XGBoost)	0.6194	0.5642
Audio Wav2Vec (LSTM)	0.5218	0.6141
Text BERT	0.5758	0.5904
多模态（原始 AU）
Fusion A (隐式拼接)	0.6788	0.6604
Fusion B (散度融合)	0.6524	0.6808
Fusion C (组合融合)	0.6700	0.6766
多模态（窗口 AU）
Fusion B (散度融合)	0.6912	0.6602
竞赛基线	—	0.2827

关键发现： - 音频是最强的单模态（Test F1=0.6141），与先前文献一致 - Fusion B（散度融合）在测试集上取得最优 0.6808，较基线提升 140.8% - 窗口 AU 的 Fusion B 验证集最高（0.6912）但测试集下降（0.6602），反映训练数据有限（仅 598 视频）导致的过拟合 - Fusion C 虽然信息量最大，但并未优于纯散度 Fusion B，说明散度信号已充分捕捉 A/H 特征

亮点与洞察¶

理论驱动的融合设计：散度融合策略直接源于 A/H 的理论定义——共存的冲突信号，而非经验性地堆叠模态。这种"从任务定义推导架构设计"的思路值得借鉴
可解释的视觉特征：选择 Action Units 而非黑盒深度特征，使得统计分析可以揭示"哪些面部行为与 A/H 相关"（如脸颊提升、鼻翼提升的波动），增强了方法的可解释性
面部不稳定性假说：统计分析证实 A/H 表现为 AU 的时间波动而非某种固定表情，这一发现对情感计算领域有启发性——复杂情感状态可能更多体现在动态特征而非静态特征中
简洁有效：整体架构不依赖复杂的注意力机制或 Transformer，BiLSTM + 逐元素差值的方案计算高效，在小数据场景下尤其合适

局限性¶

数据规模有限：训练集仅 598 视频，窗口 AU 特征在验证集上表现最优但测试集反而下降，明确反映了过拟合问题；更丰富的特征表示需要更大的数据来支撑
散度度量过于简单：仅使用逐元素绝对差作为跨模态冲突的度量，未考虑更高阶的分布级散度（如 KL 散度、MMD），可能遗漏非线性冲突模式
时间对齐缺失：三个模态的时间分辨率不同（视觉 10 fps、音频 50 Hz、文本全局），当前方案通过注意力池化压缩为单向量后再计算散度，丢失了时间维度的细粒度对齐信息
视觉表示单一：仅使用 AU 作为视觉特征，AU 的效应量较小（|r| < 0.2），未探索深度面部嵌入（如 EmotiEffLib）或结合 MediaPipe blendshapes 等替代方案
泛化性待验证：仅在 BAH 数据集上评测，未在其他情感冲突检测数据集上验证方法的通用性

评分¶

新颖性: ⭐⭐⭐ — 散度融合思路简洁且理论动机清晰，但技术上仅是逐元素差值，创新幅度有限
实验充分度: ⭐⭐⭐ — 三种融合策略+单模态消融+统计分析较为完整，但仅单一数据集，无跨数据集验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，统计分析与方法设计逻辑自洽，竞赛论文写作规范
价值: ⭐⭐⭐ — 散度融合的思路对需要检测"模态冲突"的任务（如讽刺检测、欺骗检测）有参考价值