A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity¶

会议: NeurIPS 2025
arXiv: 2509.24734
代码: https://github.com/ispamm/TRIANGLE/
领域: 多模态VLM / 音频语音
关键词: 三模态对齐, 余弦相似度替代, 三角面积相似度, 对比学习, 视频文本检索

一句话总结¶

TRIANGLE提出用高维空间中三模态嵌入向量构成的三角形面积作为相似度度量，替代传统的成对余弦相似度，实现了视频-音频-文本三模态的联合对齐，在视频文本检索等任务上超越SOTA最多9个Recall@1点。

研究背景与动机¶

领域现状：自CLIP以来，多模态对齐的范式一直基于成对余弦相似度——选择一个锚定模态（anchor），将其他模态逐一与锚对齐。例如ImageBind以图像为锚，LanguageBind以文本为锚。这种方式在两模态任务上表现良好，后续扩展到三模态场景（如视频+音频+文本）。

现有痛点：成对余弦相似度存在根本性限制——它只能保证每个模态与锚模态对齐，但无法提供非锚模态之间的对齐保证。例如，视频和音频都与文本对齐，但视频和音频之间是否对齐是未知的。实际场景中，这导致模型在需要综合多模态信息的任务中表现不佳。比如在视频文本检索中，仅看视频帧无法区分"狗在吠"和"狗在嚎叫"，音频信息是关键鉴别线索，但现有模型无法有效利用第三模态。

核心矛盾：余弦相似度本质上是二维平面上的度量，无法自然扩展到三个或更多向量的联合空间。现有的折中方案（如MLP融合、额外损失函数、锚选择策略）要么引入额外参数，要么仍然缺乏几何可解释性。

本文目标 如何在三模态嵌入的自然高维空间中直接计算联合相似度，无需成对比较或额外融合层。

切入角度：三个单位超球面上的嵌入向量自然构成一个三角形——三角形面积的大小直接反映三模态的对齐程度（面积越小越对齐），且仅需要三次点积运算。

核心 idea：用三模态嵌入向量构成的三角形面积替代成对余弦相似度，在高维空间中直接度量三模态联合对齐。

方法详解¶

整体框架¶

输入视频帧、音频波形和文本caption，分别通过视频编码器（EVAClip-ViT-G）、音频编码器（BEATs）和文本编码器（BERT-B）提取嵌入向量。三个嵌入向量在归一化后位于单位超球面上，构成一个三角形。TRIANGLE用这个三角形的面积替代余弦相似度，嵌入新的对比损失函数中进行训练。推理时同样基于三角面积进行检索/分类。

关键设计¶

三角面积相似度度量（TRIANGLE Area Similarity）:
- 功能：在高维空间中直接度量三个模态嵌入的联合对齐程度
- 核心思路：给定三个嵌入 \(\mathbf{x}, \mathbf{y}, \mathbf{z}\)，定义 \(\mathbf{u} = \mathbf{x} - \mathbf{y}\)，\(\mathbf{v} = \mathbf{x} - \mathbf{z}\)，三角形面积为 \(A = \frac{1}{2}\sqrt{\langle\mathbf{u},\mathbf{u}\rangle\langle\mathbf{v},\mathbf{v}\rangle - \langle\mathbf{u},\mathbf{v}\rangle^2}\)。面积小说明三向量聚拢（对齐好），面积大说明向量分散（不对齐）。整个计算只需3次点积，计算开销极低（2048维向量仅需0.0016秒 vs 余弦0.0001秒）。
- 设计动机：余弦相似度只定义在2D平面上，无法度量三向量的联合位置关系；三角面积是唯一能在高维空间中直接反映三点相对位置的简洁几何量
TRIANGLE对比损失函数:
- 功能：将三角面积度量嵌入标准的对比学习损失中
- 核心思路：在标准InfoNCE损失中，将余弦相似度替换为负三角面积。例如Data-to-Text方向的损失为 \(\mathcal{L}_{D2T} = -\frac{1}{B}\sum_{i}\log\frac{\exp(-A(\mathbf{t}_i, \mathbf{v}_i, \mathbf{a}_i)/\tau)}{\sum_j \exp(-A(\mathbf{t}_j, \mathbf{v}_i, \mathbf{a}_i)/\tau)}\)。负号使得面积越小（对齐越好）损失越低。同时保留Data-Text-Matching (DTM)交叉注意力损失作为辅助。最终损失为 \(\mathcal{L} = \frac{1}{2}(\mathcal{L}_{D2T} + \mathcal{L}_{T2D}) + \lambda\mathcal{L}_{DTM}\)。
- 设计动机：直接替换对比损失中的相似度度量，无需修改模型架构，保持了方法的简洁性和通用性
余弦正则化（Cosine Regularization）:
- 功能：处理三角形退化为直线的极端情况，增强下游任务性能
- 核心思路：在推理时的相似度计算中加入余弦正则项：\(\mathcal{A} = A - \alpha\cos\theta_{\mathbf{xy}}\)，其中 \(\alpha\) 是平衡系数，\(\theta_{\mathbf{xy}}\) 是下游任务涉及的两个模态间的角度。当三角形退化（三点几乎共线）时，面积趋近于零无法提供区分信息，此时余弦正则项补充两模态间的对齐信息。
- 设计动机：解决三角面积在退化情况下的鲁棒性问题，确保在所有向量配置下都能提供有效的对齐信号

损失函数 / 训练策略¶

在VAST的预训练编码器基础上，使用VAST27M数据集的150k子集进行额外预训练。移除了VAST的MLP融合层，仅使用TRIANGLE损失重塑潜在空间。值得注意的是，同样的额外预训练策略应用于VAST反而导致过拟合，说明TRIANGLE的损失函数能够将已有编码器的知识重新组织为更统一的多模态空间。

实验关键数据¶

主实验¶

数据集	指标	TRIANGLE	VAST (同编码器)	提升
MSR-VTT T2V	R@1	55.2	49.3	+5.9
MSR-VTT V2T	R@1	52.5	43.7	+8.8
DiDeMo T2V	R@1	54.9	49.5	+5.4
DiDeMo V2T	R@1	53.1	48.2	+4.9
ActivityNet T2V	R@1	59.7	51.4	+8.3
ActivityNet V2T	R@1	54.1	46.8	+7.3
VATEX T2V	R@1	83.9	80.0	+3.9
AudioCaps T2A	R@10	77.1	65.4	+11.7
VGGSound分类	R@1	44.8	39.6	+5.2

消融实验¶

配置	T2AV R@1	AV2T R@1	说明
VAST (cosine+MLP融合)	36.5	35.5	成对余弦+融合层
Symile	0.3	0.4	n模态总相关性方法，失败
GRAM	38.9	41.9	n模态体积方法
TRIANGLE w/o DTM	33.3	40.4	无DTM损失
TRIANGLE (完整)	39.4	41.9	最佳配置

关键发现¶

DTM损失的重要性：去掉DTM后T2AV方向掉了6.1个点，说明交叉注意力辅助损失对文本端检索至关重要
通用n模态方法不如三模态专用方法：Symile和GRAM虽然理论上可扩展到任意n个模态，但在三模态任务上表现不如TRIANGLE，说明针对triplet的目标函数能更有效利用模态特有特征
Vanilla实验验证：在MNIST+AudioMNIST+文本标签的可控环境中，TRIANGLE不仅收敛更快（达到90%的速度为余弦方法的4倍），且最终性能最优
V2T方向的提升普遍大于T2V方向，且ActivityNet上提升最显著（+8.3/+7.3），可能因为ActivityNet视频的音频信息更丰富更互补

亮点与洞察¶

三角面积作为相似度度量的简洁性极具吸引力：仅需3次点积即可替代传统的成对比较，既保持了计算效率又提供了可解释的几何意义（面积 = 对齐差异的直观量化）。这个思路可推广到其他需要联合度量多组向量关系的场景
不修改架构只修改损失函数的设计哲学：TRIANGLE直接在VAST编码器上替换损失函数即可大幅提升性能，移除了原本的MLP融合层反而更好，体现了"less is more"的设计理念
三角形退化时的余弦正则化是一个精巧的工程细节：当三点近乎共线时三角面积趋近零，此时退回到两模态余弦相似度，保证了方法的鲁棒性

局限与展望¶

目前仅限于三模态对齐，作者虽然提到面积概念可扩展到n模态的polygon/parallelotope体积，但未给出实验验证
预训练仅使用了150k样本（VAST27M的很小子集），更大规模预训练的效果尚不清楚
余弦正则化的超参数 \(\alpha\) 需要按任务调整，未讨论其敏感性
未探索在其他三模态组合（如RGB+深度+文本、触觉+视觉+文本）上的泛化性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 三角面积替代余弦相似度的idea简洁而深刻，具有明确的几何直觉
实验充分度: ⭐⭐⭐⭐ 7个benchmark、3种任务类型、从头训练+预训练微调+消融实验，覆盖全面
写作质量: ⭐⭐⭐⭐ 几何直觉解释清晰，图表设计精良
价值: ⭐⭐⭐⭐ 为多模态对齐提供了新范式，三角面积度量可迁移性强