跳转至

变分适配器跨模态相似度表示

会议: ICML 2026
arXiv: 2605.30968
代码: 待确认
领域: 多模态 VLM
关键词: 跨模态检索, 变分自编码器, 二元标注问题, 虚假负样本, CLIP 微调

一句话总结

通过变分推理框架学习连续的跨模态相似度分布——用自适应不确定度权重缓解二元标注导致的虚假负样本问题,显著提升 VLM 在跨模态检索和域泛化任务中的性能。

研究背景与动机

领域现状:CLIP 等 VLM 在统一表示空间中对齐图像和文本,已广泛应用于零样本分类、跨模态检索和开放词汇检测。然而现有方法在微调阶段往往面临数据标注的局限。

现有痛点:MS-COCO 等多模态数据集通常采用二元稀疏标注("匹配"或"不匹配"),将连续相似度空间强行分割为两类,导致模型无法捕捉样本间的细粒度语义关系。特别是在样本有限的微调场景中严重损害模型泛化性能。

核心矛盾:图像-文本对间的匹配关系本质上是连续且复杂的(蒙娜丽莎与"神秘微笑"的匹配既涉及对象层面又涉及主观感知)。二元标注的粗糙性导致虚假负样本(语义相关但被标为不匹配)大量产生,破坏表示空间的语义一致性。

本文目标:在保持 CLIP 基础模型不变的前提下,通过微调适配器显式在隐空间中建模跨模态相似度的连续分布,使模型能够为虚假负样本分配更高的不确定度。

核心 idea:用 VAE 框架将二元监督学习问题转化为隐变量生成模型,自然引入基于不确定度的自适应样本权重,实现"根据标注置信度调节学习强度"。

方法详解

整体框架

VACSR 由三关键模块组成——(1)特征交互层:使用 Hadamard 积将编码器输出图像特征 \(\bm{v}_i\) 和文本特征 \(\bm{t}_j\) 融合为相似度向量 \(\bm{s}_{i,j} = \bm{v}_i \odot \bm{t}_j\);(2)变分适配器:通过编码器网络将相似度向量映射到二成分高斯混合分布的隐空间 \(\mathbf{z}_{i,j}\);(3)解码器网络:从隐变量重构相似度分数并输出不确定度 \(\sigma^2(\mathbf{z}_{i,j})\)

关键设计

  1. 二成分高斯混合后验:

    • 功能:突破单峰高斯分布的表达能力限制,允许模型学习更复杂的语义表示。
    • 核心思路:将后验近似为 \(p_\phi(\mathbf{z}_{i,j}|\bm{s}_{i,j})=\sum_{k=1}^{2}\alpha_k\mathcal{N}(\mathbf{z}_{i,j}|\mu_k,\sigma_k^2)\),其中 \(\alpha_1,\alpha_2\) 为可学习混合权重。使用 Jensen 不等式得 KL 散度可计算上界 \(\text{KL}[\sum_k\alpha_k p_k \| q] \leq \sum_k\alpha_k \text{KL}[p_k \| q]\)
    • 设计动机:单峰高斯难以同时处理"匹配"和"非匹配"两种不同语义分布;混合模型允许编码器根据输入自动选择合适的高斯分量。
  2. 不确定度自适应权重:

    • 功能:为不同标注质量的样本分配不同学习强度——虚假负样本获得高不确定度(学习权重低),确定的正样本和困难样本获得低不确定度(学习权重高)。
    • 核心思路:从重构损失的极限行为推导——当 \(\sigma^2 \to 0\) 时模型完全遵循二元标注;当 \(\sigma^2 \to \infty\) 时标注信号被噪声淹没。同时学习均值 \(\mu(\mathbf{z}_{i,j})\) 和方差 \(\sigma^2(\mathbf{z}_{i,j})\),公式 \(\mathcal{L}_{\text{recon}} = \frac{1}{2\sigma^2}\|\hat{y}-\mu\|^2 + \log\sigma + \frac{1}{2}\log 2\pi\)
    • 设计动机:传统对比损失必须在温度 \(\tau\) 和缩放参数之间微妙平衡;该方法让模型自学习不确定度,动态适应二元标注噪声,避免手工调参。
  3. ELBO 优化目标:

    • 功能:同时最大化数据拟合度和约束隐空间的 KL 散度。
    • 核心思路:标准 VAE 框架 \(\text{ELBO} = \mathbb{E}_{p_\phi}[\log q_\theta(\hat{y}|\mathbf{z})] - \text{KL}[p_\phi \| q]\),重构项采用高斯似然假设(等价 MSE),KL 项强制隐表示遵循标准正态先验。
    • 设计动机:重构项自然给出不确定度加权,无需额外设计;KL 正则化防止模型过度利用隐空间方差"作弊"。

实验关键数据

主实验(COCO 数据集,1K 和 5K 测试集)

模型 1K R@1(I→T) 1K R@1(T→I) 5K R@1(I→T) 5K R@1(T→I) 改进
PCME++ (ViT-B/32) 81.6 69.2 62.1 48.1 baseline
VACSR (ViT-B/32) 84.2 70.3 66.5 49.8 +3.2%, +1.6%
PCME++ (ViT-B/16) 85.3 73.4 68.7 53.4 baseline
VACSR (ViT-B/16) 87.4 74.3 71.6 54.5 +2.5%, +1.6%

噪声鲁棒性(COCO 20% 噪声标注)

方法 1K R@1 5K R@1 RSUM 对 PCME++ 的改进
PCME++ 71.6 50.4 524.6 baseline
VACSR 76.4 57.1 539.0 +4.8% (R@1), +13.2% (RSUM)

关键发现

  • 干净标注下 VACSR 相比 PCME++ 平均提升 2-3%。
  • 20% 噪声注入场景中优势更明显(提升达 5%+),说明自适应不确定度确实有效缓解标注噪声。
  • 跨数据集(EC/CxC)测试验证泛化性能。

亮点与洞察

  • 理论深度:通过梯度分析严格证明二元标注对对比损失和 sigmoid 损失的具体危害,量化"梯度相对惩罚"\(r_i\)
  • 优雅的不确定度设计:将不确定度理解为"标注质量的度量"而非"语义模糊性",这一视角转变使模型能更合理处理虚假负样本。
  • 轻量级适配器:仅在 CLIP 冻结特征之上添加两个 MLP,参数量和计算开销极低。

局限与展望

  • Hadamard 积选择未系统比较不同特征交互方式(双线性池化、外积等)。
  • 混合分量数固定(二成分),可能限制对高度复杂标注模式的建模。
  • 标注纠正限制——若虚假负样本过度集中仍可能导致学习偏差。
  • 改进:动态分量数;其他灵活后验形式;结合主动学习或手工数据清洗。

相关工作与启发

  • vs 概率嵌入方法(PCME/PCME++):PCME 将不确定度归因于样本语义模糊;VACSR 归因于标注噪声,更符合实际数据标注场景。
  • vs 对比学习温度调参:传统方法需精心调整温度系数;VACSR 通过自学习方差参数实现自适应。

评分

  • 新颖性: ⭐⭐⭐⭐ 将二元标注问题重新建模为变分推理新颖;VAE 在表示学习中应用已有先例创新中等。
  • 实验充分度: ⭐⭐⭐⭐⭐ COCO/EC/CxC + 1K/5K + 噪声鲁棒性 + 域泛化。
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,理论推导严谨。
  • 价值: ⭐⭐⭐⭐⭐ 解决 CLIP 微调中的实际问题,方法轻量可集成。