Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval¶
会议: AAAI 2026
arXiv: 2512.24064
代码: GitHub
领域: 信息检索
关键词: 跨模态检索, 噪声标签, 邻域感知, 实例精炼, 鲁棒学习
一句话总结¶
提出 NIRNL 框架,通过跨模态边距保持(CMP)增强样本区分度,并利用邻域感知实例精炼(NIR)将训练数据三分为纯净/困难/噪声子集,分别定制不同优化策略,统一了鲁棒学习、标签校准和实例选择三种范式,在高噪声率下实现了 SOTA 跨模态检索性能。
研究背景与动机¶
跨模态检索(Cross-Modal Retrieval, CMR)旨在从不同模态(如图像和文本)中检索语义相关的样本。现有 CMR 方法大多依赖于精确标注的数据来学习多模态共享语义空间的表示,但实际中收集大规模、高质量标注数据既昂贵又耗时,多模态数据的标注不可避免地包含噪声。噪声标签会严重损害学习模型,削弱检索性能。
现有的鲁棒 CMR 方法大致分为三类,但各有局限:
鲁棒学习(如 RONO):设计鲁棒损失函数来容忍噪声影响。但它依赖噪声分布的先验假设,只能"容忍"噪声而无法消除噪声对性能上限的限制。
标签校准(如 UOT-RCL):直接纠正噪声标签。但当类别边界模糊或噪声分布与真实分布严重重叠时,可能引入新噪声或放大已有错误。
实例选择(如 RSHNL, NRCH):过滤噪声样本后用干净数据训练。但对预设阈值敏感,易过滤干净样本或遗漏噪声样本,同时浪费大量训练数据。
核心挑战:在复杂噪声场景下,如何动态协调模型性能上限、校准可靠性和数据利用率三者之间的平衡?NIRNL 正是为统一解决这三个维度的问题而设计的。
方法详解¶
整体框架¶
NIRNL 由两个核心模块并行工作:
- CMP(Cross-modal Margin Preserving):在嵌入空间层面约束正负样本对的相对距离,增强表示的判别性
- NIR(Neighbor-aware Instance Refining):利用跨模态邻域共识生成软标签,将数据集精细划分为纯净、困难和噪声三个子集,并为每个子集设计定制化的优化策略
关键设计¶
- 跨模态边距保持(CMP):CMP 通过 triplet-style 的 hinge loss 约束正负样本对的相对距离,使同类样本更紧凑、异类样本更分散:
加上对称的文本→图像方向。其中 \(\mathcal{M}\) 是预定义的边距,\(|\cdot|_+\) 为 hinge 函数。CMP 对所有样本施加约束,作为全局的结构正则化器。
-
邻域感知实例精炼(NIR):NIR 的核心思路是通过 KNN 邻域共识来评估标签可靠性。具体分为几步:
-
软标签生成:对每个样本 \(i\),在视觉和文本模态分别找到 \(K\) 个最近邻,统计邻居的类别分布作为软标签: \(\hat{p}(c|\mathcal{V}_i) = \frac{1}{K} \sum_{k=1, \mathcal{V}_k \in \mathcal{N}_i^{\mathcal{V}}}^{K} \mathbb{I}[y_k^c = 1]\)
-
三分数据集:根据软标签与 ground-truth 标签的一致性将样本分为三类:
- 纯净子集 \(\mathcal{D}_P\):两个模态的软标签都与 ground-truth 一致(标签高度可靠)
- 困难子集 \(\mathcal{D}_H\):仅一个模态一致(标签可靠性不确定)
- 噪声子集 \(\mathcal{D}_N\):两个模态的软标签都与 ground-truth 不一致(标签大概率错误)
-
Wasserstein 重心提取:通过 EM 算法计算每个类别在共享空间中的语义重心 \(\bar{u}_c\),用于后续各子集的损失计算
-
-
三子集差异化优化策略:
- 纯净子集:直接使用交叉熵损失 \(\mathcal{L}_P\) 进行优化,充分利用可靠的监督信号
- 困难子集:使用加权交叉熵损失 \(\mathcal{L}_H\),权重 \(\ell_i = 1 - (1-s(\mathcal{V}_i))(1-s(\mathcal{T}_i))\) 反映样本属于正确重心的概率,对可能被污染的标注施加更小的权重
- 噪声子集:首先融合两个模态的软标签进行标签校正 \(\hat{y}_i = \arg\max_c \hat{p}_i^c\),然后使用鲁棒的 MAE 损失 \(\mathcal{L}_N\) 来缓解标签校正可能引入的偏差
损失函数 / 训练策略¶
总体训练目标:
其中前三项分别只作用于对应子集的样本,\(\mathcal{L}_{CMP}\) 作用于所有样本。\(\alpha\) 是平衡系数。三个子集的划分在训练过程中动态更新——随着模型表示质量的提升,邻域结构变得更加准确,数据划分也更精确,形成良性循环。
实验关键数据¶
主实验¶
在三个基准数据集(Wikipedia、XMedia、INRIA-Websearch)上,在 0.2/0.4/0.6/0.8 四种噪声率下评估。
Wikipedia 数据集(MAP%):
| 噪声率 | 指标 | NIRNL | RSHNL (AAAI'25) | RONO (CVPR'23) | 提升 |
|---|---|---|---|---|---|
| 0.2 | I2T / T2I | 51.6 / 46.6 | 49.1 / 45.4 | 50.5 / 47.1 | +2.5 / +1.2 |
| 0.4 | I2T / T2I | 51.7 / 46.5 | 44.3 / 41.6 | 48.8 / 45.8 | +7.4 / +4.9 |
| 0.6 | I2T / T2I | 49.2 / 46.1 | 38.3 / 36.4 | 45.3 / 41.8 | +10.9 / +9.7 |
| 0.8 | I2T / T2I | 41.7 / 39.4 | 27.8 / 26.8 | 41.6 / 38.2 | +13.9 / +12.6 |
XMedia 数据集(均值 MAP%):
| 方法 | 噪声率=0.2 均值 | 噪声率=0.8 均值 | 总均值 |
|---|---|---|---|
| NIRNL | 92.3 | 91.3 | 91.8 |
| RSHNL | 91.2 | 85.6 | 88.6 |
| RONO | 91.2 | 87.5 | 89.5 |
INRIA-Websearch 数据集(均值 MAP%):
| 方法 | 噪声率=0.2 均值 | 噪声率=0.8 均值 | 总均值 |
|---|---|---|---|
| NIRNL | 53.1 | 50.4 | 52.0 |
| RSHNL | 53.1 | 42.9 | 49.5 |
| NRCH | 43.0 | 41.3 | 42.2 |
NIRNL 在所有数据集、所有噪声率上均达到最佳结果,尤其在高噪声率(0.6、0.8)下优势更加明显。
消融实验¶
在 0.6 噪声率下的消融分析:
| 变体 | Wikipedia 均值 | XMedia 均值 | Websearch 均值 | 说明 |
|---|---|---|---|---|
| NIRNL-1 | 24.4 | 40.8 | 8.3 | 移除 CMP |
| NIRNL-2 | 44.8 | 88.6 | 46.7 | 丢弃噪声子集 |
| NIRNL-3 | 47.1 | 90.3 | 51.1 | 困难子集不加权 |
| NIRNL-4 | 40.5 | 90.8 | 50.4 | 移除重心对齐 |
| NIRNL | 47.7 | 91.8 | 52.1 | 完整框架 |
关键发现¶
- CMP 对性能影响最大:移除 CMP 后 Wikipedia 上性能暴跌至 24.4(降 49%),说明结构化嵌入空间是噪声鲁棒性的基础
- 噪声子集的信息不可忽视:丢弃噪声子集(NIRNL-2)导致性能下降,说明通过标签校正可以从"坏标签"中挽回有用信息
- 困难子集的加权策略有效:不加权(NIRNL-3)导致模型对噪声标签过于敏感
- NIRNL 在训练后期能正确识别大部分干净样本:随训练推进,纯净子集中真正干净样本的比例持续提升
- RSHNL 在 Wikipedia 上出现过拟合:因其未能捕获全局邻域分布结构
亮点与洞察¶
- 三范式统一:将鲁棒学习、标签校准和实例选择三种策略有机统一在一个框架中,是本文最大的创新点。通过"先分类再定制"的思路,既避免了鲁棒学习无法消除噪声的问题,又避免了标签校准可能引入新噪声的风险,还避免了实例选择浪费数据的缺陷
- 跨模态邻域共识:利用来自两个不同模态的邻域信息进行交叉验证,比单模态的噪声检测更加可靠。当且仅当两个模态都"投票"通过,样本才被认为是纯净的
- Wasserstein 重心的巧妙运用:使用最优传输理论中的 Wasserstein 重心来提取类别语义中心,比简单的均值中心更鲁棒
- 差异化损失设计合理:纯净用 CE、困难用加权 CE、噪声用 MAE——MAE 对噪声标签更鲁棒的理论保证被巧妙利用
- 实验设置全面:四种噪声率 × 三个数据集 × 双向检索 × 10 种基线方法的对比非常充分
局限与展望¶
- 骨干网络固定:实验中保持特征提取器(VGG-19、AlexNet)冻结,未探索端到端微调的效果——使用更强的预训练模型(如 CLIP)可能带来进一步提升
- 仅验证对称噪声:实验只使用了对称标签噪声,未涉及更现实的不对称噪声或实例依赖噪声
- 三分策略的阈值设定:虽然使用了邻域共识而非硬阈值,但 KNN 中 \(K\) 的选择仍需调参,论文未详细讨论 \(K\) 的敏感性
- 计算开销:每个 epoch 需要计算全局 KNN 和 Wasserstein 重心,对于大规模数据集可能带来额外开销
- 仅限图文检索:虽然框架具有通用性,但仅在图文双模态上验证,未拓展到视频、音频等更多模态
相关工作与启发¶
- RSHNL (AAAI'25):使用自步学习策略的实例选择方法,是本文最直接的对比基线,但忽略了全局邻域结构且浪费了噪声数据
- RONO (CVPR'23):采用判别中心学习的鲁棒方法,只压制而不纠正噪声
- GNN4CMR (TPAMI'23):图神经网络方法,在高噪声下性能急剧下降
- 启发:邻域共识 + 三分策略的思路可推广到其他受噪声影响的多模态学习任务(如视觉问答、图文生成中的噪声配对问题)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 三范式统一的框架设计新颖,邻域共识三分法有独到之处
- 技术深度: ⭐⭐⭐⭐ — Wasserstein 重心、差异化损失的理论基础扎实
- 实验充分性: ⭐⭐⭐⭐⭐ — 三数据集、四噪声率、十种基线、完整消融和鲁棒性分析
- 实用价值: ⭐⭐⭐⭐ — 有代码开源,噪声标签场景的实际需求明确
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整,图表丰富