跳转至

ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval

会议: CVPR 2026
arXiv: 2604.20358
代码: https://github.com/Lee-zixu/ConeSep/ (有)
领域: 多模态VLM / 图文检索 / 噪声对应学习
关键词: 组合图像检索, 噪声三元组对应, 机器遗忘, 最优传输, 负锚点

一句话总结

针对组合图像检索(CIR)中三元组标注噪声里最棘手的「硬噪声」(参考图与目标图高度相似但修改文本错误),本文提出 ConeSep:先用锥形空间几何边界量化每个样本的匹配保真度做噪声分离,再为每个 query 学一个「对角负组合」作为显式语义反锚点,最后把噪声纠偏建模成最优传输问题做定向遗忘,在 FashionIQ / CIRR 上各噪声率下都超过 TME、HABIT、INTENT 等 SOTA。

研究背景与动机

领域现状:组合图像检索(CIR)让用户用「参考图 ref + 修改文本 mod」去检索「目标图 tar」,是一种灵活的多模态检索范式,主流做法是用 BLIP-2 的 Q-Former 把 (ref, mod) 融合成组合特征,与目标图特征做对比对齐。

现有痛点:CIR 严重依赖高质量 (ref, mod, tar) 三元组标注,但人工标注的主观偏差和 LVLM 生成标注的幻觉,都会让 mod 与 (ref, tar) 语义不一致,产生「噪声三元组对应」(Noisy Triplet Correspondence, NTC)。NTC 比传统的「噪声双对应」(NDC,单纯的图-文/视频-文错配)更复杂:它有复合噪声结构,既有「部分匹配」(mod 只对上 ref 或 tar 之一),又有「硬噪声」(ref/tar 视觉极相似但 mod 是错的)。

核心矛盾:现有 NCL 方法(包括 NTC 开山作 TME 和成熟的 NDC 方法)几乎都走「识别-纠正/抑制」范式,靠混合损失或结构相似度这种粗粒度标量指标来切分干净/噪声样本。但硬噪声因为 ref 和 tar 视觉太像,组合特征会有很小的 loss 值,从而被误判成干净样本——这直接打破了「小损失假设」,让传统方法失效。

本文目标:作者把 NTC 在这套范式下暴露的问题拆成三个被忽视的挑战——C1 模态抑制(硬噪声里 ref 的稠密视觉特征压过 mod 的稀疏语义信号,使混合 loss 看不出错配);C2 负锚缺失(即便识别出硬噪声,现有框架只做正向对齐,没有结构化的负语义锚点可供「推离」);C3 遗忘反噬(强行把噪声样本推离时,度量空间局部拥挤,会像涟漪一样误伤附近的干净样本)。

切入角度 / 核心 idea:作者发现需要一个能「细粒度感知(解 C1)+ 结构化排斥(解 C2)+ 避免反噬(解 C3)」的特征空间,于是借助锥形空间几何(干净样本与 NTC 样本相似度分布在二维直方图上呈锥形可分),用三个逻辑递进的模块构成闭环:几何保真度量化 → 负边界学习 → 基于边界的定向遗忘。

方法详解

整体框架

ConeSep 把「主动感知噪声 → 结构化建模负语义 → 精确遗忘噪声」串成一个闭环系统。输入是一批可能含噪的三元组 (ref, mod, tar),先用 BLIP-2 的 Q-Former 抽出组合特征 \(\mathbf{F}_c\) 和目标特征 \(\mathbf{F}_t\);然后三个模块依次工作:GFQ 估计一条噪声边界 \(\mathbb{B}\) 并据此把 batch 切成高保真干净集 \(\mathcal{T}_{clean}\) 和低保真噪声集 \(\mathcal{T}_{noisy}\)NBL 为每个 query 学一个语义相反的「对角负组合」\(\mathbf{F}_{neg}\) 作为推离方向的反锚点;BTU 把「干净样本拉向 tar、噪声样本推向 \(\mathbf{F}_{neg}\)」建模成一个带掩码的最优传输,得到平滑软标签做定向遗忘,最终把这些目标和鲁棒对比损失一起优化,输出鲁棒的检索嵌入。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入三元组<br/>(ref, mod, tar)"] --> B["Q-Former 编码<br/>组合特征 Fc / 目标特征 Ft"]
    B --> C["几何保真度量化 GFQ<br/>估边界 B → 切干净集/噪声集"]
    C --> D["负边界学习 NBL<br/>学对角负组合 Fneg 当反锚点"]
    D --> E["基于边界的定向遗忘 BTU<br/>最优传输 + 掩码 → 软标签"]
    E --> F["鲁棒检索嵌入"]

关键设计

1. 几何保真度量化(GFQ):用锥形空间边界穿透模态抑制,精准定位硬噪声

这一步直击 C1:硬噪声的混合 loss 很小,标量指标分不开。GFQ 不依赖单一 loss,而是先估计一条噪声边界 \(\mathbb{B}\)——对 ref、tar 各做 \(K\) 次高斯采样 \(x^G \sim \mathcal{N}(0,1)\)、并在 batch 内随机取 mod,把这些「人造随机三元组」过一遍 Q-Former 编码,取它们组合特征与目标特征余弦相似度的均值作为边界 \(\mathbb{B}\)(式 2)。直觉是:随机拼出来的三元组就是「天然噪声」,它们的相似度均值刻画了「噪声该落在哪」。然后用一个保真度函数量化每个真实样本离边界多远:

\[\mathcal{F}(\mathbf{F}_c,\mathbf{F}_t)=(\text{ReLU}(s_{ct}-\mathbb{B}))^2\cdot(\text{ReLU}(s_{ct}-\mathbb{B})-1)\]

其中 \(s_{ct}=\cos(\mathbf{F}_c,\mathbf{F}_t)\)\(\mathcal{F}\) 越大越像干净样本,再用阈值 \(\omega\) 把 batch 切成高保真 \(\mathcal{T}_{clean}\) 和低保真 \(\mathcal{T}_{noisy}\)。相比 TME 那种 GMM 拟合混合 loss 的做法,GFQ 把判别建立在「相对几何边界」而非「绝对 loss 大小」上,硬噪声即使 loss 小,只要落在边界附近也会被识别为低保真,从而逃不过过滤

2. 负边界学习(NBL):为每个 query 显式学一个对角负组合当语义反锚点

这一步解 C2:要做「定向遗忘」必须知道「往哪推」,但现有 CIR 只关注正向对齐,没有负锚点。NBL 用双路学习——正向路用受 RCL 启发的鲁棒对比损失 \(\mathcal{L}_{robust}\)(式 4)保证模型照常学 CIR 范式(把 \(\mathbf{F}_c\) 拉近对应 \(\mathbf{F}_t\));负向路引入一组可学习负提示 \(\mathbf{P}_{neg}\in\mathbb{R}^{Q\times D}\),和组合特征同样过 Q-Former 得到「对角负组合」\(\mathbf{F}_{neg}\)(式 5),代表该 query 在度量空间里的语义反面。\(\mathbf{F}_{neg}\) 同时被两个目标约束:目标导向用 Sigmoid 风格的反向匹配(二值目标矩阵对角为 1、非对角为 −1,再取反 \(-\mathbf{T}_{ij}\)),让 \(\mathbf{F}_{neg}\) 远离自己的 tar、靠近其他非匹配 tar(式 6);query 导向用松弛边界把 \(s(\mathbf{F}_c,\mathbf{F}_{neg})\) 约束进区间 \([\alpha_1,\alpha_2]\)\(\alpha_1\)/\(\alpha_2\) 分别是 batch 内负/正相似度均值),让相似度悬在 0 附近、实现「正交远离」(式 7)。这样每个 query 都有了一个结构化、专属的负锚点,而不是泛泛地「push away」

3. 基于边界的定向遗忘(BTU):把噪声纠偏建成带掩码的最优传输,绕开遗忘反噬

这一步解 C3:直接梯度上升式地推离噪声会在拥挤空间里产生涟漪、误伤干净样本。BTU 把「该把哪些样本搬到哪」建模成一个 \(B\times 2B\)最优传输问题:拼一个联合代价矩阵 \(\mathbf{C}=[\mathbf{C}^+|\mathbf{C}^-]\)\(\mathbf{C}^+_{ij}=1-s(\mathbf{F}_c^i,\mathbf{F}_t^j)\) 是搬向正目标的代价、\(\mathbf{C}^-_{ij}=1-s(\mathbf{F}_c^i,\mathbf{F}_{neg}^j)\) 是搬向负边界的代价(式 9)。关键是一个掩码 \(\mathbf{M}\) 精确切断路径:低保真噪声样本禁止流向自己的正目标(\(j=i\)),高保真干净样本禁止流向自己的负边界(\(j=i+B\)),被切的路径加上无穷大代价 \(\infty\) 得到 \(\mathbf{C}_{masked}\)。在此基础上解熵正则 OT(式 10,用 Sinkhorn-Knopp 迭代)得到全局最优传输方案 \(\mathbf{P}^*\),再把它和硬标签 \(\mathbf{L}\)(噪声行把对角置 0、把 \(i{+}B\) 列置 1,即「该忘的位置改指向负边界」)融成平滑软标签 \(\mathbf{Y}=\gamma\mathbf{P}+(1-\gamma)\mathbf{L}\)(式 11),最后用 KL 散度构成定向遗忘损失 \(\mathcal{L}_{ul}\)(式 12)。因为 OT 找的是「全局平滑最优路径」而非局部盲推,遗忘噪声时不会剧烈扰动邻近干净样本,从根上规避了反噬

损失函数 / 训练策略

训练分两阶段:前 \(N\) 个 warm-up epoch 先用 NBL 的目标 \(\mathcal{L}_{rank}+\zeta\mathcal{L}_{intra}+\nu\mathcal{L}_{inter}\)(式 8)把负组合 \(\mathbf{F}_{neg}\) 立起来;随后用 ConeSep 的最终目标 $\(\Psi^*=\arg\min_{\Psi}(\mathcal{L}_{robust}+\kappa\mathcal{L}_{ul}+\zeta\mathcal{L}_{intra})\)$ 联合优化(式 13)。基座为 BLIP-2,AdamW 优化器,CIRR 学习率 \(1e\text{-}5\)、FashionIQ \(2e\text{-}5\),batch size 128,随机采样数 \(K=4\),温度 \(\tau=0.07\),保真阈值 \(\omega=0.5\),融合系数 \(\gamma=0.7\)\(\{\zeta,\nu,\kappa\}=0.5\),单张 A40 训 20 epoch。

实验关键数据

主实验

FashionIQ 验证集(R@K %,AVG 为六项均值)在不同噪声率下与 SOTA 鲁棒方法对比:

噪声率 方法 Dress R@10 Shirt R@10 Toptee R@10 Avg R@10 Avg R@50 AVG.
0% TME (CVPR'25) 49.73 56.43 59.31 55.15 75.02 65.09
0% HABIT (AAAI'26) 49.99 56.62 59.51 55.38 75.20 65.29
0% ConeSep 50.96 56.98 58.80 55.58 75.88 65.73
20% TME 49.03 55.84 57.22 54.03 73.91 63.97
20% HABIT 49.63 55.67 58.14 54.48 74.28 64.38
20% ConeSep 54.93 75.01

CIRR 测试集(Avg(R@5, Rsub@1) %)随噪声率上升的优势对比:

噪声率 TME HABIT INTENT ConeSep
0% 82.01 81.82 81.70 82.34
20% 79.74 79.61 79.66 80.43
50% 77.71 78.87 78.41 78.75
80% 74.58 75.86 75.97 76.38

关键趋势:噪声率越高,ConeSep 的优势越大——FashionIQ 上对 HABIT 的 AVG 增益从 20% 噪声的 +0.92% 扩大到 50% 噪声的 +1.54%;CIRR 上即便在 80% 极端噪声仍领先。(注:CIRR 50% 噪声下 ConeSep 的 Avg 78.75 略低于 HABIT 78.87,作者文中以多数设置领先支撑结论,此处属诚实可查的局部差异 ⚠️。)

消融实验

FashionIQ / CIRR 在 σ=0.2 下的逐模块消融(节选最具代表性的掉点项):

变体 FashionIQ R@10 CIRR R@K 说明
ConeSep (Full) 54.93 80.66 完整模型
GFQ w/o Fidelity 53.42 79.90 去掉保真函数 \(\mathcal{F}\),掉 1.51%
GFQ w/o boundary 53.69 80.14 保真计算里去掉边界 \(\mathbb{B}\)
NBL w/o neg-prompt 54.77 78.94 去负提示 \(\mathbf{P}_{neg}\),CIRR 掉最狠(1.72%)
NBL w/o neg-tar 53.62 79.74 去目标导向学习
BTU w/o Unlearn 53.13 79.72 去定向遗忘损失 \(\mathcal{L}_{ul}\)
BTU w/o rank 52.31 79.00 去鲁棒对比损失,全场掉点最多

关键发现

  • 鲁棒对比损失 \(\mathcal{L}_{robust}\)(w/o rank)掉点最多(FashionIQ 54.93→52.31),说明它是抑噪和保证检索精度的地基;但去掉它之外的专用纠偏件(OT、\(\mathcal{L}_{ul}\)\(\mathbf{F}_{neg}\) 引导)也都明显掉点,三者「咬合」共同构成定向遗忘。
  • 负提示 \(\mathbf{P}_{neg}\)(w/o neg-prompt)在 CIRR 上掉得最狠(80.66→78.94),印证「显式学一个对角负组合当专属负锚点」是稳住鲁棒语义空间的核心。
  • 超参 \(\omega\)\(\kappa\) 都在 0.5 处达到峰值\(\omega\) 太低会把噪声误划进干净集干扰对齐、太高会把干净样本误划进噪声集被过度遗忘;\(\kappa\) 太低硬噪声纠正不足、太高则过度纠正反而触发遗忘反噬——两条曲线都恰好印证了 C3 的「反噬」论点。

亮点与洞察

  • 把「小损失假设失效」这个根因找准并几何化:用随机高斯采样三元组估出一条噪声边界 \(\mathbb{B}\),把判别从「loss 绝对值」换成「离边界的相对几何位置」,硬噪声再难也藏不住——这个「用人造随机样本定义噪声基准」的思路可迁移到任何小损失假设失效的噪声学习场景。
  • 「定向遗忘」需要先有一个可推的方向,本文给了显式负锚点:可学习负提示 + Sigmoid 反向匹配学出的 \(\mathbf{F}_{neg}\),把「往哪忘」从隐式变显式,比梯度上升盲推优雅得多。
  • 用最优传输 + 掩码做「外科手术式遗忘」:OT 求全局平滑路径、掩码精确切断(噪声样本禁流向正目标、干净样本禁流向负边界),把「遗忘反噬」这个 trade-off 转成了一个有约束的全局最优化问题,是把机器遗忘思想引入多模态检索的巧妙落点。
  • 闭环三模块逻辑递进:感知(GFQ)→ 建模负语义(NBL)→ 定向遗忘(BTU),每个模块的输出正好是下个模块的输入(噪声集喂给 BTU、\(\mathbf{F}_{neg}\) 当 OT 锚点),结构干净自洽。

局限与展望

  • 依赖随机采样估边界:边界 \(\mathbb{B}\)\(K=4\) 次高斯采样估计,采样数偏小,batch 分布偏移时边界估计的稳定性存疑,论文未给方差分析。
  • 超参较多且敏感\(\omega,\kappa,\gamma,\zeta,\nu\) 加 warm-up epoch 数 \(N\) 都需调,\(\omega/\kappa\) 又在 0.5 处尖峰,换数据集/噪声分布时调参成本不低。
  • CIRR 50% 噪声下并非全面领先(Avg 略输 HABIT),说明几何边界对中等噪声率不总是最优,鲁棒性优势更集中在高噪声极端区。
  • 只验证了 FashionIQ / CIRR 两个 benchmark,且都用 BLIP-2 基座;换更轻量基座或开放域大规模检索时方法是否仍 work 未知。
  • 改进方向:把边界估计从随机采样换成可学习/自适应的边界网络;把 OT 的掩码策略扩展到处理「部分匹配」这类非硬噪声。

相关工作与启发

  • vs TME(CVPR'25,NTC 开山作):TME 用 GMM 拟合混合 loss 来分干净/噪声,本质仍是粗粒度标量指标,对硬噪声因小损失假设失效而误判;ConeSep 用锥形几何边界做细粒度保真量化,并新增了负锚点和定向遗忘,全噪声率超过 TME,差距随噪声增大而扩大。
  • vs HABIT / INTENT(AAAI'26):都是 NTC 鲁棒方法,但仍聚焦「识别-纠正/抑制」,缺少对「模型已学进去的噪声」的主动遗忘机制;ConeSep 把机器遗忘引入 CIR,能定向「忘掉」已学的硬噪声。
  • vs 传统机器遗忘(Gradient Ascent 类):GA 靠局部、无定向的「push away」,正是遗忘反噬的来源;ConeSep 用 OT 找全局平滑最优路径 + 掩码切路,把概率分布从噪声样本平移到负边界,避免剧烈扰动——这是对「如何做无副作用的多模态遗忘」的一个具体答案。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把 NTC 的三大被忽视挑战系统拆解,并用锥形几何 + 负锚点 + OT 定向遗忘的闭环组合给出原创解法。
  • 实验充分度: ⭐⭐⭐⭐ 两 benchmark × 四档噪声率 + 14 项细粒度消融 + 超参敏感性 + case study,较扎实;但只有两个数据集、单一基座,CIRR 中噪声率有局部不领先。
  • 写作质量: ⭐⭐⭐⭐ 三挑战→三模块的对应逻辑清晰,公式完整;个别表述(如 Eq.10 用 \(s(\cdot)\) 记 OT 内积)略含糊。
  • 价值: ⭐⭐⭐⭐ 把机器遗忘思想引入组合检索的噪声鲁棒学习,方法模块化、可迁移性强,对噪声标注泛滥的多模态检索有实用价值。