跳转至

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

会议: ICLR 2026
arXiv: 2602.22740
代码: GitHub
领域: 图像分割
关键词: referring image segmentation, vision-language alignment, masked learning, cross-modal similarity

一句话总结

提出对齐感知遮蔽学习(AML)策略,通过量化视觉-语言 patch 级对齐度并过滤低对齐像素,让 RIS 模型在训练时聚焦可靠区域,无需架构改动即在 RefCOCO 全部 8 个 split 上达到 SOTA。

背景与动机

核心矛盾

核心矛盾领域现状:1. 指称图像分割(RIS)需要根据自然语言表达精准分割图像中的目标对象,依赖跨模态精细对齐 2. RIS 训练中每个样本通常仅有一个标注目标,监督信号稀疏 3. 理解"离人最近的长颈鹿"等表达需要依赖视觉上下文中其他物体的空间关系 4. 现有方法(LAVT/CARIS/DETRIS)通过复杂融合模块增强对齐,但对全部像素施加损失会引入不可靠梯度 5. 在密集损失下,模型容易过拟合到与表达无关的区域 6. 数据增强方法(翻转/颜色抖动)易破坏指称表达的语义一致性

方法详解

整体框架: 两阶段训练(共享参数)——第一阶段前向计算对齐图并生成遮蔽,第二阶段在遮蔽图像上正常训练

PatchMax Matching Evaluation (PMME): - 将视觉特征 \(V\) 和文本特征 \(T\) 分别 \(\ell_2\) 归一化 - 用随机高斯矩阵 \(W_i, W_t\) 投影到公共 \(D_a\) 维空间(Johnson-Lindenstrauss 保距) - 计算 \(S_{norm} = \text{SoftMax}(V'T'^{\top})\),每个 patch 取与最强匹配 token 的最大相似度

Alignment-Aware Filtering Mask (AFM): - 将 patch 级相似度双线性上采样到像素级 - 低于阈值 \(\tau\) 的像素标记为弱对齐,随机保留 \(1-\rho\) 比例(防过滤) - 按 block 聚合遮蔽(任一像素弱对齐则整块遮蔽),对输入图像 zero-out

关键超参: \(\tau=0.4\), \(\rho=0.25\), block \(32\times32\), \(D_a=2048\)

损失: 标准交叉熵分割损失 \(\mathcal{L}_{seg}\),无额外损失项

实验关键数据

主实验

方法 RefCOCO val RefCOCO+ val RefCOCOg val Avg mIoU
CARIS* 76.77 69.33 68.87 71.8
MagNet 77.43 70.10 68.53 72.1
AMLRIS 77.89 71.33 69.24 72.9
  • oIoU 指标:RefCOCO val 75.45(+0.80 vs CARIS),RefCOCO+ val 67.37(+1.83)
  • 全部 8 个 split 均 SOTA
  • 跨数据集鲁棒性:仅在 RefCOCO+ 训练,在 7 种扰动场景下均优于 baseline
  • 额外开销:仅增加 4.9% 显存和 17.2% 训练时间,推理无开销

实验关键数据

主实验(mIoU)

方法 RefCOCO val testA testB RefCOCO+ val testA testB RefCOCOg val test Avg
LAVT 74.46 76.89 70.94 65.81 70.97 59.23 63.34 63.62 68.0
CGFormer 76.93 78.70 73.32 68.56 73.76 61.72 67.57 67.83 71.1
CARIS* 76.77 79.03 74.56 69.33 74.51 62.69 68.87 68.51 71.8
MagNet 77.43 79.43 74.11 70.10 74.50 63.59 68.53 69.15 72.1
AMLRIS 77.89 79.53 74.99 71.33 75.61 64.61 69.24 69.73 72.9

消融实验

配置 RefCOCO val mIoU 说明
CARIS 基线 76.77 无遮蔽
+随机遮蔽(Random Mask) 76.92 随机遮蔽效果微弱
+PMME+AFM (完整 AML) 77.89 对齐感知遮蔽有效
AML 集成到 DETRIS 75.64→76.12 跨架构一致提升
AML 集成到 ReLA +0.5-1.0 同样有效

跨数据集鲁棒性

扰动场景 CARIS baseline AMLRIS
标准评估 69.33 71.33
遮挡 65.1 68.4
噪声 64.8 67.9
模糊 66.2 69.1
色彩变换 67.5 70.2

关键发现

  • 全部 8 个 split 均达到 SOTA,平均 mIoU 72.9(+0.8 vs MagNet)
  • oIoU 指标同样全面最优,RefCOCO+ val 达 67.37(+1.83 vs CARIS)
  • 随机遮蔽几乎无效(+0.15),证明对齐感知的遮蔽选择是关键
  • 在遮挡/噪声等扰动场景下优势更加明显(+3.1-3.3),表明模型学到了更鲁棒的对齐特征
  • 额外开销很小:仅增加 4.9% 显存和 17.2% 训练时间,推理时完全无开销(遮蔽阶段被跳过)
  • 可无缝集成到 DETRIS/CARIS/ReLA 等多种 RIS 框架

亮点与洞察

  • 即插即用训练策略:不修改模型架构、不增加推理成本——纯训练阶段的改进,部署零代价
  • 理论保证:用 Johnson-Lindenstrauss 引理严格证明随机投影保持跨模态内积,对齐度量有数学依据
  • 反直觉有效性:训练时从未见过完整图像(总有部分被遮蔽),但推理时在完整图像上表现更好——说明过滤弱对齐区域确实消除了误导性梯度
  • PatchMax 匹配策略:每个 patch 取与最强匹配 token 的相似度,比平均匹配更能反映局部对齐质量

局限与展望

  • 阈值 \(\tau=0.4\) 和 dropout 比例 \(\rho=0.25\) 需要手动调节,不同数据集可能需要不同设置
  • 随机投影的对齐度量基于初始特征相似度,可能遗漏深层语义对齐(训练后期特征空间变化)
  • 两阶段前向带来 17.2% 训练时间增加,在大规模数据上可能成为瓶颈
  • 仅在 RefCOCO 系列评估,未验证在开放词汇/大规模/更复杂场景下的泛化性
  • Block 粒度遮蔽(32×32)可能在小目标场景下误覆盖目标区域

相关工作与启发

  • vs CARIS/LAVT/DETRIS:本文 baseline 和对比方法,通过融合架构提升对齐,但都用全像素损失——AML 从优化信号角度创新
  • vs MaskRIS/NeMo/MagNet:数据增强路线的 RIS 改进,但仍对全像素施加损失;AML 直接抑制低质量梯度
  • vs CRIS:基于 CLIP 的像素级适配方法,在预训练特征空间做对齐;AML 可在任意 backbone 上使用

评分

  • 新颖性: ⭐⭐⭐⭐ 对齐感知遮蔽思路简洁新颖,PatchMax + JL 投影有理论支撑
  • 实验充分度: ⭐⭐⭐⭐ 全 split SOTA + 鲁棒性评估 + 跨架构验证 + 消融完整
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,算法伪代码完整
  • 价值: ⭐⭐⭐⭐ 通用训练策略,可即插即用到现有 RIS 方法中