跳转至

RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection

会议: CVPR 2026
arXiv: 2603.12685
代码: 无
领域: 图像分割
关键词: RGB-T显著性检测, 模态选择, 区域引导, 选择性优化, SwinTransformer

一句话总结

提出 RSONet 两阶段 RGB-T 显著性检测框架:先通过三支并行编码器-解码器生成区域引导图并基于相似度选择主导模态,再通过选择性优化模块融合双模态特征,在 VT5000/VT1000/VT821 上 MAE 达 0.020/0.014/0.021,超越 27 个 SOTA 方法。

研究背景与动机

领域现状:显著性目标检测(SOD)旨在像素级别识别场景中最吸引注意力的物体。随着深度学习发展,RGB-T SOD 利用热红外图像提供的温度信息弥补 RGB 在复杂场景下的不足,成为多模态显著性检测的活跃方向。

现有痛点:(1) RGB 图像在复杂背景/低对比度/暗光场景下检测困难;(2) 热红外图像虽不受光照影响,但可能因环境温度、材料属性等因素导致目标与背景不可区分;(3) 现有 RGB-T 融合方法(加法/乘法/拼接/注意力)隐式假设两模态同等重要,当信息质量差异大时会引入大量噪声。

核心矛盾:两个模态中显著区域分布不一致——一个模态可能包含准确的目标信息而另一个被噪声主导,等权融合会相互拉低质量。

本文目标 自适应判断哪个模态更可靠,让可靠模态主导融合过程,避免低质量模态的噪声干扰。

切入角度:先用一个"区域引导阶段"对 RGB、Thermal 和 RGB+T 分别预测引导图并比较相似度来选择主导模态,再在"显著性生成阶段"让主导模态引导融合。

核心 idea:在融合之前先做模态质量判断,让好的模态带着差的模态走,而非无差别混合。

方法详解

整体框架

两阶段设计。区域引导阶段:RGB/Thermal/RGB+T 三个并行的编码器-解码器分支(共享 SwinTransformer backbone),各生成引导图 \(G^R\)\(G^T\)\(G^{RT}\),计算 \(G^R\)\(G^T\) 分别与 \(G^{RT}\) 的相似度来选择主导模态。显著性生成阶段:选择性优化(SO)模块根据相似度结果融合双模态特征,低层特征经 DDE 模块增强细节,高层特征经 MIS 模块挖掘位置线索,跨层连接生成最终显著图。

关键设计

  1. 上下文交互(CI)模块 + 空间感知融合(SF)模块 + 相似度计算
    • CI 模块采用层自适应卷积核策略:低层特征用 1×1/3×3/5×5/7×7 四分支并行卷积捕获多尺度上下文,中层去掉 7×7 分支,高层只保留 1×1/3×3——因为高层特征分辨率低,大卷积核反而引入背景噪声
    • 各分支之间有残差连接(前一分支输出加到当前分支输入),打破不同尺度特征的隔阂
    • SF 模块通过全局 max pooling + 1×1 conv + sigmoid 生成空间权重,对 CI 输出做乘加优化,逐层自上向下融合
    • 相似度计算:对三张引导图计算像素均值 \(M^R\)\(M^T\)\(M^{RT}\),比较 \(|M^R - M^{RT}|\) vs \(|M^T - M^{RT}|\),差异更小的模态为主导模态
  2. 选择性优化(SO)模块
    • 双模态特征先与引导图 \(G^{RT}\) 做乘加增强,初步抑制背景区域
    • 各做通道注意力(1×1 conv → GAP → sigmoid)进一步优化通道响应
    • 主导模态的空间注意力施加到非主导模态特征上完成跨模态优化,最终两路求和得融合输出
    • 根据主导模态不同有两种对称的融合路径(R→T 或 T→R)
  3. DDE(密集细节增强)+ MIS(互交互语义)
    • DDE 用 4 分支空洞卷积(d=1,3,5,7)做密集连接(每分支输出加到后续所有分支输入),再接 4 个 VSS(Visual State Space)块捕获空间关系,处理低层特征保留边缘细节
    • MIS 用 3 主分支 × 3 子分支(d=1,2,3)的互交互结构处理高层特征:第一子分支输出加到其他两子分支输入,实现多尺度感受野交互,最终通道注意力融合

损失函数 / 训练策略

BCE + boundary IoU + F-measure 三项损失联合监督 5 个显著图(深监督)。SwinTransformer backbone 使用 ImageNet 预训练权重,RMSprop (\(lr=1 \times 10^{-4}\)),输入分辨率 384×384,单卡 RTX 4080 训练。

实验关键数据

主实验

数据集 MAE↓ \(F_\beta\) \(E_\xi\) \(S_\alpha\)
VT5000 0.020 0.910 0.926 0.963
VT1000 0.014 0.923 0.946 0.972
VT821 0.021 0.883 0.921 0.946

vs PATNet (KBS24):VT5000 \(F_\beta\) +3.4%,\(E_\xi\) +1.2%
vs ContriNet (TPAMI25):VT5000 \(F_\beta\) +3.6%,\(S_\alpha\) +2.4%
速度:~8.8 FPS(101.3M 参数),远慢于 CGFNet 52.3 FPS。

消融实验

变体 VT5000 MAE↓ VT5000 \(F_\beta\)
完整 RSONet 0.0197 0.9071
SO 模块 → 简单加法 0.0208 0.8952
SO 模块 → 拼接 0.0217 0.8857
去掉相似度引导(固定融合方向) 0.0215 0.8896
去掉 DDE + MIS 0.0217 0.8834
SwinTransformer → ResNet50 0.8146

关键发现

  • 相似度引导的模态选择贡献显著——固定融合方向 MAE 升 9.1%
  • SO 模块优于所有简单融合策略(加法/乘法/拼接/CA)
  • DDE 和 MIS 互补——同时去掉 MAE 升 10.2%,单独去掉效果也下降
  • SwinTransformer 远优于 ResNet 系列,\(F_\beta\) 差距高达 9pp

亮点与洞察

  • 自适应模态选择思路新颖——根据每张图片的实际情况选择主导模态而非等权融合,对多模态融合任务有通用启发
  • 层自适应卷积核设计合理——低层大感受野 + 高层小感受野适配特征分辨率特性
  • 27 个对比方法的全面评估覆盖了 2021-2025 年的 RGB-T SOD 工作

局限与展望

  • 8.8 FPS 速度过慢——三分支并行编码器和密集空洞卷积带来巨大计算开销,难以实时应用
  • 相似度计算过于简单(全图像素值求和做标量比较),无法捕获空间分布差异——局部区域一个模态好另一个差的场景处理不了
  • 极小/细长目标和双模态同时退化时可能失效
  • 引导图质量本身依赖编码器-解码器的预测能力,在困难样本上可能产生错误引导

相关工作与启发

  • SAMSOD (Liu et al.):SAM-based RGB-T SOD,通过梯度去冲突处理模态不平衡,VT5000 MAE 0.021 vs 本文 0.020
  • Samba (CVPR25):纯 Mamba 框架做显著性检测,VT5000 \(F_\beta\) 0.894 vs 本文 0.910
  • ContriNet (TPAMI25):三流分治汇流设计,VT5000 \(F_\beta\) 0.878 vs 本文 0.910
  • 模态选择策略可推广到任何多模态融合任务(RGB-D/RGB-Event/多光谱等),核心思想是"先评估再融合"
  • VSS 块在低层特征细节增强中表现好,值得在其他 dense prediction 任务中尝试

评分

  • 新颖性: ⭐⭐⭐⭐ 区域引导模态选择有新意,但整体仍是 encoder-decoder + 注意力范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 27 个对比方法、3 个数据集、4 个指标、多维度消融
  • 写作质量: ⭐⭐⭐ 方法描述详细但模块多、符号多,阅读门槛较高
  • 价值: ⭐⭐⭐⭐ 在 RGB-T SOD 子领域有实用价值,模态选择思路可泛化