跳转至

RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection

会议: CVPR2026
arXiv: 2603.12685
代码: 待确认
领域: 语义分割 / 显著性目标检测
关键词: RGB-T 显著性检测, 区域引导, 选择性优化, 多模态融合, SwinTransformer, 视觉状态空间模型

一句话总结

提出两阶段 RGB-T 显著性检测网络 RSONet:先通过区域引导阶段计算 RGB/热红外引导图与联合引导图的相似度,选出更可靠的模态;再在显著性生成阶段利用选择性优化融合双模态特征,配合密集细节增强和互信息语义模块生成高质量显著图,在三个 RGB-T 基准上取得 SOTA 性能。

研究背景与动机

RGB 单模态局限:复杂背景、低对比度、模糊边界等场景下,纯 RGB 方法性能下降严重,需引入辅助模态信息。

深度信息不足:RGB-D 中深度图在物体与背景空间相邻时难以区分,深度质量受采集设备和距离影响较大。

热红外模态引入:热图不受光照变化影响,可有效补充 RGB 在夜间/低光场景的缺陷,但自身也受环境温度与材料属性影响。

双模态不一致问题(核心动机):RGB 与热图中显著区域分布经常不一致——有的样本 RGB 清晰但热图模糊,有的相反。直接拼接/相加/注意力融合会引入大量噪声。

现有融合策略的局限:加法、乘法、拼接或注意力机制隐含地假设双模态等重要,无法适应信息质量差异大的情况。

缺乏模态选择机制:大多数方法没有显式判断哪个模态更可靠,本文提出"区域引导 + 相似度计算"实现自适应模态主导选择。

方法详解

整体框架

RSONet 分为两个阶段:

  • 区域引导阶段(Region Guidance Stage):三路并行编码-解码生成引导图 \(\mathbf{G}^R\)\(\mathbf{G}^T\)\(\mathbf{G}^{RT}\),通过相似度计算选择主导模态。
  • 显著性生成阶段(Saliency Generation Stage):基于选择结果,用 SO 模块融合双模态特征,再分别用 DDE(低层)和 MIS(高层)模块提取细节与位置信息,跨层连接输出最终显著图。

骨干网络均采用 SwinTransformer,提取 5 级多尺度特征。

关键模块设计

1. 上下文交互模块(Context Interaction, CI)

针对不同层级特征分辨率的差异,设计三种变体:

变体 应用层级 卷积核大小
变体一 低层 \(\mathbf{F}_1\) 1×1, 3×3, 5×5, 7×7
变体二 中层 \(\mathbf{F}_{2/3}\) 1×1, 3×3, 5×5
变体三 高层 \(\mathbf{F}_{4/5}\) 1×1, 3×3

各分支采用级联累加策略,将上一分支输出加到当前输入以打破尺度间壁垒,最终沿通道维度拼接。

2. 空间感知融合模块(Spatial-aware Fusion, SF)

对 CI 输出特征做两层 3×3 卷积,然后全局最大池化 → 1×1 卷积 → Sigmoid 生成空间权重,乘加回原特征实现空间维度优化。逐层自顶向下融合,最终生成各分支引导图。

3. 相似度计算与模态选择

对三个引导图分别求均值 \(M^R\)\(M^T\)\(M^{RT}\),比较 \(|M^R - M^{RT}|\)\(|M^T - M^{RT}|\),差值更小的对应模态信息更准确,主导后续融合。

4. 选择性优化模块(Selective Optimization, SO)

  • 用引导图 \(\mathbf{G}^{RT}\) 对双模态特征做乘加增强
  • 通道注意力抑制引导图引入的干扰
  • 更可靠模态的空间注意力用于引导另一模态特征优化
  • 两路优化特征相加输出

5. 密集细节增强模块(Dense Detail Enhancement, DDE)

应用于低层特征(1-3 层),采用四路并行空洞卷积(膨胀率 1/3/5/7),密集连接策略使各分支共享多尺度感受野信息。每个分支后接 VSS(Visual State Space)块进一步建模空间关系,最终沿通道拼接。

6. 互信息语义模块(Mutual Interaction Semantic, MIS)

应用于高层特征(4-5 层),使用膨胀率 1/2/3 的 3×3 卷积,设计三个主分支,每个主分支内部三个子分支互相交互输出,三个主分支拼接后加通道注意力抑制噪声。

损失函数

联合损失 = BCE + BIoU + F-measure,对 5 个尺度的显著图施加深度监督:

\[L_{total} = \frac{1}{N}\sum_{i=1}^{N}(L_{bce} + L_{iou} + L_{fm})\]

实验

数据集与设置

  • 训练集:VT5000 训练集(2500 张)
  • 测试集:VT5000 测试集(2500 张)、VT1000(1000 张)、VT821(821 张)
  • 输入分辨率 384×384,RMSprop 优化器,学习率 1e-4,单张 RTX 4080 GPU

主要结果

数据集 \(\mathcal{M}\) \(F_\beta\) \(S_\alpha\) \(E_\xi\)
VT5000 0.020 0.910 0.926 0.963
VT1000 0.014 0.923 0.946 0.972
VT821 0.021 0.883 0.921 0.946

对比 27 种 SOTA 方法,VT5000 上 \(F_\beta\) 较 PATNet 提升 3.4%,\(E_\xi\) 提升 1.2%,\(S_\alpha\) 提升 1.1%。

模型效率

指标
参数量 88M
FLOPs 143.8G
推理速度 9.4 FPS

参数量处于中等水平(得益于三分支权重共享),但两阶段设计导致推理速度偏低。

消融实验

设置 \(\mathcal{M}\) \(F_\beta\) \(S_\alpha\) \(E_\xi\)
w/o SO(加法替代) 0.0217 0.8883 0.9213 0.9523
w/o SO(乘法替代) 0.0208 0.8948 0.9231 0.9587
w/o SO(拼接替代) 0.0215 0.8896 0.9224 0.9558
w/o SO(逐像素软门控) 0.0203 0.8951 0.9239 0.9605
R→T(无区域引导) 0.0215 0.8898 0.9230 0.9561
T→R(无区域引导) 0.0216 0.8896 0.9233 0.9554
w/o DDE 0.0203 0.9082 0.9213 0.9631
w/o MIS 0.0203 0.8997 0.9241 0.9593
w/o DDE & MIS 0.0217 0.9053 0.8995 0.9556
完整 RSONet 0.0197 0.9071 0.9261 0.9632

骨干网络消融

SwinTransformer 远优于 ResNet-18/34/50,也优于冻结的 SAM/DINO(大模型未适配 RGB-T 域,缺少 adaptor 导致性能反降)。

关键发现

  • 去掉 SO 模块(用简单融合替代)性能显著下降,说明区域引导+选择性融合是核心贡献。
  • 固定 R→T 或 T→R 方向融合不如自适应选择,验证了模态选择的必要性。
  • DDE 和 MIS 各自贡献了细节和定位信息,同时去掉两者 \(S_\alpha\) 降至 0.8995。

亮点

  • 明确建模"双模态显著区域不一致"问题,提出区域引导 + 相似度选择的模态主导策略,动机清晰。
  • CI 模块根据不同层级特征分辨率使用不同大小卷积核,设计合理。
  • DDE 中密集连接 + VSS 块的组合有效挖掘低层空间结构信息。
  • 消融实验充分,对 SO/DDE/MIS 均有详尽的对比和可视化分析。

局限性

  • 推理速度仅 9.4 FPS,两阶段三分支设计导致计算开销大,难以实时部署。
  • 相似度计算仅基于引导图均值的全局比较,对局部区域差异不敏感。
  • 实验仅在 VT5000/VT1000/VT821 三个 RGB-T 数据集上验证,缺少 RGB-D 或视频 SOD 的泛化实验。
  • 当极小目标或双模态同时质量低时检测效果不佳(论文自身给出的 failure cases)。
  • 冻结大模型(SAM/DINO)作为骨干效果反降,但未尝试微调或设计 adaptor。

相关工作

  • RGB-D SOD:利用深度信息增强检测,代表方法 EMTrans、Fang et al. 的 Group Transformer。
  • RGB-T SOD:MCFNet(模态互补融合)、HRTransNet(高分辨率Transformer)、WaveNet(频域视角)、Samba(纯 Mamba 框架)、SAMSOD(基于 SAM 的方法)。
  • 单模态 SOD:AttFeedback、DenseAttFluid、BilateralExtreme 等经典方法。
  • 本文与 ContriNet(TPAMI25)、Samba(CVPR25)、SAMSOD(TMM26)为最新竞争方法。

评分

  • 新颖性: ⭐⭐⭐ — 区域引导+相似度选择模态的想法有一定新意,但各子模块(CI/SF/DDE/MIS)设计较常规
  • 实验充分度: ⭐⭐⭐⭐ — 27 种方法对比 + 详尽消融 + 骨干网络分析 + 可视化 + 失败案例
  • 写作质量: ⭐⭐⭐ — 公式和模块描述详细,但行文较冗长,符号繁多
  • 价值: ⭐⭐⭐ — 在 RGB-T SOD 子领域取得 SOTA,但实时性不足限制实际应用