RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection¶

会议: CVPR 2026
arXiv: 2603.12685
代码: 无
领域: 图像分割
关键词: RGB-T显著性检测, 模态选择, 区域引导, 选择性优化, SwinTransformer

一句话总结¶

提出 RSONet 两阶段 RGB-T 显著性检测框架：先通过三支并行编码器-解码器生成区域引导图并基于相似度选择主导模态，再通过选择性优化模块融合双模态特征，在 VT5000/VT1000/VT821 上 MAE 达 0.020/0.014/0.021，超越 27 个 SOTA 方法。

研究背景与动机¶

领域现状：显著性目标检测（SOD）旨在像素级别识别场景中最吸引注意力的物体。随着深度学习发展，RGB-T SOD 利用热红外图像提供的温度信息弥补 RGB 在复杂场景下的不足，成为多模态显著性检测的活跃方向。

现有痛点：(1) RGB 图像在复杂背景/低对比度/暗光场景下检测困难；(2) 热红外图像虽不受光照影响，但可能因环境温度、材料属性等因素导致目标与背景不可区分；(3) 现有 RGB-T 融合方法（加法/乘法/拼接/注意力）隐式假设两模态同等重要，当信息质量差异大时会引入大量噪声。

核心矛盾：两个模态中显著区域分布不一致——一个模态可能包含准确的目标信息而另一个被噪声主导，等权融合会相互拉低质量。

本文目标 自适应判断哪个模态更可靠，让可靠模态主导融合过程，避免低质量模态的噪声干扰。

切入角度：先用一个"区域引导阶段"对 RGB、Thermal 和 RGB+T 分别预测引导图并比较相似度来选择主导模态，再在"显著性生成阶段"让主导模态引导融合。

核心 idea：在融合之前先做模态质量判断，让好的模态带着差的模态走，而非无差别混合。

方法详解¶

整体框架¶

两阶段设计。区域引导阶段：RGB/Thermal/RGB+T 三个并行的编码器-解码器分支（共享 SwinTransformer backbone），各生成引导图 \(G^R\)、\(G^T\)、\(G^{RT}\)，计算 \(G^R\) 和 \(G^T\) 分别与 \(G^{RT}\) 的相似度来选择主导模态。显著性生成阶段：选择性优化（SO）模块根据相似度结果融合双模态特征，低层特征经 DDE 模块增强细节，高层特征经 MIS 模块挖掘位置线索，跨层连接生成最终显著图。

关键设计¶

上下文交互（CI）模块 + 空间感知融合（SF）模块 + 相似度计算
- CI 模块采用层自适应卷积核策略：低层特征用 1×1/3×3/5×5/7×7 四分支并行卷积捕获多尺度上下文，中层去掉 7×7 分支，高层只保留 1×1/3×3——因为高层特征分辨率低，大卷积核反而引入背景噪声
- 各分支之间有残差连接（前一分支输出加到当前分支输入），打破不同尺度特征的隔阂
- SF 模块通过全局 max pooling + 1×1 conv + sigmoid 生成空间权重，对 CI 输出做乘加优化，逐层自上向下融合
- 相似度计算：对三张引导图计算像素均值 \(M^R\)、\(M^T\)、\(M^{RT}\)，比较 \(|M^R - M^{RT}|\) vs \(|M^T - M^{RT}|\)，差异更小的模态为主导模态
选择性优化（SO）模块
- 双模态特征先与引导图 \(G^{RT}\) 做乘加增强，初步抑制背景区域
- 各做通道注意力（1×1 conv → GAP → sigmoid）进一步优化通道响应
- 主导模态的空间注意力施加到非主导模态特征上完成跨模态优化，最终两路求和得融合输出
- 根据主导模态不同有两种对称的融合路径（R→T 或 T→R）
DDE（密集细节增强）+ MIS（互交互语义）
- DDE 用 4 分支空洞卷积（d=1,3,5,7）做密集连接（每分支输出加到后续所有分支输入），再接 4 个 VSS（Visual State Space）块捕获空间关系，处理低层特征保留边缘细节
- MIS 用 3 主分支 × 3 子分支（d=1,2,3）的互交互结构处理高层特征：第一子分支输出加到其他两子分支输入，实现多尺度感受野交互，最终通道注意力融合

损失函数 / 训练策略¶

BCE + boundary IoU + F-measure 三项损失联合监督 5 个显著图（深监督）。SwinTransformer backbone 使用 ImageNet 预训练权重，RMSprop (\(lr=1 \times 10^{-4}\))，输入分辨率 384×384，单卡 RTX 4080 训练。

实验关键数据¶

主实验¶

数据集	MAE↓	\(F_\beta\)↑	\(E_\xi\)↑	\(S_\alpha\)↑
VT5000	0.020	0.910	0.926	0.963
VT1000	0.014	0.923	0.946	0.972
VT821	0.021	0.883	0.921	0.946

vs PATNet (KBS24)：VT5000 \(F_\beta\) +3.4%，\(E_\xi\) +1.2%
vs ContriNet (TPAMI25)：VT5000 \(F_\beta\) +3.6%，\(S_\alpha\) +2.4%
速度：~8.8 FPS（101.3M 参数），远慢于 CGFNet 52.3 FPS。

消融实验¶

变体	VT5000 MAE↓	VT5000 \(F_\beta\)↑
完整 RSONet	0.0197	0.9071
SO 模块 → 简单加法	0.0208	0.8952
SO 模块 → 拼接	0.0217	0.8857
去掉相似度引导（固定融合方向）	0.0215	0.8896
去掉 DDE + MIS	0.0217	0.8834
SwinTransformer → ResNet50	—	0.8146

关键发现¶

相似度引导的模态选择贡献显著——固定融合方向 MAE 升 9.1%
SO 模块优于所有简单融合策略（加法/乘法/拼接/CA）
DDE 和 MIS 互补——同时去掉 MAE 升 10.2%，单独去掉效果也下降
SwinTransformer 远优于 ResNet 系列，\(F_\beta\) 差距高达 9pp

亮点与洞察¶

自适应模态选择思路新颖——根据每张图片的实际情况选择主导模态而非等权融合，对多模态融合任务有通用启发
层自适应卷积核设计合理——低层大感受野 + 高层小感受野适配特征分辨率特性
27 个对比方法的全面评估覆盖了 2021-2025 年的 RGB-T SOD 工作

局限与展望¶

8.8 FPS 速度过慢——三分支并行编码器和密集空洞卷积带来巨大计算开销，难以实时应用
相似度计算过于简单（全图像素值求和做标量比较），无法捕获空间分布差异——局部区域一个模态好另一个差的场景处理不了
极小/细长目标和双模态同时退化时可能失效
引导图质量本身依赖编码器-解码器的预测能力，在困难样本上可能产生错误引导

评分¶

新颖性: ⭐⭐⭐⭐ 区域引导模态选择有新意，但整体仍是 encoder-decoder + 注意力范式
实验充分度: ⭐⭐⭐⭐⭐ 27 个对比方法、3 个数据集、4 个指标、多维度消融
写作质量: ⭐⭐⭐ 方法描述详细但模块多、符号多，阅读门槛较高
价值: ⭐⭐⭐⭐ 在 RGB-T SOD 子领域有实用价值，模态选择思路可泛化