RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection¶

会议: CVPR2025
arXiv: 2603.12685
代码: 待确认
领域: 图像分割
关键词: RGB-T 显著性目标检测, 区域引导, 选择性优化, 多模态融合, SwinTransformer

一句话总结¶

提出区域引导选择性优化网络 RSONet，通过两阶段（区域引导+显著性生成）解决 RGB 与热红外图像中显著区域不一致问题，利用相似度分数自动选择信息更准确的模态主导后续融合。

背景与动机¶

RGB-T 显著性检测利用热红外图像弥补 RGB 在复杂背景、低对比度场景下的不足
核心挑战: RGB 和热红外图像中目标的显著区域分布不一致——某些场景下热图中目标几乎不可见，另一些场景下 RGB 中目标与背景混淆
现有方法多采用加法/乘法/拼接/注意力机制进行融合，隐含假设两模态同等重要，当信息差异大时会引入大量无关噪声
需要一种机制判断哪个模态更可靠，让可靠模态主导融合

核心问题¶

如何在模态间显著区域分布不一致时，自适应地选择信息更准确的模态主导双模态特征融合？

方法详解¶

RSONet 分为区域引导阶段和显著性生成阶段两个阶段。

1. 区域引导阶段¶

三路并行分支: R（RGB）、T（热红外）、RT（RGB+热红外之和），三者共享相同的编码器-解码器结构
骨干网络: SwinTransformer 提取五层多尺度特征
上下文交互模块 (CI): 针对不同层特征使用不同大小卷积核（低层用 1×1/3×3/5×5/7×7，中层去掉 7×7，高层只用 1×1/3×3），避免高层小分辨率特征被大核混入无关背景
空间感知融合模块 (SF): 对 CI 输出逐层融合，使用全局最大池化+1×1 卷积+sigmoid 生成空间权重，实现空间维度优化
相似度计算: 三路分支分别生成引导图 G^R、G^T、G^RT，计算 G^R 和 G^T 分别与 G^RT 的均值差异，差异越小说明该模态目标信息越准确

2. 显著性生成阶段¶

选择性优化模块 (SO): 根据相似度结果，让信息更准确的模态主导融合。先用 G^RT 对双模态特征做乘加增强，再通过通道注意力抑制噪声，最后用空间注意力让主导模态优化另一模态
密集细节增强模块 (DDE): 置于低层特征，借鉴 ASPP 使用不同膨胀率的卷积（1×1, 3×3/d=3, 5×5/d=5, 7×7/d=7）+密集连接+VSS 块捕获空间结构细节
互交互语义模块 (MIS): 置于高层特征，使用 3×3 卷积（膨胀率 1/2/3）的三组分支+互融合策略+通道注意力挖掘位置语义
跨层连接: 整合位置与空间结构信息生成最终显著性图

损失函数¶

联合 BCE + 边界 IoU + F-measure 损失的融合损失，监督五张显著性图。训练细节: SwinTransformer (ImageNet 预训练) 骨干，输入 384×384，RMSprop 优化器 (lr=1e-4, momentum=0.9)，RTX 4080 单卡。

实验关键数据¶

在 VT5000/VT1000/VT821 三个 RGB-T 数据集上对比 27 种 SOTA 方法：

数据集	M↓	F_β↑	S_α↑	E_ξ↑
VT5000	.020	.910	.926	.963
VT1000	.014	.923	.946	.972
VT821	.021	.883	.921	.946

相比 PATNet，在 VT5000 上 F_β 提升 3.4%、E_ξ 提升 1.2%、S_α 提升 1.1%
在 VT1000 上 F_β 比 PATNet 提升 1.7%、E_ξ 提升 0.8%
模型参数量 88M，FLOPs 143.8G，推理速度 9.4 FPS（RTX 4080），因两阶段设计牺牲了部分速度

消融实验¶

去掉 SO 模块并替换为加法/乘法/拼接融合，VT5000 MAE 分别升至 .0217/.0208/.0215，说明选择性融合的必要性
用 Pixel-wise Soft Gating 替代 SO，MAE .0203 > .0197，虽优于简单操作但弱于 SO
固定 R→T 或 T→R 方向（跳过区域引导阶段），MAE 降至 .0215/.0216，证明自适应选择的价值
去掉 DDE 模块，S_α 从 .9261 降至 .9213；去掉 MIS，F_β 从 .9071 降至 .8997
同时去掉 DDE + MIS，S_α 骤降至 .8995，说明两模块对空间细节与位置语义互补
将 SwinTransformer 替换为 ResNet-18/34/50，F_β 分别仅 .801/.815/.797；换成冻结 SAM/DINO 反而更差（.822/.856），说明大模型需要适配器才能用于 RGB-T 任务

失败案例¶

当显著目标极小或极细时，网络难以准确检测
当 RGB 图像和热图同时质量低劣时，即使有区域引导阶段也会引入大量噪声，检测效果显著下降

亮点¶

区域引导思路新颖: 通过三路并行+相似度比较自动判断模态可靠性，比固定权重融合更灵活
层级自适应的上下文交互: CI 模块针对不同层特征使用不同大小卷积核，避免"一刀切"策略
DDE 模块的密集连接 + VSS 块: 将 Mamba 的 VSS 块引入显著性检测低层特征优化，兼顾局部结构和全局依赖
完整的消融实验: 验证了每个模块（CI/SF/SO/DDE/MIS）的独立贡献
融合损失设计合理: BCE + 边界 IoU + F-measure 三项损失互补，分别关注像素准确度、边界质量和整体F值

局限与展望¶

三路并行分支的参数量和计算量较大（三个相同的编码器-解码器），推理速度仅 9.4 FPS，难以满足实时需求
相似度计算仅使用全局均值比较，可能丢失局部区域级的模态偏好信息
未探索轻量化版本或实时应用场景
仅在 RGB-T 显著性数据集上验证，未扩展到 RGB-D 或 RGB-Event 等其他多模态组合
区域引导阶段的三分支在推理时仍需全部运行，无法跳过不可靠分支以加速
VSS 块的引入带来额外序列扫描开销，对高分辨率输入的实时性有影响
冻结大模型（SAM/DINO）作为骨干效果反而下降，说明需要专门适配器设计

与相关工作的对比¶

vs. CGFNet/CCFENet 等早期方法: RSONet 通过区域引导解决模态不一致，而非简单特征融合
vs. Samba (CVPR25): Samba 基于纯 Mamba 架构，RSONet 则结合 SwinTransformer + VSS 块，在 VT5000 上 MAE 更低 (0.020 vs 0.021)
vs. SAMSOD (TMM26): RSONet 在无需 SAM 先验的情况下，VT5000 MAE 更低 (0.020 vs 0.021)，且参数量 88M 远低于 SAMSOD 的 418G FLOPs
vs. ContriNet (TPAMI25): RSONet 在 VT5000 上 F_β 显著领先 (0.910 vs 0.878)
vs. ISMNet (TCSVT25): VT5000 上 MAE 从 0.025 降至 0.020，F_β 从 .885 升至 .910
vs. SPNet (ACM MM23): 在 VT5000 上从 0.024 → 0.020，VT1000 从 0.015 → 0.014

启发与关联¶

模态可靠性判断的思路可推广到 RGB-D、RGB-Event 等其他多模态融合任务
三路并行设计虽重但提供了不同模态组合的"参考标准"(RGB+T 之和)，该参考标准的构建方式值得探索（如注意力加权替代简单求和）
DDE 中密集连接+VSS 块的组合可应用于医学图像分割等其他密集预测任务
CI 模块按层级分配不同卷积核的策略，体现了"特征层级特性感知"的设计思想，可迁移到其他多尺度架构

评分¶

新颖性: ⭐⭐⭐⭐ (区域引导选择性融合思路较新)
实验充分度: ⭐⭐⭐⭐ (27 方法对比 + 消融)
写作质量: ⭐⭐⭐⭐ (结构清晰，公式详尽)
价值: ⭐⭐⭐⭐ (为多模态显著性检测提供新的融合范式)