RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection¶
会议: CVPR2025
arXiv: 2603.12685
代码: 待确认
领域: 图像分割
关键词: RGB-T 显著性目标检测, 区域引导, 选择性优化, 多模态融合, SwinTransformer
一句话总结¶
提出区域引导选择性优化网络 RSONet,通过两阶段(区域引导+显著性生成)解决 RGB 与热红外图像中显著区域不一致问题,利用相似度分数自动选择信息更准确的模态主导后续融合。
背景与动机¶
- RGB-T 显著性检测利用热红外图像弥补 RGB 在复杂背景、低对比度场景下的不足
- 核心挑战: RGB 和热红外图像中目标的显著区域分布不一致——某些场景下热图中目标几乎不可见,另一些场景下 RGB 中目标与背景混淆
- 现有方法多采用加法/乘法/拼接/注意力机制进行融合,隐含假设两模态同等重要,当信息差异大时会引入大量无关噪声
- 需要一种机制判断哪个模态更可靠,让可靠模态主导融合
核心问题¶
如何在模态间显著区域分布不一致时,自适应地选择信息更准确的模态主导双模态特征融合?
方法详解¶
RSONet 分为区域引导阶段和显著性生成阶段两个阶段。
1. 区域引导阶段¶
- 三路并行分支: R(RGB)、T(热红外)、RT(RGB+热红外之和),三者共享相同的编码器-解码器结构
- 骨干网络: SwinTransformer 提取五层多尺度特征
- 上下文交互模块 (CI): 针对不同层特征使用不同大小卷积核(低层用 1×1/3×3/5×5/7×7,中层去掉 7×7,高层只用 1×1/3×3),避免高层小分辨率特征被大核混入无关背景
- 空间感知融合模块 (SF): 对 CI 输出逐层融合,使用全局最大池化+1×1 卷积+sigmoid 生成空间权重,实现空间维度优化
- 相似度计算: 三路分支分别生成引导图 G^R、G^T、G^RT,计算 G^R 和 G^T 分别与 G^RT 的均值差异,差异越小说明该模态目标信息越准确
2. 显著性生成阶段¶
- 选择性优化模块 (SO): 根据相似度结果,让信息更准确的模态主导融合。先用 G^RT 对双模态特征做乘加增强,再通过通道注意力抑制噪声,最后用空间注意力让主导模态优化另一模态
- 密集细节增强模块 (DDE): 置于低层特征,借鉴 ASPP 使用不同膨胀率的卷积(1×1, 3×3/d=3, 5×5/d=5, 7×7/d=7)+密集连接+VSS 块捕获空间结构细节
- 互交互语义模块 (MIS): 置于高层特征,使用 3×3 卷积(膨胀率 1/2/3)的三组分支+互融合策略+通道注意力挖掘位置语义
- 跨层连接: 整合位置与空间结构信息生成最终显著性图
损失函数¶
联合 BCE + 边界 IoU + F-measure 损失的融合损失,监督五张显著性图。 训练细节: SwinTransformer (ImageNet 预训练) 骨干,输入 384×384,RMSprop 优化器 (lr=1e-4, momentum=0.9),RTX 4080 单卡。
实验关键数据¶
在 VT5000/VT1000/VT821 三个 RGB-T 数据集上对比 27 种 SOTA 方法:
| 数据集 | M↓ | F_β↑ | S_α↑ | E_ξ↑ |
|---|---|---|---|---|
| VT5000 | .020 | .910 | .926 | .963 |
| VT1000 | .014 | .923 | .946 | .972 |
| VT821 | .021 | .883 | .921 | .946 |
- 相比 PATNet,在 VT5000 上 F_β 提升 3.4%、E_ξ 提升 1.2%、S_α 提升 1.1%
- 在 VT1000 上 F_β 比 PATNet 提升 1.7%、E_ξ 提升 0.8%
- 模型参数量 88M,FLOPs 143.8G,推理速度 9.4 FPS(RTX 4080),因两阶段设计牺牲了部分速度
消融实验¶
- 去掉 SO 模块并替换为加法/乘法/拼接融合,VT5000 MAE 分别升至 .0217/.0208/.0215,说明选择性融合的必要性
- 用 Pixel-wise Soft Gating 替代 SO,MAE .0203 > .0197,虽优于简单操作但弱于 SO
- 固定 R→T 或 T→R 方向(跳过区域引导阶段),MAE 降至 .0215/.0216,证明自适应选择的价值
- 去掉 DDE 模块,S_α 从 .9261 降至 .9213;去掉 MIS,F_β 从 .9071 降至 .8997
- 同时去掉 DDE + MIS,S_α 骤降至 .8995,说明两模块对空间细节与位置语义互补
- 将 SwinTransformer 替换为 ResNet-18/34/50,F_β 分别仅 .801/.815/.797;换成冻结 SAM/DINO 反而更差(.822/.856),说明大模型需要适配器才能用于 RGB-T 任务
失败案例¶
- 当显著目标极小或极细时,网络难以准确检测
- 当 RGB 图像和热图同时质量低劣时,即使有区域引导阶段也会引入大量噪声,检测效果显著下降
亮点¶
- 区域引导思路新颖: 通过三路并行+相似度比较自动判断模态可靠性,比固定权重融合更灵活
- 层级自适应的上下文交互: CI 模块针对不同层特征使用不同大小卷积核,避免"一刀切"策略
- DDE 模块的密集连接 + VSS 块: 将 Mamba 的 VSS 块引入显著性检测低层特征优化,兼顾局部结构和全局依赖
- 完整的消融实验: 验证了每个模块(CI/SF/SO/DDE/MIS)的独立贡献
- 融合损失设计合理: BCE + 边界 IoU + F-measure 三项损失互补,分别关注像素准确度、边界质量和整体F值
局限与展望¶
- 三路并行分支的参数量和计算量较大(三个相同的编码器-解码器),推理速度仅 9.4 FPS,难以满足实时需求
- 相似度计算仅使用全局均值比较,可能丢失局部区域级的模态偏好信息
- 未探索轻量化版本或实时应用场景
- 仅在 RGB-T 显著性数据集上验证,未扩展到 RGB-D 或 RGB-Event 等其他多模态组合
- 区域引导阶段的三分支在推理时仍需全部运行,无法跳过不可靠分支以加速
- VSS 块的引入带来额外序列扫描开销,对高分辨率输入的实时性有影响
- 冻结大模型(SAM/DINO)作为骨干效果反而下降,说明需要专门适配器设计
与相关工作的对比¶
- vs. CGFNet/CCFENet 等早期方法: RSONet 通过区域引导解决模态不一致,而非简单特征融合
- vs. Samba (CVPR25): Samba 基于纯 Mamba 架构,RSONet 则结合 SwinTransformer + VSS 块,在 VT5000 上 MAE 更低 (0.020 vs 0.021)
- vs. SAMSOD (TMM26): RSONet 在无需 SAM 先验的情况下,VT5000 MAE 更低 (0.020 vs 0.021),且参数量 88M 远低于 SAMSOD 的 418G FLOPs
- vs. ContriNet (TPAMI25): RSONet 在 VT5000 上 F_β 显著领先 (0.910 vs 0.878)
- vs. ISMNet (TCSVT25): VT5000 上 MAE 从 0.025 降至 0.020,F_β 从 .885 升至 .910
- vs. SPNet (ACM MM23): 在 VT5000 上从 0.024 → 0.020,VT1000 从 0.015 → 0.014
启发与关联¶
- 模态可靠性判断的思路可推广到 RGB-D、RGB-Event 等其他多模态融合任务
- 三路并行设计虽重但提供了不同模态组合的"参考标准"(RGB+T 之和),该参考标准的构建方式值得探索(如注意力加权替代简单求和)
- DDE 中密集连接+VSS 块的组合可应用于医学图像分割等其他密集预测任务
- CI 模块按层级分配不同卷积核的策略,体现了"特征层级特性感知"的设计思想,可迁移到其他多尺度架构
评分¶
- 新颖性: ⭐⭐⭐⭐ (区域引导选择性融合思路较新)
- 实验充分度: ⭐⭐⭐⭐ (27 方法对比 + 消融)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,公式详尽)
- 价值: ⭐⭐⭐⭐ (为多模态显著性检测提供新的融合范式)