跳转至

RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection

会议: CVPR2025
arXiv: 2603.12685
代码: 待确认
领域: 图像分割
关键词: RGB-T 显著性目标检测, 区域引导, 选择性优化, 多模态融合, SwinTransformer

一句话总结

提出区域引导选择性优化网络 RSONet,通过两阶段(区域引导+显著性生成)解决 RGB 与热红外图像中显著区域不一致问题,利用相似度分数自动选择信息更准确的模态主导后续融合。

背景与动机

  • RGB-T 显著性检测利用热红外图像弥补 RGB 在复杂背景、低对比度场景下的不足
  • 核心挑战: RGB 和热红外图像中目标的显著区域分布不一致——某些场景下热图中目标几乎不可见,另一些场景下 RGB 中目标与背景混淆
  • 现有方法多采用加法/乘法/拼接/注意力机制进行融合,隐含假设两模态同等重要,当信息差异大时会引入大量无关噪声
  • 需要一种机制判断哪个模态更可靠,让可靠模态主导融合

核心问题

如何在模态间显著区域分布不一致时,自适应地选择信息更准确的模态主导双模态特征融合?

方法详解

RSONet 分为区域引导阶段显著性生成阶段两个阶段。

1. 区域引导阶段

  • 三路并行分支: R(RGB)、T(热红外)、RT(RGB+热红外之和),三者共享相同的编码器-解码器结构
  • 骨干网络: SwinTransformer 提取五层多尺度特征
  • 上下文交互模块 (CI): 针对不同层特征使用不同大小卷积核(低层用 1×1/3×3/5×5/7×7,中层去掉 7×7,高层只用 1×1/3×3),避免高层小分辨率特征被大核混入无关背景
  • 空间感知融合模块 (SF): 对 CI 输出逐层融合,使用全局最大池化+1×1 卷积+sigmoid 生成空间权重,实现空间维度优化
  • 相似度计算: 三路分支分别生成引导图 G^R、G^T、G^RT,计算 G^R 和 G^T 分别与 G^RT 的均值差异,差异越小说明该模态目标信息越准确

2. 显著性生成阶段

  • 选择性优化模块 (SO): 根据相似度结果,让信息更准确的模态主导融合。先用 G^RT 对双模态特征做乘加增强,再通过通道注意力抑制噪声,最后用空间注意力让主导模态优化另一模态
  • 密集细节增强模块 (DDE): 置于低层特征,借鉴 ASPP 使用不同膨胀率的卷积(1×1, 3×3/d=3, 5×5/d=5, 7×7/d=7)+密集连接+VSS 块捕获空间结构细节
  • 互交互语义模块 (MIS): 置于高层特征,使用 3×3 卷积(膨胀率 1/2/3)的三组分支+互融合策略+通道注意力挖掘位置语义
  • 跨层连接: 整合位置与空间结构信息生成最终显著性图

损失函数

联合 BCE + 边界 IoU + F-measure 损失的融合损失,监督五张显著性图。 训练细节: SwinTransformer (ImageNet 预训练) 骨干,输入 384×384,RMSprop 优化器 (lr=1e-4, momentum=0.9),RTX 4080 单卡。

实验关键数据

在 VT5000/VT1000/VT821 三个 RGB-T 数据集上对比 27 种 SOTA 方法:

数据集 M↓ F_β↑ S_α↑ E_ξ↑
VT5000 .020 .910 .926 .963
VT1000 .014 .923 .946 .972
VT821 .021 .883 .921 .946
  • 相比 PATNet,在 VT5000 上 F_β 提升 3.4%、E_ξ 提升 1.2%、S_α 提升 1.1%
  • 在 VT1000 上 F_β 比 PATNet 提升 1.7%、E_ξ 提升 0.8%
  • 模型参数量 88M,FLOPs 143.8G,推理速度 9.4 FPS(RTX 4080),因两阶段设计牺牲了部分速度

消融实验

  • 去掉 SO 模块并替换为加法/乘法/拼接融合,VT5000 MAE 分别升至 .0217/.0208/.0215,说明选择性融合的必要性
  • 用 Pixel-wise Soft Gating 替代 SO,MAE .0203 > .0197,虽优于简单操作但弱于 SO
  • 固定 R→T 或 T→R 方向(跳过区域引导阶段),MAE 降至 .0215/.0216,证明自适应选择的价值
  • 去掉 DDE 模块,S_α 从 .9261 降至 .9213;去掉 MIS,F_β 从 .9071 降至 .8997
  • 同时去掉 DDE + MIS,S_α 骤降至 .8995,说明两模块对空间细节与位置语义互补
  • 将 SwinTransformer 替换为 ResNet-18/34/50,F_β 分别仅 .801/.815/.797;换成冻结 SAM/DINO 反而更差(.822/.856),说明大模型需要适配器才能用于 RGB-T 任务

失败案例

  • 当显著目标极小或极细时,网络难以准确检测
  • 当 RGB 图像和热图同时质量低劣时,即使有区域引导阶段也会引入大量噪声,检测效果显著下降

亮点

  1. 区域引导思路新颖: 通过三路并行+相似度比较自动判断模态可靠性,比固定权重融合更灵活
  2. 层级自适应的上下文交互: CI 模块针对不同层特征使用不同大小卷积核,避免"一刀切"策略
  3. DDE 模块的密集连接 + VSS 块: 将 Mamba 的 VSS 块引入显著性检测低层特征优化,兼顾局部结构和全局依赖
  4. 完整的消融实验: 验证了每个模块(CI/SF/SO/DDE/MIS)的独立贡献
  5. 融合损失设计合理: BCE + 边界 IoU + F-measure 三项损失互补,分别关注像素准确度、边界质量和整体F值

局限与展望

  • 三路并行分支的参数量和计算量较大(三个相同的编码器-解码器),推理速度仅 9.4 FPS,难以满足实时需求
  • 相似度计算仅使用全局均值比较,可能丢失局部区域级的模态偏好信息
  • 未探索轻量化版本或实时应用场景
  • 仅在 RGB-T 显著性数据集上验证,未扩展到 RGB-D 或 RGB-Event 等其他多模态组合
  • 区域引导阶段的三分支在推理时仍需全部运行,无法跳过不可靠分支以加速
  • VSS 块的引入带来额外序列扫描开销,对高分辨率输入的实时性有影响
  • 冻结大模型(SAM/DINO)作为骨干效果反而下降,说明需要专门适配器设计

与相关工作的对比

  • vs. CGFNet/CCFENet 等早期方法: RSONet 通过区域引导解决模态不一致,而非简单特征融合
  • vs. Samba (CVPR25): Samba 基于纯 Mamba 架构,RSONet 则结合 SwinTransformer + VSS 块,在 VT5000 上 MAE 更低 (0.020 vs 0.021)
  • vs. SAMSOD (TMM26): RSONet 在无需 SAM 先验的情况下,VT5000 MAE 更低 (0.020 vs 0.021),且参数量 88M 远低于 SAMSOD 的 418G FLOPs
  • vs. ContriNet (TPAMI25): RSONet 在 VT5000 上 F_β 显著领先 (0.910 vs 0.878)
  • vs. ISMNet (TCSVT25): VT5000 上 MAE 从 0.025 降至 0.020,F_β 从 .885 升至 .910
  • vs. SPNet (ACM MM23): 在 VT5000 上从 0.024 → 0.020,VT1000 从 0.015 → 0.014

启发与关联

  • 模态可靠性判断的思路可推广到 RGB-D、RGB-Event 等其他多模态融合任务
  • 三路并行设计虽重但提供了不同模态组合的"参考标准"(RGB+T 之和),该参考标准的构建方式值得探索(如注意力加权替代简单求和)
  • DDE 中密集连接+VSS 块的组合可应用于医学图像分割等其他密集预测任务
  • CI 模块按层级分配不同卷积核的策略,体现了"特征层级特性感知"的设计思想,可迁移到其他多尺度架构

评分

  • 新颖性: ⭐⭐⭐⭐ (区域引导选择性融合思路较新)
  • 实验充分度: ⭐⭐⭐⭐ (27 方法对比 + 消融)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,公式详尽)
  • 价值: ⭐⭐⭐⭐ (为多模态显著性检测提供新的融合范式)