跳转至

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

会议: CVPR 2025
arXiv: 2603.12215
代码: 待确认
领域: 分割 / 遥感
关键词: 显著性目标检测, 遥感图像, 动态卷积核, 小波变换, 区域比例引导

一句话总结

RDNet 针对遥感图像中目标尺度剧烈变化的问题,提出区域比例感知的动态自适应显著性检测网络,通过动态自适应细节感知模块(DAD,根据目标区域比例选择不同大小卷积核组合)、频率匹配上下文增强模块(FCE,小波域特征交互)和区域比例感知定位模块(RPL,交叉注意力+比例引导),在 EORSSD/ORSSD/ORSI-4199 三个数据集上取得 SOTA。

研究背景与动机

领域现状:遥感图像显著性目标检测(ORSI-SOD)是遥感分析的重要任务,近年来 CNN/Transformer 方法已取得显著进展。

现有痛点:(1)遥感图像中目标尺度变化极大,固定大小的卷积核组合要么聚合过多背景(大核处理小目标)、要么丢失整体区域(小核处理大目标);(2)现有方法对相邻层特征交互直接使用全分辨率 self-attention,计算开销大且混合了高低频信息;(3)CNN backbone 缺乏全局上下文和长程依赖建模能力。

核心矛盾:不同尺度目标需要不同感受野的卷积核,但现有方法对所有目标生硬地使用相同的卷积策略。

本文目标 如何根据目标区域比例动态选择卷积核组合,并设计计算高效的跨层特征交互方式?

切入角度:用分类任务启发的"区域比例预测"来引导动态卷积核选择——先预测目标占图像的面积比例,再据此选择适合的卷积核组合。

核心 idea:预测目标区域比例→动态选择多尺度卷积核组合→小波域跨层特征交互。

方法详解

整体框架

输入 \(3 \times 384 \times 384\) 遥感图像 → SwinTransformer backbone 提取 5 层特征 \(\{F_i^R\}_{i=1}^5\) → RPL 模块处理高层特征 \(F_4^R, F_5^R\)(提取位置信息 \(F^A\) + 区域比例 \(F^G\))→ DAD 模块用 \(F^G\) 引导低层特征 \(F_1^R\) 的动态卷积提取细节 \(F^P\) → FCE 模块处理中层特征 \(F_2^R, F_3^R\)(小波域交互提取上下文 \(F^W\))→ 自底向上融合得到显著性图 \(S\)

关键设计

  1. 区域比例感知定位模块(RPL):

    • 功能:从高层特征中提取位置语义信息,并预测目标区域占整图的比例
    • 核心思路:对 \(F_4^R, F_5^R\) 依次施加通道注意力交叉和空间注意力交叉(cross-attention),拼接后 \(3 \times 3\) 卷积得到位置特征 \(F^A\)。同时,\(F_5^R\) 经 GAP + 两层 FC 得到比例特征 \(F^G \in \mathbb{R}^{4 \times 1}\),用于指导 DAD
    • 设计动机:高层特征含丰富的位置/语义信息,通过比例预测为下游动态卷积提供依据
  2. 动态自适应细节感知模块(DAD):

    • 功能:根据目标区域比例动态选择不同大小卷积核的组合来提取细节
    • 核心思路:设定三种策略——比例<25% 用小核为主(\(1 \times 1, 3 \times 3, 5 \times 5\)),25%-50% 用中等组合,>50% 用全部五种核(\(1 \times 1\)\(9 \times 9\))。双分支架构:下分支为细节提取器(多核卷积求和),上分支为细节优化器(max pooling 后同样多核卷积做空间注意力权重),两者通过乘加操作融合
    • 设计动机:大目标需要大感受野捕获整体区域,小目标不需要大核以避免背景干扰,动态选择避免了"一刀切"的弊端
  3. 频率匹配上下文增强模块(FCE):

    • 功能:在小波域进行跨层特征交互,提取上下文信息同时避免全分辨率 self-attention 开销
    • 核心思路:对 \(F_2^R, F_3^R\) 做 DWT 得到各4个频率分量(LL/LH/HL/HH),对应频率分量之间进行 channel attention 交叉交互,然后 IDWT 恢复,再通过通道+空间注意力增强。关键是"频率匹配"——低频和低频交互、高频和高频交互,而非直接混合
    • 设计动机:直接 self-attention 混合高低频导致信息稀释,小波域分离后按频率交互更精细

损失函数

二值交叉熵 + IoU loss + 区域比例预测的 MSE loss(监督 \(F^G\) 接近 GT 比例)。

实验关键数据

主实验(EORSSD / ORSSD / ORSI-4199)

方法 EORSSD MAE↓ EORSSD \(F_\beta\) ORSSD MAE↓ ORSSD \(F_\beta\) ORSI-4199 MAE↓ ORSI-4199 \(F_\beta\)
HFCNet 0.0051 0.7845 0.0073 0.8581 0.0270 0.8272
GeleNet 0.0066 0.8367 0.0083 0.8879 0.0266 0.8711
ADSTNet 0.0065 0.8321 0.0089 0.8856 0.0319 0.8615
RDNet 0.0049 0.8563 0.0066 0.9080 0.0254 0.8781

消融实验(推断自设计)

配置 说明
SwinTransformer baseline 仅 backbone + 简单解码
+RPL 加入位置定位模块
+RPL+DAD 加入动态自适应细节模块
+RPL+DAD+FCE (Full) 完整 RDNet

三种比例策略对比:固定所有核 vs 动态选择核组合,动态选择在大/小目标场景下均更优。

关键发现

  • 在三个数据集上全面超越 15+ 种 SOTA 方法,EORSSD 上 MAE 从次优 0.0051 降至 0.0049(3.9%↓),\(F_\beta\) 从 0.8367 提升至 0.8563
  • t-test 统计验证与所有对比方法差异显著(p-value 均远小于 0.05)
  • DAD 的动态核选择是性能提升的主要来源,大/小目标场景下提升最明显
  • FCE 的小波域交互比直接 self-attention 减少计算开销的同时保持了性能

亮点与洞察

  • 区域比例预测→动态卷积核:用高层特征预测目标面积比例来指导低层特征的感受野选择,是一种简洁而有效的尺度自适应策略
  • 频率匹配交互:不直接在空间域做跨层 attention,而是在小波域让对应频率分量交互,既减少计算量又避免高低频混淆,可迁移到其他多尺度特征融合任务
  • 三策略选择器:虽然简单(<25%/25-50%/>50% 三档),但实验证明有效,避免了连续预测的训练困难

局限与展望

  • 区域比例仅分三档(<25%/25-50%/>50%),粒度较粗——更细粒度的连续比例预测可能进一步提升
  • 仅在遥感图像上验证,自然场景 SOD 数据集的泛化性未测试
  • 推理速度 13 FPS,小波变换和矩阵运算开销较大,实时性有待提升
  • PG block 用 GAP + FC 预测比例,依赖高层特征的语义质量,在极端小目标场景下预测可能不准确

相关工作与启发

  • vs GeleNet:GeleNet 在 EORSSD 上 \(F_\beta\) 为 0.8367,本文 0.8563,提升 2.3%;GeleNet 用图推理建模区域和边界关系,本文用动态卷积核更直接高效
  • vs ADSTNet:ADSTNet 在 ORSSD 上是强基线(\(F_\beta\) 0.8856),本文 0.9080 大幅超越 +2.5%,说明动态核选择对遥感多尺度场景特别有效
  • vs HFCNet:HFCNet 在 EORSSD 的 MAE 上曾是最优(0.0051),本文 0.0049 进一步降低,验证了频率域交互比纯空间域更精细
  • 可迁移思路:区域比例预测→动态感受野的思路可推广到医学图像分割(肿瘤大小差异大)或自动驾驶(近/远目标尺度差异大)

评分

  • 新颖性: ⭐⭐⭐⭐ 区域比例引导动态卷积核选择是巧妙的设计,小波域频率匹配交互有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集 + 21 方法对比 + t-test 统计验证 + 丰富消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但公式符号较多、紧凑度可改善
  • 价值: ⭐⭐⭐⭐ 遥感 SOD 领域的扎实工作,动态核选择思路有一定通用性
  • SwinTransformer 作为 backbone 较重,在边缘设备部署可能困难
  • DAD 的策略选择在训练和推理中如何处理 batch 内混合比例值得探讨

相关工作与启发

  • vs GeleNet: GeleNet 用图推理建模区域和边界,RDNet 用动态卷积核更直接地适应尺度
  • vs ADSTNet: ADSTNet 用 Transformer+CNN 双分支,RDNet 用纯 SwinTransformer 配合三个专用模块
  • vs HFCNet: HFCNet 的 MAE 更低但 \(F_\beta\)\(E_\xi\) 不如 RDNet,说明 RDNet 在整体检测质量上更优

评分

  • 新颖性: ⭐⭐⭐ 动态卷积核选择的思路直观但不算新颖,小波交互有一定新意
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集、15+对比方法、t-test、消融、可视化
  • 写作质量: ⭐⭐⭐ 公式描述清晰但文字偏冗长
  • 价值: ⭐⭐⭐ 遥感 SOD 领域的增量改进,方法的通用性和迁移性有限