跳转至

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

会议: CVPR2026
arXiv: 2603.12215
代码: 待确认
领域: 语义分割 / 显著性目标检测
关键词: 遥感图像显著性检测, 动态自适应卷积, 小波变换, 区域比例感知, SwinTransformer

一句话总结

针对遥感图像中目标尺度变化大的难题,提出区域比例感知的动态自适应显著性目标检测网络 RDNet,通过 Proportion Guidance 动态选择不同大小卷积核组合,结合小波频域交互与交叉注意力定位模块,在三个 ORSI-SOD 数据集上全面超越 SOTA。

背景与动机

  1. 遥感目标尺度差异极大:同一场景中目标可能从极小(飞机)到极大(体育场),固定卷积核策略无法兼顾——大核会引入过多背景噪声,小核捕捉不到大目标的完整区域
  2. 自注意力计算开销高:现有方法在全分辨率特征上直接做 self-attention 进行层间交互,计算复杂度高且高低频信息直接混合导致目标信息被稀释
  3. CNN 骨干缺乏全局建模能力:基于 CNN 的特征提取器依赖局部卷积核,难以捕获全局上下文和长距离依赖关系
  4. 现有多尺度方案一视同仁:多数方法对所有样本采用相同的多尺度卷积组合,未考虑不同图像中目标区域比例的差异
  5. 中层特征的上下文信息利用不充分:高层特征含定位语义、低层特征含细节,但中层特征的上下文交互缺乏有效、轻量的设计
  6. 遥感场景背景复杂:杂乱背景、相似纹理干扰使得精确分割边界尤为困难

方法详解

整体框架

RDNet 以 SwinTransformer 为骨干,提取 5 层特征 \(\{F_i^R\}_{i=1}^{5}\)(输入 384×384),设计三个核心模块分别处理高、中、低层特征,最后自底向上融合输出显著性图:

  • RPL 模块 → 高层特征 \(F_4^R, F_5^R\) → 定位特征 \(F^A\) + 比例引导 \(F^G\)
  • FCE 模块 → 中层特征 \(F_2^R, F_3^R\) → 上下文特征 \(F^W\)
  • DAD 模块 → 低层特征 \(F_1^R\)(受 \(F^G\) 引导)→ 细节特征 \(F^P\)

区域比例感知定位模块 (RPL)

  • \(F_4^R\)\(F_5^R\) 分别施加通道注意力(GAP + 两层 1×1 Conv + Sigmoid),交叉乘-加完成通道维度优化
  • 再施加空间注意力(通道维 Max Pool + Sigmoid),交叉乘-加完成空间维度优化
  • 拼接后通过 3×3 Conv 得到定位特征 \(F^A\)
  • Proportion Guidance (PG) Block:对 \(F_5^R\) 做 GAP → 两层 FC → 输出 \(F^G \in \mathbb{R}^{4 \times 1}\)(每个 batch 样本的目标区域比例),并以 MSE Loss 监督

动态自适应细节感知模块 (DAD)

根据 PG 输出的区域比例,将目标分为三档动态选择卷积核组合:

区域比例 卷积核组合 设计思路
> 50% 1×1, 3×3, 5×5, 7×7, 9×9(5 种) 大核抓整体区域、小核精细化边缘
25%–50% 1×1, 3×3, 5×5, 7×7(4 种) 中等尺度平衡
< 25% 1×1, 3×3, 5×5(3 种) 避免大核引入过多背景
  • 下支路(Detail Extractor):多核卷积提取后相加融合 → \(F_1^D\)
  • 上支路(Detail Optimizer):通道维 Max Pool → 相同核组合 → 相加后 1×1 Conv + Sigmoid 得权重 \(W\)
  • 最终 \(F^P = F_1^D \otimes W \oplus F_1^D\)

频率匹配上下文增强模块 (FCE)

小波交互阶段

  • \(F_2^R\)\(F_3^R\) 做离散小波变换 (DWT) 得 4 个频率分量(LL/LH/HL/HH)
  • 对应频率分量之间做矩阵乘法交互(reshape → 转置 → 矩阵乘 → softmax → 乘回 → IDWT),计算复杂度降为全分辨率注意力的 1/4

特征增强阶段

  • 交互结果与原特征拼接 → 通道注意力 → 空间注意力 → 拼接 → 3×3 Conv → \(F^W\)

损失函数

\[L_{total} = \frac{1}{N} \sum_{i=1}^{N} (L_{bce} + L_{iou} + L_{fm} + L_{mse})\]
  • BCE Loss:像素级交叉熵
  • IoU Loss:区域重叠度
  • F-measure Loss:精确率-召回率调和
  • MSE Loss:监督区域比例预测 \(F^G\)

实验关键数据

主实验:三数据集全面 SOTA

方法 EORSSD M↓ EORSSD \(F_\beta\) EORSSD \(E_\xi\) ORSSD M↓ ORSSD \(F_\beta\) ORSSD \(E_\xi\) ORSI-4199 M↓ ORSI-4199 \(F_\beta\)
GeleNet 0.0066 0.8367 0.9678 0.0083 0.8879 0.9787 0.0266 0.8711
ADSTNet 0.0065 0.8321 0.9633 0.0089 0.8856 0.9800 0.0319 0.8615
HFCNet 0.0051 0.7845 0.9280 0.0073 0.8581 0.9554 0.0270 0.8272
RDNet (Ours) 0.0049 0.8563 0.9718 0.0066 0.9080 0.9852 0.0254 0.8781
  • EORSSD 上 MAE 较 HFCNet 降低 3.9%,\(F_\beta\) 平均提升 9.1%
  • ORSSD 上 \(F_\beta\) 达到 0.908,较 ADSTNet 提升 2.5%
  • 对全部 21 种方法的 t-test p 值均极小,统计显著

消融实验

设置 M↓ \(F_\beta\) \(S_\alpha\)
w/o DAD 0.0052 0.8550 0.9273
w/o FCE 0.0061 0.8453 0.9224
w/o RPL 0.0054 0.8561 0.9329
Full RDNet 0.0049 0.8563 0.9327
  • 去掉 FCE 后 MAE 上升最多(0.0061 vs 0.0049),说明中层上下文交互贡献最大
  • 骨干对比:SwinTransformer >> PVT > ResNet > VGG >> ViT(ViT MAE 高达 0.0175)
  • 阈值设置对比:当前 [<25%, 25%-50%, >50%] 为最优分档

模型效率

  • FLOPs: 48.7G(对比 GeleNet 11.7G、PA-KRN 617.7G)
  • 推理速度: 13.6 FPS(矩阵运算密集导致速度中等)

亮点

  1. 区域比例引导的动态核选择是核心创新,将分类思想引入检测——先预测目标"大小类"再决定卷积策略,避免了固定核对不同尺度目标的失配
  2. 小波域频率匹配交互将层间特征交互从空间域转到频域,同频分量单独交互既降低了 4 倍计算量,又避免了高低频信息相互干扰
  3. 三模块分层设计(高层定位 + 中层上下文 + 低层细节)逻辑清晰,各模块有明确分工
  4. 实验非常充分:21 种方法对比 + 7 组消融 + t-test 统计显著性检验 + 失败案例分析

局限与展望

  1. 推理速度偏慢:13.6 FPS 在实时遥感应用中难以满足需求,矩阵运算密集是瓶颈
  2. 区域比例分为三档过于粗糙:连续回归可能比离散三档分类更精细
  3. PG Block 依赖高层语义:仅用 \(F_5^R\) 预测比例,对极小目标的预测可能不准
  4. 失败案例:对极小/极细目标仍有漏检,背景纹理与目标相似时会误检
  5. 仅在遥感数据集验证:未在自然图像 SOD 数据集上测试泛化性
  6. SwinTransformer 骨干较重:限制了在边缘设备上的部署可能

与相关工作的对比

  • vs ADSTNet / GeleNet(当前 SOTA):RDNet 在三个数据集上全面超越,核心优势在于区域比例自适应机制
  • vs ASTT(Transformer 方法):\(F_\beta\) 提升 13.6%,得益于分层设计而非简单的全局注意力
  • vs MCCNet / CorrNet(上下文交互方法):FCE 的小波交互比直接特征拼接/注意力交互更有效且更轻量
  • vs VST(Vision Transformer):MAE 降低 28.9%,说明 Swin 的分层窗口注意力比 ViT 的扁平结构更适合密集预测

评分

  • 新颖性: ⭐⭐⭐⭐ — 区域比例引导动态核选择 + 小波频域交互两个创新点有实际意义
  • 实验充分度: ⭐⭐⭐⭐⭐ — 21 方法对比、7 组消融、统计检验、失败案例,非常扎实
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整,图表丰富
  • 价值: ⭐⭐⭐⭐ — 对遥感显著性检测的尺度问题给出了有效方案,但实时性有待提升