RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images¶
会议: CVPR2026
arXiv: 2603.12215
代码: 待确认
领域: 语义分割 / 显著性目标检测
关键词: 遥感图像显著性检测, 动态自适应卷积, 小波变换, 区域比例感知, SwinTransformer
一句话总结¶
针对遥感图像中目标尺度变化大的难题,提出区域比例感知的动态自适应显著性目标检测网络 RDNet,通过 Proportion Guidance 动态选择不同大小卷积核组合,结合小波频域交互与交叉注意力定位模块,在三个 ORSI-SOD 数据集上全面超越 SOTA。
背景与动机¶
- 遥感目标尺度差异极大:同一场景中目标可能从极小(飞机)到极大(体育场),固定卷积核策略无法兼顾——大核会引入过多背景噪声,小核捕捉不到大目标的完整区域
- 自注意力计算开销高:现有方法在全分辨率特征上直接做 self-attention 进行层间交互,计算复杂度高且高低频信息直接混合导致目标信息被稀释
- CNN 骨干缺乏全局建模能力:基于 CNN 的特征提取器依赖局部卷积核,难以捕获全局上下文和长距离依赖关系
- 现有多尺度方案一视同仁:多数方法对所有样本采用相同的多尺度卷积组合,未考虑不同图像中目标区域比例的差异
- 中层特征的上下文信息利用不充分:高层特征含定位语义、低层特征含细节,但中层特征的上下文交互缺乏有效、轻量的设计
- 遥感场景背景复杂:杂乱背景、相似纹理干扰使得精确分割边界尤为困难
方法详解¶
整体框架¶
RDNet 以 SwinTransformer 为骨干,提取 5 层特征 \(\{F_i^R\}_{i=1}^{5}\)(输入 384×384),设计三个核心模块分别处理高、中、低层特征,最后自底向上融合输出显著性图:
- RPL 模块 → 高层特征 \(F_4^R, F_5^R\) → 定位特征 \(F^A\) + 比例引导 \(F^G\)
- FCE 模块 → 中层特征 \(F_2^R, F_3^R\) → 上下文特征 \(F^W\)
- DAD 模块 → 低层特征 \(F_1^R\)(受 \(F^G\) 引导)→ 细节特征 \(F^P\)
区域比例感知定位模块 (RPL)¶
- 对 \(F_4^R\) 和 \(F_5^R\) 分别施加通道注意力(GAP + 两层 1×1 Conv + Sigmoid),交叉乘-加完成通道维度优化
- 再施加空间注意力(通道维 Max Pool + Sigmoid),交叉乘-加完成空间维度优化
- 拼接后通过 3×3 Conv 得到定位特征 \(F^A\)
- Proportion Guidance (PG) Block:对 \(F_5^R\) 做 GAP → 两层 FC → 输出 \(F^G \in \mathbb{R}^{4 \times 1}\)(每个 batch 样本的目标区域比例),并以 MSE Loss 监督
动态自适应细节感知模块 (DAD)¶
根据 PG 输出的区域比例,将目标分为三档动态选择卷积核组合:
| 区域比例 | 卷积核组合 | 设计思路 |
|---|---|---|
| > 50% | 1×1, 3×3, 5×5, 7×7, 9×9(5 种) | 大核抓整体区域、小核精细化边缘 |
| 25%–50% | 1×1, 3×3, 5×5, 7×7(4 种) | 中等尺度平衡 |
| < 25% | 1×1, 3×3, 5×5(3 种) | 避免大核引入过多背景 |
- 下支路(Detail Extractor):多核卷积提取后相加融合 → \(F_1^D\)
- 上支路(Detail Optimizer):通道维 Max Pool → 相同核组合 → 相加后 1×1 Conv + Sigmoid 得权重 \(W\)
- 最终 \(F^P = F_1^D \otimes W \oplus F_1^D\)
频率匹配上下文增强模块 (FCE)¶
小波交互阶段:
- 对 \(F_2^R\)、\(F_3^R\) 做离散小波变换 (DWT) 得 4 个频率分量(LL/LH/HL/HH)
- 对应频率分量之间做矩阵乘法交互(reshape → 转置 → 矩阵乘 → softmax → 乘回 → IDWT),计算复杂度降为全分辨率注意力的 1/4
特征增强阶段:
- 交互结果与原特征拼接 → 通道注意力 → 空间注意力 → 拼接 → 3×3 Conv → \(F^W\)
损失函数¶
\[L_{total} = \frac{1}{N} \sum_{i=1}^{N} (L_{bce} + L_{iou} + L_{fm} + L_{mse})\]
- BCE Loss:像素级交叉熵
- IoU Loss:区域重叠度
- F-measure Loss:精确率-召回率调和
- MSE Loss:监督区域比例预测 \(F^G\)
实验关键数据¶
主实验:三数据集全面 SOTA¶
| 方法 | EORSSD M↓ | EORSSD \(F_\beta\)↑ | EORSSD \(E_\xi\)↑ | ORSSD M↓ | ORSSD \(F_\beta\)↑ | ORSSD \(E_\xi\)↑ | ORSI-4199 M↓ | ORSI-4199 \(F_\beta\)↑ |
|---|---|---|---|---|---|---|---|---|
| GeleNet | 0.0066 | 0.8367 | 0.9678 | 0.0083 | 0.8879 | 0.9787 | 0.0266 | 0.8711 |
| ADSTNet | 0.0065 | 0.8321 | 0.9633 | 0.0089 | 0.8856 | 0.9800 | 0.0319 | 0.8615 |
| HFCNet | 0.0051 | 0.7845 | 0.9280 | 0.0073 | 0.8581 | 0.9554 | 0.0270 | 0.8272 |
| RDNet (Ours) | 0.0049 | 0.8563 | 0.9718 | 0.0066 | 0.9080 | 0.9852 | 0.0254 | 0.8781 |
- EORSSD 上 MAE 较 HFCNet 降低 3.9%,\(F_\beta\) 平均提升 9.1%
- ORSSD 上 \(F_\beta\) 达到 0.908,较 ADSTNet 提升 2.5%
- 对全部 21 种方法的 t-test p 值均极小,统计显著
消融实验¶
| 设置 | M↓ | \(F_\beta\)↑ | \(S_\alpha\)↑ |
|---|---|---|---|
| w/o DAD | 0.0052 | 0.8550 | 0.9273 |
| w/o FCE | 0.0061 | 0.8453 | 0.9224 |
| w/o RPL | 0.0054 | 0.8561 | 0.9329 |
| Full RDNet | 0.0049 | 0.8563 | 0.9327 |
- 去掉 FCE 后 MAE 上升最多(0.0061 vs 0.0049),说明中层上下文交互贡献最大
- 骨干对比:SwinTransformer >> PVT > ResNet > VGG >> ViT(ViT MAE 高达 0.0175)
- 阈值设置对比:当前 [<25%, 25%-50%, >50%] 为最优分档
模型效率¶
- FLOPs: 48.7G(对比 GeleNet 11.7G、PA-KRN 617.7G)
- 推理速度: 13.6 FPS(矩阵运算密集导致速度中等)
亮点¶
- 区域比例引导的动态核选择是核心创新,将分类思想引入检测——先预测目标"大小类"再决定卷积策略,避免了固定核对不同尺度目标的失配
- 小波域频率匹配交互将层间特征交互从空间域转到频域,同频分量单独交互既降低了 4 倍计算量,又避免了高低频信息相互干扰
- 三模块分层设计(高层定位 + 中层上下文 + 低层细节)逻辑清晰,各模块有明确分工
- 实验非常充分:21 种方法对比 + 7 组消融 + t-test 统计显著性检验 + 失败案例分析
局限与展望¶
- 推理速度偏慢:13.6 FPS 在实时遥感应用中难以满足需求,矩阵运算密集是瓶颈
- 区域比例分为三档过于粗糙:连续回归可能比离散三档分类更精细
- PG Block 依赖高层语义:仅用 \(F_5^R\) 预测比例,对极小目标的预测可能不准
- 失败案例:对极小/极细目标仍有漏检,背景纹理与目标相似时会误检
- 仅在遥感数据集验证:未在自然图像 SOD 数据集上测试泛化性
- SwinTransformer 骨干较重:限制了在边缘设备上的部署可能
与相关工作的对比¶
- vs ADSTNet / GeleNet(当前 SOTA):RDNet 在三个数据集上全面超越,核心优势在于区域比例自适应机制
- vs ASTT(Transformer 方法):\(F_\beta\) 提升 13.6%,得益于分层设计而非简单的全局注意力
- vs MCCNet / CorrNet(上下文交互方法):FCE 的小波交互比直接特征拼接/注意力交互更有效且更轻量
- vs VST(Vision Transformer):MAE 降低 28.9%,说明 Swin 的分层窗口注意力比 ViT 的扁平结构更适合密集预测
评分¶
- 新颖性: ⭐⭐⭐⭐ — 区域比例引导动态核选择 + 小波频域交互两个创新点有实际意义
- 实验充分度: ⭐⭐⭐⭐⭐ — 21 方法对比、7 组消融、统计检验、失败案例,非常扎实
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式推导完整,图表丰富
- 价值: ⭐⭐⭐⭐ — 对遥感显著性检测的尺度问题给出了有效方案,但实时性有待提升