RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images¶

会议: CVPR 2026
arXiv: 2603.12215
代码: 无
领域: 图像分割
关键词: 显著性目标检测, 遥感图像, 动态卷积核选择, 小波变换, 区域比例感知

一句话总结¶

提出 RDNet，通过区域比例感知的 Proportion Guidance 块预测目标面积占比，动态选择 3/4/5 种不同大小卷积核组合提取细节，结合小波域频率匹配上下文增强（计算量降为1/4）和跨注意力定位模块，在 EORSSD/ORSSD/ORSI-4199 三个遥感 SOD 数据集上全面超越 21 个 SOTA 方法。

研究背景与动机¶

领域现状：遥感图像显著性检测（ORSI-SOD）近年依赖 CNN/Transformer 做多层特征提取+融合，在标准数据集上性能不断提升。

现有痛点：

遥感图像中目标尺度变化极大（几像素的飞机到占半图像的体育场），现有方法用固定卷积核组合——大核在小目标上引入过多背景噪声，小核在大目标上无法捕获完整区域
利用自注意力做跨层特征交互时，全分辨率矩阵乘法计算量大，且直接混合高低频信息会稀释目标信息
CNN backbone 缺乏全局上下文建模和长程依赖捕获能力

核心矛盾：目标尺度不确定，但特征提取策略却是静态的——不知道"目标多大"，就无法选择"用多大的视角看"。

本文目标 根据目标在图像中占据的面积比例，自适应选择合适的特征提取策略，同时高效进行多层特征交互。

切入角度：先在高层特征中估计目标区域比例，再以此引导低层特征的卷积核动态选择；中层特征交互用小波域分频做降维。

核心 idea：知道目标大概多大，再决定怎么看——区域比例引导的动态卷积核选择。

方法详解¶

整体框架¶

输入 4x3x384x384 图像，用 SwinTransformer 提取 5 层特征。高层特征 F4、F5 送入 RPL 模块提取定位信息并估计区域比例；低层特征 F1 送入 DAD 模块在比例引导下动态选择卷积核提取细节；中层特征 F2、F3 送入 FCE 模块通过小波域频率匹配进行上下文增强。三个模块的输出以自底向上的方式融合生成最终显著图。

关键设计¶

RPL（区域比例感知定位模块）
- 功能：利用高层语义特征定位目标并估计其面积占比
- 核心思路：对 F4 和 F5 做连续的通道注意力（GAP→两层1x1 Conv→Sigmoid）+ 空间注意力（Max Pooling→Sigmoid）交叉优化，最终拼接+3x3卷积得到定位特征
- PG（Proportion Guidance）块：对 F5 做 GAP + 两层 FC，输出每个样本的目标区域比例，用 MSE loss 与真值监督
- 设计动机：先知道"目标有多大"，才能指导后续 DAD 模块选择合适的卷积核
DAD（动态自适应细节感知模块）
- 功能：根据 PG 输出的区域比例，动态选择不同数量和大小的卷积核提取目标细节
- 核心思路：将区域比例分为三档——<25% 用 3 种卷积核（1x1, 3x3, 5x5），25%~50% 用 4 种（加7x7），>50% 用 5 种（加9x9）。双分支设计：下分支做细节提取（多尺度卷积求和），上分支做空间注意力加权过滤噪声
- 设计动机：小目标不需要大感受野（会引入背景噪声），大目标需要大感受野捕获完整区域——比例引导打破了"一刀切"
FCE（频率匹配上下文增强模块）
- 功能：在中层特征间做高效跨层交互，避免全分辨率自注意力的高计算量和高低频混合问题
- 核心思路：DWT 分解为 4 个频率分量（LL/LH/HL/HH）→ 在对应频率分量间做注意力交互 → IDWT 重建 → 与原特征拼接 → 通道/空间注意力增强过滤噪声
- 设计动机：在频率域做交互使空间分辨率各减半，计算量降为原来的 1/4，同时避免高低频信息互相干扰

损失函数 / 训练策略¶

总损失：L_total = BCE + IoU + F-measure + MSE，等权重
前三项监督显著图预测（BCE 像素级 + IoU 区域级 + F-measure 精确率召回率平衡）
MSE 监督区域比例预测
优化器 RMSprop，学习率 1e-5，batch size 4，输入分辨率 384x384

实验关键数据¶

主实验¶

数据集	指标	RDNet	GeleNet（前SOTA）	ADSTNet	HFCNet	提升
EORSSD	MAE↓	0.0049	0.0066	0.0065	0.0051	-25.8%
EORSSD	Fβ↑	0.8563	0.8367	0.8321	0.7845	+2.3%
EORSSD	Eξ↑	0.9718	0.9678	0.9633	0.9280	+0.4%
ORSSD	MAE↓	0.0066	0.0083	0.0089	0.0073	-20.5%
ORSSD	Fβ↑	0.9080	0.8879	0.8856	0.8581	+2.3%
ORSI-4199	MAE↓	0.0254	0.0266	0.0319	0.0270	-4.5%
ORSI-4199	Fβ↑	0.8781	0.8711	0.8615	0.8272	+0.8%

与 21 个方法对比，所有指标均为最优。t-test p-value 均 <1e-10，统计显著。

消融实验¶

配置	EORSSD MAE	EORSSD Fβ	说明
完整 RDNet	0.0049	0.8563	基线
去 DAD 模块	0.0052	0.8550	动态卷积选择有效
去 FCE 模块	0.0061	—	影响最大，频率域交互关键
去 RPL 模块	0.0054	—	定位+比例估计有效
无比例引导（固定核）	下降	下降	动态选择优于固定
阈值 [25%,50%]	最优	最优	过宽或过窄都降性能

Backbone 对比：SwinTransformer Fβ 0.8563 >> ViT 0.5762 >> ResNet-50 0.7756。模型 48.7 GFLOPs，13 FPS（RTX 3090）。

关键发现¶

FCE 模块贡献最大，频率域跨层交互是性能提升的核心
区域比例引导的动态卷积核选择持续优于固定核策略
SwinTransformer 全局上下文建模能力对遥感 SOD 至关重要
失败案例集中在极小目标和与背景纹理高度相似的场景

亮点与洞察¶

区域比例→卷积核动态选择是非常直觉且有效的设计——根据"目标有多大"来决定"用多大的眼睛看"
小波域频率匹配交互将计算量降为全分辨率自注意力的 1/4，同时避免高低频信息互相干扰
PG 块用 MSE loss 直接监督比例预测，使动态选择有明确的学习目标而非纯启发式
在三个数据集上 MAE 比前 SOTA 下降 4.5%~25.8%，提升显著

局限与展望¶

13 FPS 速度偏慢，难以满足实时遥感检测需求
三档比例阈值（25%/50%）是手工设定的，可考虑端到端学习的软阈值
失败案例显示极小目标和与背景纹理相似时仍然不够好
仅在三个遥感 SOD 数据集上验证，未扩展到自然图像 SOD 或通用分割任务

评分¶

新颖性: ⭐⭐⭐⭐ 区域比例引导动态卷积核选择有新意，但整体框架仍是 encoder-decoder + 注意力
实验充分度: ⭐⭐⭐⭐⭐ 21 个对比方法、多组消融、t-test 统计显著性验证，非常充分
写作质量: ⭐⭐⭐ 公式和结构清晰，但部分描述冗余
价值: ⭐⭐⭐⭐ 在遥感 SOD 子领域有实际价值，动态卷积核选择思路有一定通用性