Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 目标检测 / 红外小目标
关键词: 红外小目标, 噪声抑制, 频域分析, 特征金字塔, 虚警抑制

一句话总结¶

针对红外小目标检测中"增强高频特征会同步抬高虚警率"的痛点，本文从频域视角提出噪声抑制型特征金字塔 NS-FPN，用低频引导的特征净化模块（LFP）和螺旋感知的特征采样模块（SFS）替换 FPN 里的 1×1 卷积与上采样，在几乎不增加计算量的前提下大幅压低虚警并提升定位精度。

研究背景与动机¶

领域现状：红外小目标检测与分割（IRSTDS）目前由 CNN 方法主导，主流思路是设计更复杂的特征融合结构（DNANet、MSHNet、IRSAM 等），把高层语义和低层细节融合起来，以更准地定位那些又暗又小、几乎没有纹理的目标。

现有痛点：这些方法只盯着"增强特征表示"，几乎都倚重高频分量来刻画目标边缘和细节。结果是 IoU、Pd（检出概率）确实漂亮，但虚警率（Fa）居高不下——增强高频的同时把高频里夹带的噪声也一起放大了，背景杂波被误判成目标。

核心矛盾：作者把图像做离散 Haar 小波分解后发现一对相互拉扯的事实：① 高频分量对定位至关重要，但也是虚警的主要来源；② 低频分量会损害定位精度，却恰恰是压制虚警的最佳线索。换句话说，定位精度和虚警抑制在频域上落在了高频/低频两端，单纯堆高频不可能两头都赢。

本文目标 / 切入角度：与其继续在网络结构上做加法，不如换一个被忽略的视角——主动做"噪声抑制"而非一味"特征增强"。具体拆成两件事：用低频去净化高频里的噪声，再在特征融合（采样）阶段避开周围背景噪声。

核心 idea：用低频分量去引导、净化高频分量，并按红外小目标的强度分布先验做结构化采样，把噪声抑制直接嵌进 FPN 的横向连接和上采样里，做成一个轻量、可即插即用的 NS-FPN。

方法详解¶

整体框架¶

NS-FPN 沿用经典 FPN 的自顶向下结构：从 backbone 抽取多尺度特征 \(\{X_1, X_2, X_3, X_4\}\)（对应步长 2/4/8/16，统一降到 64 通道），再自顶向下构造特征金字塔 \(\{Y_1, Y_2, Y_3, Y_4\}\)。关键改动只有两处替换：

用 LFP 模块 替换原 FPN 横向连接里的 1×1 卷积——对每个尺度的 \(X_i\) 做低频引导的高频净化，输出去噪后的 \(X_i'\)（所有 4 个尺度都接 LFP）；
用 SFS 模块 替换原 FPN 的上采样操作——以净化后的 \(X_i'\) 为查询、上层特征 \(Y_{i+1}\) 为键值，按螺旋形采样融合，输出 \(Y_i\)（仅 \(Y_1, Y_2, Y_3\) 接 SFS，\(Y_4\) 不接，因其没有更上层特征可融）。

整条管线就是"先 LFP 净化、再 SFS 采样融合"在每个尺度上重复，最后把增强后的 \(\{Y_1, ..., Y_4\}\) 送入下游检测/分割头。正因为只是替换 FPN 里两个标准组件，NS-FPN 能轻松插进现有的 IRSTDS 框架（分割接 MSHNet、检测接 YOLOv8n-p2）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Backbone 多尺度特征<br/>X1~X4（统一 64 通道）"] --> B["低频引导特征净化 LFP<br/>低频出注意力图<br/>净化高频去噪"]
    B -->|横向连接，输出 Xi′| C["螺旋感知特征采样 SFS<br/>Xi′ 为 query<br/>螺旋采样融合上层 Yi+1"]
    C -->|"Y4 无上层，跳过 SFS"| C
    C --> D["增强金字塔 Y1~Y4"]
    D --> E["下游 IRSTDS<br/>检测 / 分割头"]

关键设计¶

1. 低频引导的特征净化 LFP：让低频当"门卫"，把高频里的噪声筛掉

这一模块正面回应"高频带来定位也带来虚警"的矛盾。它的核心假设是：低频分量虽然定位差，但能可靠地指出"目标大概在哪"，因此可以用低频生成一张目标位置的权重图，去约束高频该在哪里被增强、哪里该被压住。LFP 是一个两阶段净化机制。

第一阶段，对输入特征 \(X_i\) 做单层 2D 离散小波变换分解出低/高频：\([F_l, F_h] = \text{DWT}(X)\)。再对低频 \(F_l\) 做空间注意力，把平均池化和最大池化拼起来过卷积、Sigmoid 得到权重图 \(A_s = \text{Sigmoid}(\text{Conv}(\text{APool}(F_l)\,\|\,\text{MPool}(F_l)))\)，并用它逐元素调制高频：\(\hat{F_h} = A_s \odot F_h\)。这一步用"低频认定的目标位置"去放大目标相关高频、抑制背景高频。

第二阶段，对调制后的高频 \(\hat{F_h}\) 再做一道门控高斯滤波，只对那些绝对值低于阈值 \(\tau\) 的"低置信高频"施加平滑，高置信的高频原样保留：

\[\tilde{F_h} = \mathcal{G}(\hat{F_h}) \cdot \mathbb{I}_{<\tau}(|\hat{F_h}|) + \hat{F_h} \cdot \mathbb{I}_{\geq\tau}(|\hat{F_h}|)\]

其中 \(\mathbb{I}(\cdot)\) 是指示函数做门控，\(\mathcal{G}\) 是高斯核 \(\mathcal{G}(i,j;\sigma) = \frac{1}{Z}\exp(-\frac{(i-c)^2+(j-c)^2}{2\sigma^2})\)，\(\sigma\) 是可学习的标准差。最后用逆小波变换重建：\(X' = \text{IDWT}(F_l, \tilde{F_h})\)。这样输出既保留了被低频认可的高频增强，又把模糊不清的噪声高频平滑掉，从源头压低虚警。

2. 螺旋感知的特征采样 SFS：按红外小目标的强度分布形状采样，避开周围背景噪声

净化完每个尺度的特征后，自顶向下融合时需要把上层 \(Y_{i+1}\) 采样到当前尺度。直接用可变形注意力 DAT 做随机稀疏采样在这里行不通——红外小目标又暗又小、占据紧凑且形状一致的区域，随机采样点很难区分目标和周围背景，反而徒增计算（见实验 Table 1：DAT 不仅没涨点，IoU 还从 68.82 掉到 68.52、虚警升高）。

SFS 的解法是把采样点的位置先验"焊死"成螺旋形。对上层特征先铺一组均匀参考点 \(p\)，再用偏移 \(\Delta p = s + \epsilon\) 去采样：\(Y_{i+1}' = \phi(Y_{i+1}; p+\Delta p)\)，其中 \(\phi\) 是双线性插值，\(s\) 是固定的螺旋分布、\(\epsilon\) 是可学习偏置。螺旋模式在极坐标下按注意力头 \(h\) 构造：\(s^{(h,k)} = l_s\,[\cos\theta_{h,k}, \sin\theta_{h,k}]^\top\)，\(\theta_{h,k} = \frac{2\pi k}{P} + \frac{2\pi h}{H}\)，半径 \(l_s = l_0 + k\cdot\Delta l\) 随采样点序号 \(k\) 螺旋外扩。之所以用螺旋，是因为红外小目标的强度近似高斯分布，螺旋采样能从目标中心向外细粒度地铺点、贴合这种由强到弱的径向结构，从而采到更干净的目标相关特征。

采样得到 \(Y_{i+1}'\) 后，以 LFP 净化特征 \(X_i'\) 为查询、\(Y_{i+1}'\) 为键值做交叉注意力算相似度 \(F_s = \text{Attn}(\text{LN}(X_i'), \text{LN}(Y_{i+1}'))\)，再残差融合 \(Y_i = X_i' + F_s\)。SFS 还有一个降本的巧思：所有查询共享同一组可学习偏移（而非每个查询各学一套），因为小目标形状一致，共享偏移让采样更稳定、计算更省（Table 1：SFS 比 DAT 计算量更低且效果更好）。

实验关键数据¶

数据集为 IRSTD-1k（1000 张 512×512 红外图）和 NUAA-SIRST（427 张），各按 8:2 划分训练/测试。分割用 IoU/Pd/Fa，检测用 mAP50/mAP75/mAP。分割接 MSHNet、检测接 YOLOv8n-p2。

主实验¶

与各类 SOTA 在 IRSTD-1k / NUAA-SIRST 上的分割对比（Fa 单位 \(10^{-6}\)，越低越好）：

方法	IRSTD-1k IoU↑	IRSTD-1k Pd↑	IRSTD-1k Fa↓	NUAA IoU↑	NUAA Pd↑	NUAA Fa↓
DNANet (TIP 22)	65.71	91.84	17.61	74.31	98.17	15.97
SCTransNet (TGRS 24)	68.64	91.84	11.92	77.09	98.17	15.26
MSHNet (CVPR 24)	67.16	93.88	15.03	74.60	99.08	17.21
MSHNet + NS-FPN (Ours)	69.29	95.24	8.58	78.75	100.0	1.60

虚警抑制是最大亮点：NUAA 上 Fa 从基线 MSHNet 的 17.21 直接压到 1.60，同时 IoU/Pd 还都涨到最优。检测任务上 YOLOv8n + NS-FPN 也全面领先：IRSTD-1k mAP 从 41.5→42.1、mAP75 从 31.9→36.9；NUAA mAP75 从 40.3 飙到 61.6。

不同 FPN 变体对比（增量为相对 FPN 的参数/FLOPs）也显示 NS-FPN 在涨点的同时极轻量：

方法	IoU	Pd	Fa	mAP50	参数(M)	FLOPs(G)
FPN	67.0	91.2	13.1	85.9	3.91	6.80
PANet	68.9	93.5	6.7	85.0	+0.41	+1.41
HSFPN	66.7	94.9	18.1	85.1	+0.17	+0.98
Ours	69.2	95.2	8.5	86.3	+0.26	+1.16

消融实验¶

LFP 与 SFS 逐模块叠加（baseline = MSHNet + 原 FPN）：

LFP	SFS	IRSTD-1k IoU↑	IRSTD-1k Fa↓	NUAA IoU↑	NUAA Fa↓
		67.04	13.06	76.04	12.42
✓		68.82	9.79	76.99	12.07
	✓	67.81	13.66	78.07	4.61
✓	✓	69.29	8.58	78.75	1.60

采样方式	IoU↑	Pd↑	Fa↓	FLOPs
Upsample	68.82	94.56	9.79	6.80G
DAT	68.52	93.54	10.40	+1.24G
SFS (Ours)	69.29	95.24	8.58	+1.16G

关键发现¶

两模块互补、合力压虚警：单独上 LFP 主要在 IRSTD-1k 上把 IoU/Pd 拉高、Fa 降 3.27；单独上 SFS 在 NUAA 上把 Fa 从 12.42 砍到 4.61；两者合用才同时拿到最优 IoU 和最低 Fa。
LFP 用在大尺度层更利于压虚警：Table 3 显示把 LFP 用在大尺度浅层（X1、X2）能把 Fa 压到 6.15，小尺度深层语义强但 Fa 偏高；全尺度都用取得最佳整体折中。
SFS 优于 DAT 且更省：螺旋采样 + 共享偏移比可变形随机采样既涨点又少算 0.08G FLOPs，验证了"对齐目标强度分布的结构化采样"对小目标更有效。
超参 H=8、P=4 最优：注意力头 H 过多会因每头信息不足掉点，采样点 P 过大会引入更多计算和虚警。

亮点与洞察¶

换视角而非堆结构：把红外小目标的虚警问题第一次明确归因到"高频增强带噪"，并从频域给出"低频压噪、高频定位"的清晰分工，这个观察本身比具体模块更有启发性。
低频当注意力先验：用低频生成空间注意力图去门控高频，是一种很巧的"用频域语义指导频域细节"的做法，可迁移到任何"细节增强会放大噪声"的小目标/低 SNR 任务（如医学小病灶、遥感弱目标）。
把领域先验写进采样几何：螺旋采样直接把"目标强度近高斯、形状一致"的物理先验编码进采样点轨迹，比让网络从随机点自己学更稳更省——这种"用先验约束注意力采样几何"的思路值得借鉴。
即插即用、近零成本：仅替换 FPN 的两个标准算子，+0.26M 参数 / +1.16G FLOPs 就能给现成检测/分割框架同时降虚警涨点，落地性很强。

局限与展望¶

实验只在 IRSTD-1k 和 NUAA-SIRST 两个数据集上验证，规模偏小（合计不到 1500 张），在更大规模、更多样杂波场景下的泛化性待考。
门控高斯滤波依赖一个经验阈值 \(\tau\)，论文未充分讨论其敏感性；\(\tau\) 选取不当可能误平滑掉弱目标的真高频。⚠️ 阈值设置细节以原文为准。
螺旋采样的几何先验是为"近高斯、形状一致"的红外小目标量身定做的，对形状不规则或较大的目标可能不再适配，方法的适用边界相对窄。
后续可探索把噪声抑制思路推广到视频红外序列（利用时序低频做更强的虚警抑制），或让螺旋参数（\(l_0\)、\(\Delta l\)）自适应目标尺度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从频域把红外小目标虚警归因到高频带噪，并用低频引导净化 + 螺旋采样给出系统解法，视角新。
实验充分度: ⭐⭐⭐⭐ 检测+分割双任务、多 SOTA 对比、逐模块/逐尺度/超参消融齐全，但仅两个小数据集。
写作质量: ⭐⭐⭐⭐⭐ 频域动机分析清晰，图表（频域分解、采样可视化）支撑到位，逻辑顺畅。
价值: ⭐⭐⭐⭐⭐ 轻量即插即用、显著降虚警，对红外小目标这类高虚警痛点任务实用性强。