Beyond Appearance: Camouflaged Object Detection via Geometric Structure¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://depthsam.github.io/ （项目页）
领域: 语义分割 / 伪装目标检测
关键词: 伪装目标检测, 单目深度估计, 几何先验, 稀疏专家适配器, 频域融合

一句话总结¶

DepthSAM 把单目深度估计基础模型 Depth Anything v2 适配到伪装目标检测：冻结主干，用稀疏 MoE 适配器（SMEA）把"重建整个场景的几何"扭转成"只突出伪装目标的几何"，再用空间-频域双流融合模块（GSFM）把几何线索和语义对齐，在 COD10K/CAMO/NC4K 三个基准上刷新 SOTA（COD10K 的 $S_\alpha$、$F^\omega_\beta$ 比次优分别高 3.0%、4.3%）。

研究背景与动机¶

领域现状：伪装目标检测（Camouflaged Object Detection, COD）要把"和背景融为一体"的物体抠出来，传统做法从定制 CNN 进化到 Transformer，再到微调 SAM 这类大基础模型。但无论哪一代，本质上都在 RGB 图像里挖颜色/纹理这类外观线索。

现有痛点：当伪装到极致时，外观线索本身就是失真甚至骗人的——物体的颜色纹理和背景几乎一样，SAM 的通用先验对这种高混淆场景帮不上忙，性能直接崩。

核心矛盾：作者提出换一个更鲁棒的信息源——几何。单目深度估计（MDE）基础模型（如 Depth Anything）经过大规模预训练，能从 2D 外观推断出丰富的 3D 几何，而几何比颜色纹理更能区分物体边界。但直接把 MDE 套到 COD 上会撞上一个任务错配（task misalignment）：MDE 的目标是重建场景里所有几何形状，COD 的目标是只隔离出特定物体。当物体几何和背景几何"交缠"在一起时，MDE 会不加区分地把两者都重建出来，物体结构反而被背景淹没（论文图 1 称为 "Depth Intertwine" 场景）。

本文目标：把 MDE 的几何先验"扭"向伪装目标——既要突出物体几何、抑制背景几何，又要把深度先验和高层语义有效融合。

核心 idea：不重新训练 MDE，而是在冻结的 MDE 内部插入稀疏专家适配器去"操舵"特征，让解码器输出偏向伪装物体；再用一个空间-频域双流模块把几何与语义对齐，最终生成分割掩码。

方法详解¶

整体框架¶

DepthSAM 以预训练的 Depth Anything v2（DAv2）为底座，DAv2 由一个 DINOv2 编码器（提视觉特征）和一个 DPT 解码器（多尺度上采样）组成，两者全程冻结。方法在此之上加两件事：① 把 SMEA 串行注入冻结的 DINOv2 编码器，调制其内部特征，迫使冻结的 DPT 解码器输出的多尺度特征 $\{F_1,F_2,F_3,F_4\}$ 偏向伪装物体的几何；② 用 GSFM 把这四路互补特征渐进式融合成一张高质量表示 $F_o$，最后一个轻量卷积预测头把 $F_o$ 映射成分割掩码 $P$。训练用混合损失 $L = L_{BCE} + L_{IOU}$，外加一个保证 SMEA 稀疏性的辅助损失。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像"] --> B["冻结 DINOv2 编码器<br/>+ 稀疏专家适配器 SMEA<br/>串行调制特征 x→xm"]
    B --> C["冻结 DPT 解码器<br/>多尺度输出 F1~F4<br/>偏向伪装物体几何"]
    C --> D["几何-语义融合模块 GSFM<br/>级联 SFRM 浅→深渐进融合"]
    D --> E["预测头<br/>输出分割掩码 P"]

关键设计¶

1. SMEA：用稀疏专家适配器把"场景几何"操舵成"物体几何"

这一步针对的痛点就是任务错配：冻结的 DINOv2 特征是为"通用、全场景几何理解"优化的，缺少 COD 需要的物体级任务感知。SMEA（Sparse Mixture-of-Experts Adapter）以串行方式注入——在每个指定的编码器 Transformer Block 之前插入，输入特征 $x$ 先被适配器调制成 $x_m$，再喂给后续冻结的自注意力和 FFN。这点很关键：所有信息都被强制过一遍 SMEA，才能形成强力的任务专属调制。

SMEA 内部由 $N$ 个轻量专家 $E_i$ 和一个门控网络 $G$（充当路由器）组成。门控为所有专家算权重 $g_i$，但只有 Top-K（默认 $K=2$）最高权重的专家被激活、其余置零，保证稀疏与高效。调制特征为专家输出的稀疏加权和，并通过内部残差连接加回原输入以稳定训练： $$x_m = x + \Big(\sum_{i=1}^{N} g_i E_i(x)\Big)\Big/\sum_{i=1}^{N} g_i, \quad g_i \in \text{Top-K}(G(x))$$ 门控会学着为不同输入挑选最相关的专家组合，把表示从"depth-centric（以深度为中心）"动态扭向"object-centric（以物体为中心）"。这个被预调制的信号 $x_m$ 顺着传到 DPT 解码器，让多尺度深度输出 $\{F_i\}$ 高亮伪装物体的几何先验——注意 SMEA 的目标不是根本改变特征，而是去"影响 DPT 解码器、让它把伪装物体几何当成最显著的信息"。论文图 6 可视化了专家分工：专家 1/7 对沙地等平坦颗粒纹理上的物体激活，专家 4/6 专门处理藏在复杂植被里的物体。

2. GSFM：渐进式融合把浅层几何细节和深层语义对齐

SMEA 调制后，DPT 解码器虽然被引导偏向物体几何，但它毕竟是冻结的、输出本质上仍是"几何理解表示"而非"分割表示"；而且四路特征互补——浅层 $F_1$ 富含调制后的几何细节，深层 $F_4$ 持有强语义。GSFM（Geometric-Semantic Fusion Module）采用渐进式融合架构（Progressive Fusion），从深到浅级联核心组件 SFRM，让浅层细粒度几何细节逐级引导、精修深层语义表示： $$F_o = \text{SFRM}(\text{SFRM}(\text{SFRM}(F_4, F_3), F_2), F_1)$$ 这种多阶段设计的好处是：不是一次性把四路硬拼，而是让"细几何"和"粗语义"在每一级两两对齐后再往上传，最终汇聚成一张既语义鲁棒又结构精确的特征 $F_o$。

3. SFRM：空间-频域双流 + 四路交叉注意力做跨域强化

SFRM（Spatial-Frequency Refinement Module）是 GSFM 每一级的核心，负责融合两张输入特征 $x_1, x_2$，核心是双域设计。先经初始交互（拼接+卷积）合并输入，再分两条并行流处理：空间流 S（富含局部几何细节）和频域流 F（经 FFT，高效捕获全局语义上下文）。然后用四路并行多头自注意力（MHSA）做全面信息交换：

$$ \begin{cases} F_F = \mathcal{F}^{-1}\big(\text{Softmax}(\tfrac{QK^T}{\sqrt{d}})\cdot V\big) & \text{频域自注意力：流内全局上下文} \ F_S = \text{Softmax}(\tfrac{qk^T}{\sqrt{d}})\cdot v & \text{空间自注意力：流内局部结构} \ F_{S\to F} = \mathcal{F}^{-1}\big(\mathcal{F}(\text{Softmax}(\tfrac{qk^T}{\sqrt{d}}))\cdot V\big) & \text{几何引导语义：用空间结构锚定全局语义} \ F_{F\to S} = \mathcal{F}^{-1}\big(\text{Softmax}(\tfrac{QK^T}{\sqrt{d}})\big)\cdot v & \text{语义引导几何：用语义抑制背景噪声、增强真边界} \end{cases} $$ 其中 $\mathcal{F}$/$\mathcal{F}^{-1}$ 是傅里叶正/逆变换，大写 $Q,K,V$ 来自频域流、小写 $q,k,v$ 来自空间流。前两路是各自流内自注意力，后两路是跨域引导：几何引导语义用局部几何"锚定并校准"全局语义表示，语义引导几何用高层语义"抑制背景噪声、增强真实物体边界"。聚合这四路结果实现跨域互强化，产出既语义鲁棒又结构精确的融合特征。⚠️ 公式 (3) 中大小写 $Q/q$ 等的具体来源（哪条流出 $Q$、哪条出 $q$）以原文为准。

损失函数 / 训练策略¶

监督用 BCE + IoU 混合损失 $L = L_{BCE} + L_{IOU}$，另加辅助损失保证 SMEA 路由稀疏性。实现细节：DAv2 全架构作底座，SMEA 专家总数 8、激活 Top-K=2；输入与 GT 统一缩放到 512×512，随机水平翻转 + 随机裁剪；Adam，初始学习率 5e-5，每 150 epoch 乘 0.1 阶梯衰减，训练 300 epoch，4×RTX 4090，总 batch size 8。DepthSAM-B/L 两个规模可训练参数分别仅 9.09M / 27.45M。

实验关键数据¶

主实验¶

在 CAMO/COD10K/NC4K 三个 COD 基准上对比 18 个 SOTA。DepthSAM-L（512×512）全面领先，可训练参数仅 27.45M（远低于多数对手）：

数据集	指标	DepthSAM-L	次优(CG-COD)	提升
CAMO	$S_\alpha$ ↑ / $F^\omega_\beta$ ↑	0.919 / 0.906	0.896 / 0.864	+2.3% / +4.2%
COD10K	$S_\alpha$ ↑ / $F^\omega_\beta$ ↑	0.920 / 0.867	0.890 / 0.824	+3.0% / +4.3%
NC4K	$S_\alpha$ ↑ / $F^\omega_\beta$ ↑	0.929 / 0.909	0.904 / 0.869	+2.5% / +4.0%
COD10K	$M$ ↓ / $E_\xi$ ↑	0.014 / 0.964	0.018 / 0.948	—

轻量的 DepthSAM-B（9.09M 参数）在 512×512 下也已超过所有对手（如 COD10K $S_\alpha$=0.907）。

零样本泛化（VCOD）¶

直接把只在静态图训练的 DepthSAM-L 拿到视频伪装检测基准 MoCA-Mask 上做零样本，超过专为视频设计的 SOTA：

方法	$S_\alpha$ ↑	$F^\omega_\beta$ ↑	mIoU ↑
ZoomNeXt (TPAMI24)	73.4	47.6	42.2
SAM-PM (CVPR24)	72.8	56.7	50.2
DepthSAM-L (零样本)	78.4	60.9	54.9

$S_\alpha$ 比次优 ZoomNeXt 高 5.0%，作者认为这正源于"解决任务错配后模型学会了聚焦伪装物体几何"的能力。

消融实验¶

配置	$S_\alpha$	$F^\omega_\beta$	说明
w/o SMEA	0.845	0.719	去掉 SMEA，GSFM 直接吃原始 DAv2 先验 → 最差
SMEA→普通非稀疏 Adapter	0.914	0.840	多专家比单一适配器好 +2.7% $F^\omega_\beta$
SMEA Top-K=4	0.920	0.869	仅微涨 +0.15M 参数，K=2 性价比最优
w/o GSFM（简单拼接）	0.875	0.766	简单拼接不够，掉 10 个点 $F^\omega_\beta$
GSFM→FFN	0.909	0.829	FFN 融合异构多尺度特征仍次优
GSFM 核心 SFRM→普通 MHSA	0.899	0.809	MHSA 缺频域视角 → 退化
完整 DepthSAM-L	0.920	0.867	—

另有基础模型消融（表 3）：把 DepthSAM 的组件搬到通用大模型 SAM（记 SAM），COD10K 上 $S_\alpha$ 仍落后 4.0%（0.880 vs 0.920），证明关键是几何先验本身，而非单纯的海量预训练*。

关键发现¶

SMEA 是性价比最高的组件：去掉它 $F^\omega_\beta$ 暴跌 14.8%（0.719 vs 0.867），而它把通用深度特征扭向物体级是整个方法的成败关键。
稀疏专家 > 单一适配器：多专家能按场景（沙地/植被）动态分工，比一个通用 adapter 高 2.7% $F^\omega_\beta$；K=2 已够，K=4 提升微乎其微。
频域视角不可省：GSFM 的核心 SFRM 用普通 MHSA 替换就掉到 0.809，说明用 FFT 捕获全局语义、再和空间几何交叉引导，是融合伪装特征的关键。
几何 > 通用语义：同样组件下 DAv2 底座远胜 SAM 底座，伪装场景里 SAM 的原始特征被背景纹理干扰得很乱。

亮点与洞察¶

换信息源而非堆模块：当外观线索失效时，绝大多数 COD 工作还在卷"如何放大微弱外观线索"，本文直接换成 MDE 的几何先验，是个干净利落的视角转换。
"操舵"而非"改造"基础模型：SMEA 不微调主干、只插稀疏适配器去影响冻结解码器的输出朝向，可训练参数压到 9~27M 却拿下 SOTA，这种"冻结 + 轻量调制"范式很值得迁移到其他"基础模型任务错配"场景。
任务错配是个可复用的诊断框架：把"基础模型预训练目标 ≠ 下游目标"明确成 task misalignment，并对症下药（调制特征朝向 + 跨域融合），这个思路对所有"借用基础模型先验"的工作都有启发。
零样本迁到视频是最强证据：纯静态图训练却在 VCOD 上超过视频专用方法，说明学到的是几何聚焦的本质能力而非数据集过拟合。

局限性 / 可改进方向¶

依赖 MDE 质量：方法吃 DAv2 的深度先验，当深度估计本身在某些极端场景（透明物体、深度无差异的真·同平面伪装）失效时，几何先验也会失效，论文未深入分析这类失败边界。⚠️ 论文未给 MDE 失败时的兜底方案。
任务错配只缓解未根除：SMEA 是"引导"冻结解码器而非真正重训几何，对"物体几何与背景几何在深度上完全交缠"的极端 Depth Intertwine 场景能缓解到什么程度，缺少定量边界刻画。
频域融合的可解释性有限：SFRM 四路 MHSA 的跨域引导设计有效，但为何频域=全局语义、空间=局部几何这一假设成立，论文偏经验性，公式 (3) 的符号定义也略含糊。
改进思路：可探索把 SMEA 的专家路由和深度置信度耦合（深度不可靠区域降低几何权重），或引入可学习的深度-语义对齐损失替代纯结构监督。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把单目深度估计基础模型适配到 COD，并用"任务错配"框架对症下药
实验充分度: ⭐⭐⭐⭐⭐ 三基准 18 对手 + VCOD 零样本 + SOD/ORSI 泛化 + 多组消融，证据链完整
写作质量: ⭐⭐⭐⭐ 动机和方法叙事清晰，但公式 (3) 符号定义略含糊
价值: ⭐⭐⭐⭐⭐ 轻量参数刷新 SOTA，"冻结基础模型 + 稀疏调制 + 跨域融合"范式可迁移性强

数据集	指标	DepthSAM-L	次优(CG-COD)	提升
CAMO	\(S_\alpha\) ↑ / \(F^\omega_\beta\) ↑	0.919 / 0.906	0.896 / 0.864	+2.3% / +4.2%
COD10K	\(S_\alpha\) ↑ / \(F^\omega_\beta\) ↑	0.920 / 0.867	0.890 / 0.824	+3.0% / +4.3%
NC4K	\(S_\alpha\) ↑ / \(F^\omega_\beta\) ↑	0.929 / 0.909	0.904 / 0.869	+2.5% / +4.0%
COD10K	\(M\) ↓ / \(E_\xi\) ↑	0.014 / 0.964	0.018 / 0.948	—