SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection¶

会议: AAAI 2026
arXiv: 2511.09870
代码: https://github.com/LinJ0866/SAM-DAQ
领域: 分割
关键词: SAM2, RGB-D显著性检测, 视频理解, 深度引导, 查询驱动记忆

一句话总结¶

提出 SAM-DAQ，通过深度引导并行适配器（DPA）和查询驱动时序记忆（QTM）模块将 SAM2 适配到 RGB-D 视频显著性检测任务，解决了手动提示依赖、高显存消耗和计算负担三大挑战。

研究背景与动机¶

视频显著性目标检测（VSOD）旨在识别视频中最具吸引力的物体。结合深度信息的 RGB-D VSOD 可以利用空间结构信息有效缓解杂乱背景、遮挡和低光照等挑战。然而，将 SAM2 直接应用于 RGB-D VSOD 面临三大关键问题：

手动提示依赖：SAM2 需要点、框或掩码等人工提示来引导分割，但 RGB-D VSOD 推理时无法提供此类信息。现有去提示方案（如生成伪提示或仅用编码器提取特征）要么效果有限，要么未充分利用 SAM2 的架构优势。

串行适配器的高显存消耗：现有的参数高效微调方法（如在 Transformer 块之间插入串行 adapter 或 LoRA）由于反向传播梯度需要穿过整个编码器，导致训练时 GPU 显存消耗极高（可达 91-95 GB）。

记忆注意力的计算负担：SAM2 的记忆机制通过记忆库捕获帧间依赖，但当前帧特征与大型记忆库之间的关联计算代价高昂。

核心思路：（1）用并行跳跃连接式适配器替代串行适配器，大幅降低显存；（2）用可学习查询替代记忆库和提示embedding，统一时序建模和提示生成。

方法详解¶

整体框架¶

SAM-DAQ 基于 SAM2-Large 构建，包含三个核心组件：

并行适配器多模态图像编码器（PAMIE）：以跳跃连接方式嵌入深度引导并行适配器，在冻结编码器下实现无提示微调和 RGB-D 特征融合
查询驱动时序记忆模块（QTM）：用帧级查询和视频级查询替代记忆库和提示嵌入，选择性提取时序一致性特征
掩码解码器：沿用 SAM2 原始解码器

关键设计¶

1. 并行适配器多模态图像编码器（PAMIE）¶

深度适配器：在每个 Hiera 块的输入和输出之间以跳跃连接方式插入 adapter：

\[\tilde{\mathbf{F}}_D^{i-1} = \text{Adapter}(\mathbf{F}_D^{i-1})$$ $$\mathbf{F}_D^i = \text{Hiera}^i(\mathbf{F}_D^{i-1}) + \text{DS}(\tilde{\mathbf{F}}_D^{i-1})\]

其中 Adapter 由下投影线性层 + 激活函数 + 上投影线性层组成，DS 为双线性下采样。

深度引导并行适配器（DPA）：将 RGB 特征和深度特征拼接后输入适配器：

\[\tilde{\mathbf{F}}_{RGB}^{i-1} = \text{Adapter}(\text{Cat}(\mathbf{F}_{RGB}^{i-1}, \mathbf{F}_D^{i-1}))$$ $$\mathbf{F}_{RGB}^i = \text{Hiera}^i(\mathbf{F}_{RGB}^{i-1}) + \text{DS}(\tilde{\mathbf{F}}_{RGB}^{i-1})\]

设计动机：并行跳跃连接允许梯度绕过沉重的 Transformer 计算直接反传，显存消耗从串行 adapter 的 91.9 GB 降至 21.0 GB。同时通过 Cat 操作在 adapter 中实现 RGB-D 特征融合。

经过 FPN 后生成三级图像嵌入 $\mathbf{E}_I = \{\mathbf{E}_I^i\}_{i=2}^{4}$。此外引入自推理方案：对每级图像嵌入用轻量卷积+sigmoid 生成中间预测，仅在最高层施加监督。

2. 查询驱动时序记忆模块（QTM）¶

引入两组可学习查询：

帧级查询 $\mathbf{Q}_f \in \mathbb{R}^{N_f \times c}$（$N_f = 30$）：静态查询，与每帧的最高层图像嵌入交互，提取显著性相关的帧特征
视频级查询 $\mathbf{Q}_v \in \mathbb{R}^{N_v \times c}$（$N_v = 8$）：动态查询，跨帧迭代更新，捕获时序依赖

交互过程：

\[\mathbf{E}_f = \text{Linear}(\mathbf{Q}_f' \cdot \mathbf{E}_I^4)$$ $$\tilde{\mathbf{Q}}_v = \text{CA}(\mathbf{Q}_v', \mathbf{E}_f) + \mathbf{Q}_v'\]

视频级查询 $\tilde{\mathbf{Q}}_v$ 与 $\mathbf{E}_I^4$ 逐元素相乘生成可学习嵌入 $\mathbf{E}_L$，替代 SAM 的稀疏提示嵌入。

时序更新机制：使用 SAM2 的记忆编码器处理当前帧的图像嵌入和预测结果：

\[\mathbf{F}_m = \text{Linear}(\text{ME}(\mathbf{E}_{I,t}, \mathbf{P}_t))$$ $$\mathbf{Q}_{v,t+1} = \mathbf{Q}_{v,t} + \text{FFN}(\text{SA}(\text{CA}(\mathbf{Q}_{v,t}, \mathbf{F}_m)))\]

设计动机：（1）帧级查询通过 token 级注意力选择性关注视觉吸引区域，而非像素级密集特征匹配；（2）视频级查询通过迭代更新建立时序依赖，替代大型记忆库的高计算开销；（3）仅用稀疏嵌入（而非密集嵌入或两者组合）效果最优，因为查询的 token 级交互与 SAM 预训练中的稀疏嵌入结构一致。

3. 掩码解码器¶

沿用 SAM2 原始掩码解码器，接收可学习嵌入 $\mathbf{E}_L$ 和多级图像嵌入 $\mathbf{E}_I$ 生成最终分割结果。

损失函数 / 训练策略¶

\[\mathcal{L}_{total} = \mathcal{L}_{pred} + \alpha \cdot \mathcal{L}_{inter}\]

$\mathcal{L}_{pred}$：最终预测结果的 BCE 损失
$\mathcal{L}_{inter}$：中间预测结果的 BCE 损失
$\alpha$：中间损失权重

训练设置：SAM 编码器完全冻结，仅训练适配器和 QTM 模块（19.2M 可训练参数），输入分辨率 1024×1024，每个视频随机采样 10 帧，AdamW 优化器（lr=0.0001，weight decay=0.05），batch size=1，训练 2000 迭代。在单张 RTX-3090（24GB）上仅需 3 小时即可训练完成。

实验关键数据¶

主实验¶

三数据集定量对比：

方法	来源	RDVS $E_\xi$↑	RDVS $S_\alpha$↑	ViDSOD-100 $F_\beta$↑	ViDSOD-100 MAE↓	DViSal $F_\beta$↑	DViSal MAE↓
DCTNet+	TIP'24	0.909	0.876	0.809	0.030	0.689	0.095
MDSAM	MM'24	0.813	0.791	0.815	0.026	0.715	0.071
SAM2-UNet	arXiv'24	0.888	0.843	0.829	0.025	0.747	0.064
KAN-SAM	ICME'25	0.888	0.854	0.846	0.025	0.783	0.052
SAM-DAQ	本文	0.913	0.879	0.868	0.020	0.818	0.046

相比 KAN-SAM，SAM-DAQ 在 E-measure、S-measure、F-measure 上分别平均提升 1.5%、1.0%、2.4%。

消融实验¶

PAMIE 消融（RDVS 数据集）：

配置	可训练/总参数(M)	显存(GB)	$E_\xi$	$S_\alpha$	$F_\beta$	MAE
w/o 深度投影器	-	20.3	0.899	0.870	0.808	0.023
串行 adapter	17.4/236.0	91.9	0.860	0.830	0.778	0.028
LoRA	56.0/274.6	95.0	0.889	0.877	0.824	0.027
w/o 多模态融合	-	17.9	0.876	0.853	0.782	0.029
DPA（本文）	19.2/237.9	21.0	0.913	0.879	0.827	0.026

QTM 嵌入策略消融：

策略	$E_\xi$	$S_\alpha$	$F_\beta$	MAE	说明
稀疏嵌入（本文）	0.913	0.879	0.827	0.026	最优
密集嵌入	0.875	0.856	0.783	0.032	密集不适配
两者结合	0.862	0.839	0.763	0.033	冲突反而下降

更新机制消融：

策略	$E_\xi$	$F_\beta$	说明
无更新	0.883	0.788	时序信息缺失
SAM2 记忆库	0.853	0.796	传统方案
乘法更新	0.895	0.804	次优
加法更新（本文）	0.913	0.827	最优

关键发现¶

并行 vs 串行适配器：并行跳跃连接将显存从 91.9GB 降至 21.0GB（降低 77%），同时性能更优（$E_\xi$ 0.913 vs 0.860）
仅稀疏嵌入最优：仅用稀疏嵌入优于密集或两者组合，因为 QTM 的 token 级交互与 SAM 预训练的稀疏嵌入在结构上一致
查询数量敏感：视频级查询 8 个、帧级查询 30 个为最优配置；减少视频级查询（5个）或增加（10个）都会降低性能
隐藏维度 64 最优：高于或低于都导致性能下降
中间监督仅在最高层有效：在低层额外添加监督反而降低整体性能
加法更新优于乘法更新和 SAM2 原始记忆库

亮点与洞察¶

并行跳跃连接适配器是解决 SAM 微调显存问题的优雅方案：梯度不需要穿过冻结的 Transformer，显存降低 4 倍以上
查询驱动的设计统一了提示生成和时序建模两个看似不同的问题：可学习查询既充当 SAM 的提示嵌入，又承担跨帧记忆的角色
极高的训练效率：单卡 RTX-3090 仅需 3 小时，这对实际部署非常友好
仅用稀疏嵌入优于密集嵌入的发现有深度：SAM 预训练时的稀疏提示范式决定了微调时也应保持结构一致性

局限与展望¶

仅在 RGB-D VSOD 上验证，未扩展到多目标视频分割或其他多模态任务
视频级查询数量固定，无法自适应视频长度或场景复杂度
深度图的质量变化对性能的影响未深入分析
未考虑光流等运动信息，可能在快速运动场景中受限
帧级查询是静态的，可探索动态帧级查询的可能性

评分¶

新颖性: ⭐⭐⭐⭐ （并行适配器+查询驱动记忆组合新颖，解决了实际工程痛点）
实验充分度: ⭐⭐⭐⭐⭐ （三个数据集、全面消融、参数敏感性分析、显存对比）
写作质量: ⭐⭐⭐⭐ （结构清晰，问题定义明确）
价值: ⭐⭐⭐⭐ （显存效率提升具有重要实用价值，但任务范围较窄）