SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation¶

会议: ICCV 2025
arXiv: 2507.05798
代码: 无（项目页面提及）
领域: 图像分割
关键词: 全景场景图生成, 开放词汇, 扩散模型, 空间关系推理, 图Transformer

一句话总结¶

提出SPADE——一种面向开放词汇全景场景图生成（PSG）的空间感知去噪网络，通过DDIM逆向校准将预训练扩散模型适配为PSG特定的空间先验提取器，并设计关系图Transformer捕获长程和局部上下文，在闭集和开集场景中均大幅超越SOTA，尤其在空间关系预测上表现突出。

研究背景与动机¶

全景场景图生成（PSG）将实例分割与关系理解统一为 subject-predicate-object 三元组。近年来基于VLM的开放词汇方法取得显著进展，但存在一个被忽视的关键问题：

VLM的空间推理缺陷：多项研究表明CLIP、BLIP、GLIP等VLM在空间关系理解上存在先天不足（因训练数据中缺乏空间描述），导致模型难以判断"左/右/上方/下方"等空间关系

距离敏感性：作者系统性实验发现，当两个物体距离较远（中心间距>1/3图像宽度）时，VLM-based模型的空间关系预测性能急剧下降（如OpenPSG的R@50从43.7降至37.1）

缺乏上下文推理：现有方法主要关注设计视觉提示来提取VLM知识，忽略了关系对之间的空间和语义上下文信息

直接使用扩散模型的不足：虽然扩散模型具有出色的空间组合能力，但预训练知识未针对PSG任务优化，直接使用效果不佳

核心动机：能否将扩散模型的空间知识注入VLM，而不损害其固有的开放世界识别能力？

方法详解¶

整体框架¶

SPADE是一个两阶段方法： - 第一阶段：逆向引导校准（Inversion-guided Calibration）——将预训练扩散模型适配为PSG特定的去噪网络 - 第二阶段：空间感知上下文推理（Spatial-aware Context Reasoning）——通过关系图Transformer生成高质量关系查询

关键设计¶

逆向引导校准（Inversion-guided Calibration）：
- 逆向空间先验提取：将真实图像通过DDIM逆向过程转为确定性噪声 \(z\)，再用教师扩散模型（BELM）在关系提示 "[subject] is [predicate] [object]..." 条件下进行确定性采样，得到交叉注意力图 \(A_i\) 作为空间先验
- 隐式文本编码器：由于推理时无文本描述，用CLIP图像编码器 + MLP适配器替代文本编码器：\(f_i = \epsilon_\phi(x_i, \mathrm{MLP} \circ \mathrm{CLIP_{image}}(x_i))\)
- LoRA校准：仅更新UNet交叉注意力层的低秩矩阵 \(\Delta\mathbf{W}_k = \mathbf{B} \times \mathbf{D}\)（\(\mathbf{B} \in \mathbb{R}^{m_{in} \times r}\), \(\mathbf{D} \in \mathbb{R}^{r \times m_{out}}\)），保留预训练知识
- 校准损失：\(\mathcal{L}_{cal} = \frac{1}{N}\sum_{i=1}^{N}(\lambda\|A_i - A_i'\|_1)\)，对齐真实图像上的交叉注意力图与逆向过程得到的先验
- 设计动机：DDIM逆向过程天然保留输入图像的空间结构；LoRA微调可在注入PSG空间知识的同时最大限度保留扩散模型的世界知识
空间感知关系图Transformer（RGT）：
- 空间-语义图构建：基于实例掩码的空间距离（相邻=1）和特征余弦相似度（>阈值=1）构建图 \(G \in \mathbb{R}^{N \times N}\)
- 长程上下文学习（\(\mathrm{RGT_g}\)）：分别对邻居 \(\mathcal{P}(r)^+\) 和非邻居 \(\mathcal{P}(r)^-\) 计算自注意力，然后融合：\(\mathbf{q}_r \leftarrow \mathbf{q}_r + \mathrm{RGT}(\mathbf{q}_r)_{\mathcal{P}^+} + \mathrm{RGT}(\mathbf{q}_r)_{\mathcal{P}^-}\)，再用MLP融合所有特征
- 局部上下文学习（\(\mathrm{RGT_l}\)）：用GCN在图 \(G\) 上聚合局部邻域信息：\(\hat{\mathbf{q}}_r = \mathrm{GCN}(G, \mathbf{q}_r'; \mathbf{W}_l)\)
- 关系查询构造：基于余弦距离选择相近目标对构建关系查询 \(\Psi_r\)，辅助loss \(\mathcal{L}_{rqc}\) 优化选择质量
- 设计动机：仅建模相连对象不够，非相连对象间也可能存在关系（如"远处的人看着飞机"）；长程+局部双路推理覆盖不同空间尺度
开放词汇关系预测：
- 使用CLIP文本编码器对目标/谓词类别模板编码，与特征做相似度分类
- 双路预测融合：扩散模型特征分数 \(\mathbf{P}_o\) + CLIP池化特征分数 \(\mathbf{P}_o'\)，通过几何均值融合：\(\mathbf{P}^o_{\text{final}} = \mathbf{P}_o^\alpha \cdot \mathbf{P}_o'^{(1-\alpha)}\)
- 关系预测同理，使用subject+object的联合掩码进行池化
- 设计动机：扩散模型擅长空间推理但开放词汇能力有限，CLIP擅长开放世界识别但空间推理弱，互补融合

损失函数 / 训练策略¶

第一阶段（校准）：仅 \(\mathcal{L}_{cal}\)（L1对齐交叉注意力图），更新MLP适配器和LoRA参数
第二阶段：\(\mathcal{L} = \mathcal{L}_{\text{rel}} + \lambda_{\text{rqc}}\mathcal{L}_{rqc} + \lambda_{\text{mask}}L_{\text{mask}}\)
超参数：\(\alpha=0.34\), \(\eta=0.65\), \(\lambda_{rqc}=0.6\), \(\lambda_{mask}=1\)
扩散模型和CLIP参数在第二阶段冻结
共训练80个epoch，第60个epoch降低学习率
4×A100 GPU训练

实验关键数据¶

主实验¶

数据集/设置	指标	SPADE	OpenPSG	OvSGTR	提升
PSG闭集	R/mR@100	54.3/51.7	49.3/47.5	41.4/28.3	+5.0/+4.2
PSG开集(OvR)	R/mR@50	26.7/23.3	21.2/19.8	19.3/12.4	+5.5/+3.5
PSG开集(OvR)	R/mR@100	31.8/25.8	25.1/21.4	22.8/14.0	+6.7/+4.4
VG开集(OvR)	R/mR@100	29.9/13.9	25.7/12.1	26.7/5.7	+4.2/+1.8
PSG开集(OvD+R)	R@50	22.7	11.4	19.1	+3.6

消融实验¶

配置	R/mR@50 (PSG闭集)	说明
无RGT组件	30.5/26.3	Baseline
+长程邻居学习(LCNL)	35.6/32.2	邻居上下文显著提升
+长程非邻居(LCNNL)	37.1/34.4	非邻居关系也有贡献
+局部学习(LCL)	40.3/35.6	GCN局部推理补充长程
+全部+\(\mathcal{L}_{rqc}\)	45.1/41.2	辅助损失进一步优化

校准策略	OvR R@50	OvD+R R@50	说明
无校准(直接用预训练UNet)	15.3	10.1	预训练知识不匹配PSG
无LoRA(全参数微调)	18.8	12.7	破坏预训练知识
无逆向(随机噪声)	21.0	15.9	缺乏空间结构先验
完整方法	26.7	22.7	逆向+LoRA最优

关键发现¶

空间关系的系统性分析：SPADE在远距离关系(DR)上R@50达42.3，OpenPSG仅37.1，差距从6.6缩小到4.2，说明SPADE有效改善了远距离空间推理
开放词汇模块消融：扩散特征+池化特征的融合比单独使用任一方都好（26.7 vs 12.5 vs 21.4）
逆向过程是关键：随机采样噪声（21.0）远不如确定性逆向（26.7），因为逆向过程保留了原图的空间布局

亮点与洞察¶

问题发现有深度：系统性地揭示了VLM在空间关系推理上的缺陷，并量化了距离对性能的影响
创新性地利用扩散模型的逆向过程：DDIM逆向天然保留空间结构，这一特性被巧妙地转化为PSG的空间先验
长程+局部双路上下文推理：邻居/非邻居的分别建模 + GCN局部聚合，全面覆盖不同尺度的关系
扩散+判别双路分类：空间推理靠扩散模型，开放识别靠CLIP，互补融合发挥各自优势
LoRA校准的必要性：全参数微调反而不如LoRA，验证了保留预训练知识的重要性

局限与展望¶

两阶段训练流程较复杂，需要先独立校准UNet再训练RGT
扩散模型推理的计算开销较大，未报告推理速度
空间-语义图的构建依赖固定阈值，不够灵活
仅在PSG和VG两个数据集验证，未在更多场景图生成基准上评测
关系提示的设计（"[subject] is [predicate] [object]"）可能限制了能捕获的关系类型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 发现VLM空间推理缺陷，创新性利用扩散逆向过程补充空间先验
实验充分度: ⭐⭐⭐⭐ 闭集+开集+空间关系分析+多维消融，缺少效率分析
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，方法描述系统，图表丰富
价值: ⭐⭐⭐⭐ 揭示了VLM空间推理的核心问题，提供了扩散模型+VLM融合的新范式