APT: Towards Universal Scene Graph Generation via Plug-in Adaptive Prompt Tuning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=IZWJhdK2o7
代码: https://github.com/CGCL-codes/APT
领域: 场景图生成 / 视觉关系检测 / 提示微调
关键词: Scene Graph Generation, Prompt Tuning, 语义表征, Open-Vocabulary, 插件模块

一句话总结¶

APT 把场景图生成长期沿用的「冻结词向量语义先验」换成一组轻量可学习提示，将静态语义特征动态调制成依赖视觉上下文的表征，作为即插即用模块塞进任意一阶段 / 两阶段 / 开放词表 SGG 框架，用 <0.5M 参数和更短训练时间换来全面涨点。

研究背景与动机¶

领域现状：场景图生成（SGG）要把图像表示成「物体—关系—物体」的结构图，多年来被两条路线主导——两阶段方法先检测物体再预测关系、靠强检测器特征但上下文割裂；一阶段方法端到端联合建模、但计算开销大、关系粒度粗。两类方法都有一个共同习惯：用 GloVe / BERT 等预训练语言模型导出的静态、固定的语义嵌入作为语义先验。
现有痛点：这些冻结的词向量虽然在 NLP 里好用，但对 SGG 这种讲究上下文敏感、关系细粒度、主客体角色不对称的任务天然错配。同一个 "person" 嵌入无论这人是在骑马还是拿手机都纹丝不动，无法区分 "standing on" 和 "walking on" 这类近义谓词。作者用 t-SNE 可视化证明：静态语义空间把所有 person 实例塌缩成一个点，而视觉特征空间会按关系上下文（骑、走、拿）自然分簇，两者严重失配。
核心矛盾：社区一直在「一阶段 vs 两阶段」的架构之争里打转，却忽略了真正的瓶颈不在架构，而在表征范式——换一个更强的冻结模型（GloVe→BERT→CLIP-text）只是让内部子结构更丰富，并没有解决语义对视觉关系上下文不适配的根本问题（诊断表显示 silhouette / 互信息确实随模型变强而提升，但仍与 SGG 细粒度需求错位）。
本文目标：跳出架构之争，提供一个轻量、通用、可插拔的机制，把自适应语义注入任意 SGG 框架，同时保持参数与训练开销极小。
核心 idea：[范式转换] 用一组轻量可学习提示充当「条件适配器」，在不反传到预训练骨干的前提下，把冻结语义特征调制成随视觉上下文与关系角色变化的动态表征——作者把这个过程类比成通信里的「调制解调器」，提示 \(P\) 携带视觉上下文信息去调制原始语义信号。

方法详解¶

整体框架¶

APT 的核心是一组轻量可学习提示，把冻结的预训练语义嵌入适配成上下文感知的任务特征。它被设计成通用插件：在两阶段方法里分别作用于检测阶段和关系阶段，在一阶段方法里合并成单个关系提示，在开放词表设置里再额外挂一个组合泛化提示器（CGP）。预训练语义骨干始终冻结，只有提示参数、视觉投影器和轻量 MLP 融合网络可学。

flowchart TD
    A[冻结语义嵌入 e_static<br/>GloVe/BERT/CLIP-text] --> F[融合网络 f_θ]
    P[可学习提示 P_d/P_r/P_ur] --> F
    V[视觉特征 v] --> Phi[视觉投影器 φ] --> F
    F --> E[自适应表征 ẽ]
    E --> DET[检测头 / 关系预测器]
    subgraph OV[开放词表分支 CGP]
        RCG[关系上下文门控] --> BPS[基础提示合成] --> FRF[特征精炼融合]
    end
    A -.-> OV
    V -.-> OV
    OV --> E

关键设计¶

1. 统一即插入提示：把冻结嵌入「调制」成动态特征。 APT 的运作原理可以用一条通式概括——对任意语义概念 \(c\)，用一个轻量可学习提示 \(P(c)\) 把它的冻结嵌入 \(e_{static}(c)\) 在当前视觉上下文下重新调制：\(\tilde{e}(c) = f_\theta\big(A(P(c), e_{static}(c), \phi(v))\big)\)，其中 \(A(\cdot)\) 是把提示序列聚合成单向量的聚合函数，\(\phi(v)\) 是编码视觉上下文的投影器，\(f_\theta\) 是生成最终自适应表征的小型融合网络。关键在于只有 \(P\)、\(\phi\)、\(f_\theta\) 可学，预训练语义骨干完全冻结，因此既极度参数高效又能避免灾难性遗忘。作者从信息瓶颈视角给出动机：希望学到的 \(\tilde{e}\) 在给定视觉上下文 \(v\) 和目标 \(y\) 时尽量保留物体身份信息、压缩掉与当前关系无关的冗余语义，目标写作 \(\max\ I(\tilde{e}; y) - \beta I(\tilde{e}; e_{static} \mid v, y)\)。落到具体阶段则分化成三类提示：两阶段方法用检测提示 \(P_d(c)\in\mathbb{R}^{L_d\times D}\)（在物体检测阶段为每个物体类生成自适应表征喂给检测头）和关系提示 \(P_r(r)\in\mathbb{R}^{L_r\times D}\)（在关系阶段为谓词类捕捉主客体交互的细微差别）；一阶段方法因为没有独立检测阶段，只用单个统一关系提示 \(P_{ur}\) 去调制语义查询 / 标签嵌入，再送进 transformer 解码器与视觉特征做交叉注意力。

2. 组合泛化提示器（CGP）：为没见过的概念现场合成提示。 开放词表设置要求模型泛化到训练时没出现过的物体 / 谓词组合，单靠固定提示不够。CGP 用三个子模块串成一条「条件化—合成—精炼」流水线来动态生成自适应语义。首先是关系上下文门控（RCG），它把视觉证据和初始语义线索拼接后过 MLP 生成角色感知的门控权重 \(w_s = \sigma(\text{MLP}_{gate}(\text{Concat}(v_s, e_{static}(s))))\)，决定每个实体激活哪些提示基。接着是基础提示合成（BPS），维护一组可学习基础提示 \(B\in\mathbb{R}^{N\times L_{ov}\times D}\) 作为关系概念库，把门控权重对基做加权组合 \(P_{cgp}(s)=\sum_{i=1}^{N} w_s^i \cdot B_i\)，再做带归一化的 token 加权池化得到紧凑提示 \(\bar{p}=\text{LayerNorm}(\frac{1}{L_b}\sum_t P_{cgp}(s)_t)\)——这样就能从有限基集里生成几乎无限多样的定制提示，实现组合泛化。最后是特征精炼与融合（FRF），把合成提示、冻结语义、投影视觉特征三者拼起来过融合 MLP \(\tilde{e}_{ov}(s)=f_{\theta_{frf}}(\text{Concat}(P_{cgp}(s), e_{static}(s), \phi_v(v_s)))\)，产出对未见概念也能用于关系推理的上下文敏感表征。CGP 同样是插件，可无缝增强两阶段和一阶段的标准关系提示。

3. 多正则训练目标：约束提示稀疏、基底正交、表征不漂移。 为了让提示既灵活又稳定，总目标在分类损失 \(L_{cls}\) 之外叠加了一组正则项：对基底和各类提示加 Frobenius 范数约束 \(\lambda_p\|B\|_F^2 + \lambda_{pd}\|P_{det}\|_F^2 + \lambda_{pr}\|P_{rel}\|_F^2\) 防过拟合；用蒸馏项 \(\lambda_d\,\mathbb{E}[\|\tilde{e}-e_{static}\|_2^2]\) 拴住自适应表征不偏离原始语义太远；用正交项 \(\lambda_{orth}\sum_{i<j}\|B_i^\top B_j\|_F^2\) 逼迫不同基底捕捉互补概念；再用门控熵 \(-\beta\sum_i w^i\log w^i\) 和 KL 项 \(\gamma\,\text{KL}(w\,\|\,u_{prior})\) 同时鼓励门控稀疏、多样并贴近先验分布。这套正则保证了在「<0.5M 新增参数」的极小预算下提示仍能学到有判别力又不退化的语义调制。

实验关键数据¶

数据集为 Visual Genome（VG，150 物体类 / 50 关系类）、Open Image V6、GQA，因篇幅只报 VG。评测三个子任务 PredCls / SGCls / SGDet，指标为 R@K、mR@K（长尾鲁棒）、F@K（R 与 mR 的调和平均，近期主流目标）。

主实验表格（VG，节选 PredCls，+APT 为插入本方法）¶

方法	R@50/100	mR@50/100	F@50/100
Motif (CVPR'18)	64.6/66.0	15.2/16.2	24.6/26.0
Motif+APT	66.5/68.2	17.4/18.1	26.4/28.1
PE-Net (CVPR'23)	65.8/67.6	17.7/19.2	27.9/29.9
PE-Net+APT	67.5/69.2	19.3/20.5	29.7/31.6
EGTR (CVPR'24, 一阶段)	54.1/56.6	35.7/38.2	43.0/45.6
EGTR+APT	56.4/58.3	37.5/40.1	45.2/47.7
LLM4SGG (CVPR'24)	62.2/64.1	36.2/39.1	45.7/48.6
LLM4SGG+APT	65.1/66.9	38.1/42.2	47.9/50.3
ST-SGG (ICLR'24)	53.9/57.7	28.1/31.5	36.9/40.8
ST-SGG+APT	58.7/62.3	31.3/34.6	39.9/43.7

涨幅集中在 mR@K（长尾谓词），证明自适应提示缓解了静态特征对高频谓词的偏置；F@K 同步提升说明 mR 的收益不是以牺牲 R 换来的。

开放词表表格（VG，Novel split 节选）¶

方法	Novel R@50/100	Novel mR@50/100	Novel F@50/100
SDSGG (NeurIPS'24)	25.4/29.6	25.2/31.2	25.3/30.4
SDSGG+APT	26.6/31.1	26.7/32.3	27.1/32.3
OvSGTR (ECCV'24)	20.5/23.9	13.5/16.2	16.3/19.3
OvSGTR+APT	21.2/25.0	14.3/17.2	17.1/20.4

未见类（Novel）上 mR@50 最高 +6.0，验证 CGP 能解锁预训练模型里的组合知识。

消融实验表格¶

模型（基于 PE-Net / SDSGG）	关键观察
+D-Prompt only	略升 R@K（更好的物体表征），但对关系推理帮助有限
+R-Prompt only	mR@K 显著提升，直接缓解谓词偏置——关系提示是核心
+Full APT	各指标最佳，两提示协同从检测贯通到关系预测
CGP: +RCG	Novel 涨，视觉上下文条件化是泛化第一步
CGP: +RCG+BPS	Novel mR@50 较 vanilla +3.8，基底合成定制提示是关键
+Full CGP（含 FRF）	调和平均最高，FRF 的非线性融合带来均衡提升

关键发现¶

效率分析：APT 新增参数全程 <0.5M（即使 LLM4SGG 这种大模型也 <1.5% 开销），且对几乎所有模型反而缩短每 epoch 训练时间（一阶段尤其明显，LLM4SGG 减 25%、ST-SGG 减 11.3%），作者归因于上下文感知特征更易优化、加速收敛。
新 Pareto 前沿：LLM4SGG+APT 用 +1.49 性能、−25% 训练时间、−4.6% 参数，证明 APT 在「单位算力性能」上压倒性占优。
IB 验证：APT 相比冻结 GloVe，PCA@90% 从 26 降到 23、离散互信息代理从 1.49 升到 1.96，印证了「保留任务充分信息 + 压缩冗余复杂度」的信息瓶颈解释。

亮点与洞察¶

问题诊断有说服力：用 t-SNE 可视化 + silhouette / 参与率 / PCA@90 / 互信息代理一整套定量诊断，把「冻结语义先验是 SGG 根本瓶颈」从直觉变成可量化的证据，比单纯换架构更有洞见。
「调制解调器」类比抓得准：提示不是当前缀，而是携带视觉信息去调制冻结语义信号，这个视角让 prompt tuning 在结构化视觉任务里的作用一目了然。
真·通用插件：同一范式覆盖两阶段、一阶段、开放词表三类框架，且用 D/R/Pur 三种提示自然适配不同架构的阶段结构，而非生硬套用。
省参数还省时间：插件类工作常以增加开销换性能，APT 反而缩短训练时间，这个反直觉结果（自适应特征加速收敛）是很实用的卖点。

局限与展望¶

只报了 VG：虽然提到 Open Image V6 和 GQA，但因页限只给 VG 结果，跨数据集的通用性证据不够充分。
正则项超参偏多：训练目标里有 \(\lambda_p, \lambda_{pd}, \lambda_{pr}, \lambda_d, \lambda_{orth}, \beta, \gamma, \lambda_w\) 一大串系数，实际调参成本和敏感性论文未充分讨论。
绝对 mR 仍偏低：长尾谓词的 mR@K 即便涨点后整体数值仍不高（如 SGDet 多在 10–20），说明 SGG 长尾问题远未解决，APT 是缓解而非根治。
依赖底层语义模型质量：提示调制的上限受冻结语义骨干内部结构限制，诊断也显示「换更强模型只是结构更丰富、仍错位」，提示能否突破这层天花板有待探讨。

评分¶

新颖性: ⭐⭐⭐⭐ — 把 SGG 瓶颈从架构重定位到表征范式，并用 prompt 调制 + 信息瓶颈给出统一解释，视角新颖且诊断扎实。
实验充分度: ⭐⭐⭐⭐ — 覆盖两/一阶段 + 开放词表共十余个 baseline，主实验 / 消融 / 效率 / IB 代理俱全；但只报 VG 略减分。
写作质量: ⭐⭐⭐⭐ — 问题动机层层递进、图表诊断清晰，「调制解调器」类比让方法易懂。
价值: ⭐⭐⭐⭐ — 即插即用、<1.5% 参数还省训练时间，对 SGG 社区是低成本高回报的通用增益，落地价值高。