ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation¶

会议: CVPR 2026
arXiv: 2603.19157
代码: 有 (论文中提到 Code is available)
领域: 扩散模型 / 图像生成
关键词: 稀有概念生成, Prompt调度, 正交投影, 注意力机制, 文本-图像对齐

一句话总结¶

提出 ADAPT 框架，通过注意力驱动的自适应 Prompt 调度（APS）、池化嵌入操控（PEM）和潜空间操控（LSM）三个零样本模块，确定性且语义对齐地控制从通用到罕见概念的生成过渡，在 RareBench 上显著超越 R2F 基线。

研究背景与动机¶

文本到图像扩散模型在生成常见物体方面表现优秀，但面对训练数据中罕见或缺失的组合概念（如"香蕉形状的汽车"、"黑白棋盘鳄鱼"）时，已有属性绑定方法（SynGen、Attend & Excite）仍力不从心。R2F 方法通过 GPT-4o 构建"频繁-罕见"概念对并进行 Prompt 调度来缓解此问题，但存在三个核心缺陷：

GPT-4o 的随机性导致方差大：同一 prompt 的视觉细节等级输出不一致，导致调度不稳定

固定停止点缺乏语义对齐：线性映射的停止点是启发式的，无法随生成过程中的 token 语义进展自适应

迭代切换带来的语义不连续：在罕见和频繁 prompt 之间反复切换文本嵌入，难以提供一致的语义指导

ADAPT 的核心 idea 是：用注意力分数的收敛行为替代 GPT-4o 的主观评判来决定概念切换时机，同时用正交分解在嵌入空间中解耦罕见语义，提供全程一致的生成引导。

方法详解¶

整体框架¶

ADAPT 在 Stable Diffusion 3（MM-DiT）架构上引入三个互补的零样本控制模块，无需额外训练或微调： - APS（自适应 Prompt 调度）：基于注意力分数确定最优停止点 - PEM（池化嵌入操控）：在 CLIP 池化嵌入层面提供一致的罕见语义引导 - LSM（潜空间操控）：在 Transformer 注意力层内注入属性特定的方向引导

关键设计¶

自适应 Prompt 调度（APS）：
- 功能：确定性地决定何时从频繁概念过渡到罕见概念
- 核心思路：构建两类重建 prompt——进展 prompt \(y_{\text{prog}}\)（逐步过渡）和目标 prompt \(y_{\text{tar}}\)（包含所有罕见概念），在去噪过程中交替使用。利用转换计数器 \(P_{\text{trans}}\) 追踪已完成的概念替换数
- 关键公式：对目标 prompt 中每个 token 计算注意力响应分数 \(z_i = \max(\mathbf{A}^c_{y_{\text{tar},i}})\)，取剩余未转换概念数 \(k = m - P_{\text{trans}}\) 对应的 top-k 分数 \(s^{(k)}\)；当 \(s^{(k)} < \tau_s\) 时触发转换
- 设计动机：空间注意力在生成过程中逐渐收敛，区分罕见/频繁概念的 token 收敛最慢。利用这一收敛特性作为语义特征饱和的指示器，实现语义对齐的调度，消除了对 GPT-4o 的依赖
池化嵌入操控（PEM）：
- 功能：在整个生成过程中提供一致的、解耦的罕见语义引导
- 核心思路：将罕见 prompt 的池化嵌入 \(\boldsymbol{c}_{r,\text{pool}}\) 正交投影到频繁嵌入 \(\boldsymbol{c}_{f,\text{pool}}\) 上，提取罕见特有的语义方向： \(\Delta_r = \boldsymbol{c}_{r,\text{pool}} - \frac{\boldsymbol{c}_{f,\text{pool}} \cdot \boldsymbol{c}_{r,\text{pool}}}{\|\boldsymbol{c}_{f,\text{pool}}\|^2} \cdot \boldsymbol{c}_{f,\text{pool}}\)
- 自适应权重：通过余弦相似度驱动的 sigmoid 函数 \(\delta(\gamma) = \frac{s}{1 + e^{-p(\gamma - \epsilon)}}\) 动态调节插值强度，最终嵌入为 \(\boldsymbol{c}_{\text{pool}} = (1 - \lambda_{\text{pool}}) \cdot \boldsymbol{c}_{f,\text{pool}} + \lambda_{\text{pool}} \cdot \delta(\gamma) \cdot \Delta_r\)
- 设计动机：R2F 在罕见/频繁 prompt 之间迭代切换嵌入导致语义不连续；PEM 通过正交分解提取罕见特有方向并自适应融合，提供稳定且解耦的全程引导
潜空间操控（LSM）：
- 功能：为语义差异较大的概念对提供属性级别的方向引导
- 核心思路：从 LLM 提取属性文本（如"made of steel"），计算属性嵌入在注意力层输出中的正交分量： \(l'_\theta(x_t, \boldsymbol{c}_{\text{attr}}, t) = l_\theta(x_t, \boldsymbol{c}_{\text{attr}}, t) - \frac{l_\theta(x_t, \boldsymbol{c}_{\text{attr}}, t) \cdot l_\theta(x_t, \boldsymbol{c}_\phi, t)}{\|l_\theta(x_t, \boldsymbol{c}_\phi, t)\|^2} \cdot l_\theta(x_t, \boldsymbol{c}_\phi, t)\)
- 最终表示为 \(\hat{l}_\theta = l_\theta(x_t, \tilde{\boldsymbol{c}}_t, t) + \lambda_{\text{attr}} \cdot l'_\theta(x_t, \boldsymbol{c}_{\text{attr}}, t)\)
- 设计动机：当频繁和罕见 prompt 差异极大时（如"金属类人形体" vs "钢铁小丑"），PEM 的嵌入层操控不足；LSM 在特征层面注入更细粒度的属性引导

训练策略¶

ADAPT 是完全 training-free 的框架： - 超参数：\(\tau_s = 0.025\)，\(\lambda_{\text{pool}} = 0.3\)，\((s, p, \epsilon) = (2.0, 100, 0.93)\)，\(\lambda_{\text{attr}} = 0.15\) - 推理步数：\(T = 50\)，使用固定随机种子 42 - 所有实验在单张 NVIDIA A6000 GPU 上完成

实验关键数据¶

主实验¶

在 RareBench 基准上使用 GPT-4o 评估文本-图像对齐性能：

方法	Property	Shape	Texture	Action	Single Complex	Concat	Relation	Multi Complex	Avg
SD3.0	49.4	76.3	53.1	71.9	65.0	55.0	51.2	70.0	61.5
FLUX	58.1	71.9	47.5	52.5	60.0	55.0	48.1	70.3	57.9
Attend & Excite	55.0	38.8	33.8	23.1	36.9	23.1	24.4	36.3	33.9
R2F (SD3)	89.4	79.4	81.9	80.0	72.5	70.0	58.8	73.8	75.7
ADAPT (Ours)	96.3	88.8	83.8	81.9	79.4	76.9	75.0	82.5	83.1

ADAPT 在所有类别上均超越 R2F，平均提升 +7.4%，其中 Single Shape +9.4，Multi Relation +16.2 提升最为显著。

消融实验¶

各模块的增量贡献（Table 2）：

方法	Property	Shape	Action	Avg
R2F (SD3)	89.4	79.4	80.0	75.7
+ PEM (w/o Adaptive)	90.0	84.4	71.9	78.4
+ PEM	92.5	91.3	69.4	79.8
+ PEM + LSM	92.5	91.3	71.9	80.4
+ PEM + APS	96.3	88.8	77.5	80.7
+ PEM + LSM + APS (Full)	96.3	88.8	81.9	83.1

注意力分数提取策略对比（Table 4）：使用所有 token（不含 SOS）的策略最优（Avg 83.1），表明对全体 token 的注意力监控比仅监控名词或罕见短语更有效。

关键发现¶

PEM 的自适应权重（基于余弦相似度）比固定权重提升 +1.4%，验证了自适应尺度的必要性
APS 在 PEM 基础上额外带来约 +1% 的提升，且消除了 GPT-4o 依赖
LSM 主要在语义差异大的概念对上发挥作用（如 Action/Texture 类别）

亮点与洞察¶

注意力收敛即语义饱和：发现空间注意力收敛可作为概念生成完成度的指示器，这一洞察具有普遍性
正交投影解耦语义：在 CLIP 嵌入空间用 Gram-Schmidt 正交化提取罕见特有方向，思路简洁优雅
多层次操控互补：PEM（嵌入层）+ LSM（特征层）+ APS（时间调度层）三个层面完整覆盖
完全 training-free：作为即插即用的推理增强方案，实用性强

局限与展望¶

依赖 SD3 架构的 MM-DiT 设计，对其他架构（如 UNet-based）的适配未验证
仍需 LLM（GPT-4o）进行概念映射和属性提取，只是消除了其在"视觉细节评分"上的依赖
超参数（\(\tau_s\), \(\lambda_{\text{pool}}\), \(\lambda_{\text{attr}}\) 等）跨模型/跨任务的鲁棒性未充分讨论
计算开销（额外的注意力分数提取和正交投影）未量化

评分¶

新颖性: ⭐⭐⭐⭐ 正交解耦+注意力驱动调度的组合有创新性，但核心idea建立在R2F框架之上
实验充分度: ⭐⭐⭐⭐ RareBench单一基准上的全面消融，但缺少其他benchmark和用户研究的主文展示
写作质量: ⭐⭐⭐⭐ 动机清晰、方法叙述完整，公式推导清楚
价值: ⭐⭐⭐⭐ 对罕见概念生成有实际帮助，training-free特性增强了实用性