Rethink Sparse Signals for Pose-guided Text-to-Image Generation¶

会议: ICCV 2025
arXiv: 2506.20983
代码: GitHub (论文提及 "Codes are available here")
领域: 图像生成 / 姿态引导生成 / ControlNet
关键词: Sparse Pose, OpenPose, ControlNet, Keypoint Concept Learning, Spatial Controllable Generation

一句话总结¶

提出 SP-Ctrl（Spatial-Pose ControlNet），通过可学习空间姿态表示（SPR）和关键点概念学习（KCL）两个核心策略，使稀疏信号（OpenPose）在姿态引导文生图任务中达到与稠密信号（深度图、DensePose）相当的姿态对齐精度，同时保留稀疏信号在多样性生成和跨物种泛化上的天然优势。

研究背景与动机¶

问题背景¶

姿态引导文生图（T2I）生成是一个重要任务，涉及人体/动物中心的图像生成、动画驱动和条件 3D 生成等应用。近期方法倾向使用稠密信号（depth map、normal map、DensePose、SMPL）来获得更精确的姿态控制。然而稠密信号存在明显缺陷： 1. 不灵活：通常需要从参考图像提取，难以创建和编辑 2. 与文本矛盾：对物体形状和轮廓施加强约束，可能与文本提示冲突导致生成质量下降

稀疏信号的优势¶

形状无关：作为解剖学抽象，不限制具体形态
类别无关：关键点定义在物种间共享（如哺乳动物），提供统一姿态表示
可操作性：不依赖参考图像，创建和编辑自由度高

核心挑战¶

稀疏信号（如 OpenPose）的姿态控制精度远不如稠密信号——关键问题在于： 1. OpenPose 本为可视化设计：RGB 颜色编码几乎不提供有效信息，甚至可能混淆关键点的区分 2. 稀疏性导致空间感知困难：点状和线段指令对模型来说难以精确感知和跟随

方法详解¶

整体框架¶

SP-Ctrl 构建在 Stable Diffusion v1.5 + ControlNet 之上，包含三个组件：(1) 空间姿态嵌入模块渲染学习后的空间姿态表示；(2) 可学习关键点文本嵌入用于关键点概念学习；(3) ControlNet adapter 注入空间条件到冻结的 SD 模型。

关键设计一：Spatial-Pose Representation (SPR)¶

将 OpenPose 的固定 RGB 关键点颜色替换为可学习嵌入。具体地，空间姿态嵌入模块 \(\mathcal{G}(\cdot; \phi)\) 将随机初始化向量 \(\boldsymbol{E}_0 = \{\boldsymbol{e}_k \in \mathbb{R}^{1 \times C}\}_{k=1}^N\) 映射为关键点嵌入：

\[\boldsymbol{E}_{kpt} = \mathcal{G}(\boldsymbol{E}_0; \phi)\]

\(\mathcal{G}\) 是由堆叠线性层和 LayerNorm 组成的 MLP，其参数 \(\phi\) 通过去噪任务的梯度自适应优化。骨架嵌入设为全 1 向量 \(\boldsymbol{e}_{sks} = \mathbf{1}^{1 \times C'}\)。最终渲染多通道骨架姿态图 \(\boldsymbol{I}_{sp} \in \mathbb{R}^{H \times W \times C'}\) 作为 ControlNet 输入。

关键发现： - 随机初始化 >> 文本嵌入初始化（mAP 高 0.88%，因文本和空间表示空间存在差异） - 固定 \(\boldsymbol{E}_0\) + 可学习 \(\mathcal{G}\) >> 可学习 \(\boldsymbol{E}_0\)（更稳定的优化） - 甚至 1 通道嵌入就能取得竞争性表现——说明学习后的表示高度富有表达力

关键设计二：Keypoint Concept Learning (KCL)¶

受交叉注意力图与关键点位置的空间关联性启发，引入可学习关键点 token 并通过热图约束增强注意力对齐：

引入关键点 token：为每个关键点描述（如 eye、nose、elbow）添加新文本 token \(\{\langle \boldsymbol{k}_i \rangle\}_{i=1}^N\)，对应可学习嵌入 \(\mathcal{V}_{kpt} = \{\boldsymbol{v}^*_i \in \mathbb{R}^{768}\}_{i=1}^N\)
热图约束损失：提取交叉注意力图 \(\mathcal{M}_{kpt}\)，鼓励其与关键点高斯热图 \(\mathcal{H}\) 对齐：

\[\mathcal{L}_{ht} = \frac{1}{|\mathcal{M}_{kpt}|} \cdot \frac{1}{H'W'} \sum_{v_i \geq 1} \|(\mathcal{M}_i - \mathcal{H}_i)\|^2\]

梯度截断：对 noisy image query \(Q\) 的梯度进行 detach 以避免信息泄露导致的外观坍塌

训练目标¶

联合优化空间嵌入模块、关键点嵌入和 ControlNet adapter：

\[\phi^*, \boldsymbol{V}_{kpt}^*, \Theta^* = \arg\min_{\phi, v_i^*, \Theta} \mathcal{L}_{ldm} + \eta \cdot \mathcal{L}_{ht}\]

其中 \(\eta = 0.1\)，热图约束仅在 250∼500 时间步、U-Net 第 3 个 Transformer block 上计算。

实验¶

主实验结果¶

数据集	方法	Pose mAP↑	FID↓	CLIP-Score↑	Detection AP.75↑
AP-10K	T2I-Adapter	48.16	27.29	25.52	24.23
AP-10K	ControlNet	44.25	19.40	24.77	24.35
AP-10K	SP-Ctrl	55.63	18.52	23.86	25.10
Human-Art	ControlNet	45.26	26.69	27.84	8.18
Human-Art	HumanSD†	49.92	35.18	27.35	8.29
Human-Art	GRPose†	50.93	28.85	27.95	6.51
Human-Art	SP-Ctrl	51.11	29.30	25.94	9.11

在 AP-10K 上 SP-Ctrl 的姿态 mAP 比 ControlNet 基线提升 11.38%，FID 低 0.88；在 Human-Art 上达到与 SOTA GRPose 相当的 mAP（51.11 vs 50.93），无需额外预训练姿态估计器。

消融实验¶

方法	Pose mAP↑	FID↓	CLIP-Score↑
ControlNet (baseline)	44.25	19.40	24.77
+ Spatial Pose (SPR)	52.85	19.67	24.62
+ KCL	51.34	18.94	24.09
SP-Ctrl (两者结合)	55.63	18.52	23.86

SPR 单独提升 8.60% mAP，KCL 单独提升 7.09% mAP，两者结合时效果叠加，达到最优 55.63%。

KCL 细粒度消融¶

组件	mAP↑
ControlNet + OpenPose (baseline)	44.25
+ \(\mathcal{V}_{kpt}\) (仅关键点token)	50.38
+ \(\mathcal{V}_{kpt}\) + \(\mathcal{L}_{ht}\) (热图约束)	51.34

关键点 token 本身提升 6.13%，热图约束进一步提升。时间步 250∼500 对概念形成最关键；U-Net 第 3 个 Transformer block 的注意力图贡献最大。

稀疏 vs 稠密信号对比¶

SP-Ctrl 使用稀疏信号达到的 mAP 与稠密信号（depth map）方法可比，同时在图像多样性和跨物种泛化上具有天然优势——同一套稀疏关键点可驱动不同物种的生成。

亮点与洞察¶

重新审视稀疏信号的价值：在稠密信号主导的趋势中，证明稀疏信号经过合理增强后可达到竞争性精度，同时保留形状/类别无关的优势
OpenPose 颜色编码的负面影响：实验证明固定 RGB 颜色甚至会混淆关键点识别，学习后的嵌入即使只有 1 个通道也更有效
利用交叉注意力的空间对应性：发现去噪 U-Net 的 cross-attention 自然与关键点位置存在空间对齐，通过热图约束显式强化这一对应
极低额外推理开销：SPR 和 KCL 在推理时几乎不增加计算量（SPR 只是替换输入表示，KCL 只添加少量 text token）
跨物种泛化：同一模型可从鱼类关键点生成鸟类图像，展现稀疏信号的类别无关性

局限性¶

基于 SD v1.5，未在更新的扩散模型架构上验证
CLIP-Score 由于去除了新引入的关键点 token 而略有下降（约 0.68），虽然视觉质量良好
关键点定义仍需预先指定，无法自动发现新类别的关键点
在遮挡严重或关键点缺失较多的情况下表现未详细分析

评分¶

新颖性：⭐⭐⭐⭐ — 重新审视稀疏信号并提出两个简洁有效的增强策略
技术深度：⭐⭐⭐⭐ — 对 OpenPose 编码问题和注意力机制的分析深入
实验充分度：⭐⭐⭐⭐ — 动物+人体两个数据集，详尽的消融实验
实用价值：⭐⭐⭐⭐ — 推理无额外开销，与 ControlNet 兼容，跨物种泛化性好