Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers¶

会议: CVPR 2026
arXiv: 2601.06338
代码: 无明确仓库链接
领域: Image Generation
关键词: 扩散Transformer, 可解释性, 空间关系, 交叉注意力电路, 文本编码器

一句话总结¶

通过机制可解释性方法，揭示了扩散Transformer中空间关系生成的两种截然不同的电路机制：随机文本编码器使用"关系头+物体头"的两阶段模块化电路，而 T5 编码器将关系信息融入物体 token 中通过单 token解码，后者在域外扰动下更脆弱。

研究背景与动机¶

领域现状：T2I 模型在生成单物体属性方面进步显著，但多物体空间关系（上下左右等）的生成能力提升缓慢。

现有痛点：(a) 有人认为失败在于交叉注意力不够集中，提出注意力引导；(b) 有人认为问题在于文本编码器不充分保留空间信息。两种观点缺乏统一的机制解释。

核心矛盾：模型如何内部编码和使用非交换关系（"A在B上方"≠"B在A上方"）仍然不清楚。

本文目标：理解 DiT 如何在内部实现正确的空间关系生成，以及为什么会失败。

切入角度：在最小可控数据集上从零训练 DiT，使用机制可解释性工具（注意力概要、QK 电路分析、因果干预）逆向工程内部电路。

核心 idea：文本编码器的选择决定了 DiT 的关系生成电路——这不仅影响性能，还影响鲁棒性。

方法详解¶

整体框架¶

构建最小关系数据集（2 物体 × 8 空间关系 × 形状/颜色组合），训练多种配置的 PixArt 式 DiT（不同规模 × 不同文本编码器：RTE/T5/CLIP），通过注意力概要和因果操作分析内部电路。

关键设计¶

注意力概要 (Attention Synopsis)：面对海量注意力图（层×头×时间步×条件/无条件×token），开发了可扩展的分析范式：
- 将 token 按类别分组（图像 token 按物体分割，文本 token 按语义属性）
- 聚合同类 token 对之间的注意力能量
- 对时间步取均值，得到 [层×头] 的概要图设计动机：逐一检查百万级注意力图不可行，类别聚合保留语义信息的同时大幅降维。
RTE-DiT 的两阶段电路发现：
- 空间关系头 (L2H8)：图像 token 通过 QK 电路读取关系文本 token。Q 来自正弦位置编码，K 来自关系词嵌入，内积产生与空间关系一致的梯度图（如"上方"对应垂直梯度）。此头在采样步骤 0 就激活，写入"位置标签"标记物体应放置的区域。
- 物体生成头 (L4H3)：读取带"位置标签"的图像 token 和物体形状文本 token 的对应关系。在 L2H8 的 VO 输出注入位置编码后，L4H3 显示出正确的选择性注意力。在步骤 4-8 激活。

设计动机：两阶段电路类似胚胎发育中的分子梯度引导——L2H8 建立"位置场"，L4H3 读取场并生成物体。

T5-DiT 的不同电路：
- T5 的自注意力将整句信息融入各 token，DiT 从 shape2 token 解码空间关系和物体信息
- 方差分解验证 shape2 token 编码了关系（~12% partial R²）、shape（~37.5%）、color（~4.7%）
- 经 DiT MLP 投影后关系占比放大至 ~21%
- 因果操作：对 shape2 嵌入做向量算术（减去原关系向量+加新关系向量）可改变生成位置

设计动机：T5 的上下文表示将关系信息分散在多个 token 中，DiT 采用更紧凑但更脆弱的"从一个 token 解码所有信息"策略。

评估指标¶

四维评估：color（颜色存在性）、shape（形状存在性）、unique_binding（形状-颜色绑定正确性）、spatial_relation（空间关系正确性）。使用 cv2 分割和分类工具评估。

实验关键数据¶

主实验 — 模型对比¶

模型	Color Acc	Shape Acc	Binding Acc	Relation Acc
RTE-DiT-B	高	高	高	高 (~67%)
T5-DiT-B	高	高	高	高
RTE (无位置编码)	高	高	低	低
DiT-nano (任何编码器)	高	中	低	极低 (5%)

消融实验 — 因果干预¶

干预	效果	说明
消融 L2H8 关系注意力	Relation Acc 67%→33%	确认关系头因果作用
消融 L4H3 物体注意力	Shape Acc 90%→76%	确认物体头因果作用
消融其他头	基本无影响	电路高度集中
T5-DiT 消融关系词	基本无影响	关系信息已融入物体token
T5-DiT 消融 shape2	所有指标降50%	核心信息源

鲁棒性对比¶

扰动类型	RTE-DiT 关系准确率	T5-DiT 关系准确率
原始提示	高	高
插入"the"填充词	稳定	大幅下降
同义颜色替换	稳定	下降
句子反转	稳定	下降

关键发现¶

模块化 vs 紧凑：RTE-DiT 的两阶段电路模块化（关系和物体分离处理），T5-DiT 的单 token 解码更紧凑但更不鲁棒。
文本编码器是瓶颈：T5 的上下文混合虽然帮助更快收敛，但使得 DiT 的关系表示变得脆弱——填充词扰动就能破坏 shape2 中的关系信息。
位置编码是必需的：无位置编码的 RTE 因文本排列不变性而无法区分"A在B上"和"B在A上"。
最小模型阈值：DiT-nano 无法形成空间关系头（Relation Acc 5%），说明需要最低容量。
PixArt-Sigma 验证：在预训练大模型中也发现了类似（虽然较弱）的空间电路，验证了分析工具的迁移性。

亮点与洞察¶

胚胎发育类比极其精彩：关系头产生的空间梯度类似于胚胎发育中引导细胞分化的分子梯度——位置标签就像发育中的形态发生素。
统一了两种观点：交叉注意力和文本编码器确实都参与空间关系生成，但机制取决于编码器选择。
向量算术实验是强因果证据：\(V_{shape2}^* - V_{lower\_left} + 3V_{lower\_right}\) 能精确控制物体位置。
注意力概要方法是通用工具，可推广到其他大型 DiT 分析。

局限与展望¶

最小数据集仅含简单几何形状，真实物体的关系生成电路可能更复杂。
对预训练 PixArt-Sigma 的分析仅为初步（8/30 物体对有效），需更系统验证。
仅分析 8 种空间关系，未涵盖大小关系、包含关系等。
未提出基于发现的具体改进方案（如设计更鲁棒的文本编码器）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示 DiT 空间关系生成的具体电路机制
实验充分度: ⭐⭐⭐⭐⭐ 注意力分析+权重空间筛选+因果干预+鲁棒性测试+预训练模型验证
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，胚胎发育类比精彩，图示清晰
价值: ⭐⭐⭐⭐⭐ 对理解和改善 T2I 空间关系生成有深远意义