跳转至

Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers

会议: CVPR 2026
arXiv: 2601.06338
代码: 无明确仓库链接
领域: Image Generation
关键词: 扩散Transformer, 可解释性, 空间关系, 交叉注意力电路, 文本编码器

一句话总结

通过机制可解释性方法,揭示了扩散Transformer中空间关系生成的两种截然不同的电路机制:随机文本编码器使用"关系头+物体头"的两阶段模块化电路,而 T5 编码器将关系信息融入物体 token 中通过单 token解码,后者在域外扰动下更脆弱。

研究背景与动机

领域现状:T2I 模型在生成单物体属性方面进步显著,但多物体空间关系(上下左右等)的生成能力提升缓慢。

现有痛点:(a) 有人认为失败在于交叉注意力不够集中,提出注意力引导;(b) 有人认为问题在于文本编码器不充分保留空间信息。两种观点缺乏统一的机制解释。

核心矛盾:模型如何内部编码和使用非交换关系("A在B上方"≠"B在A上方")仍然不清楚。

本文目标:理解 DiT 如何在内部实现正确的空间关系生成,以及为什么会失败。

切入角度:在最小可控数据集上从零训练 DiT,使用机制可解释性工具(注意力概要、QK 电路分析、因果干预)逆向工程内部电路。

核心 idea:文本编码器的选择决定了 DiT 的关系生成电路——这不仅影响性能,还影响鲁棒性。

方法详解

整体框架

构建最小关系数据集(2 物体 × 8 空间关系 × 形状/颜色组合),训练多种配置的 PixArt 式 DiT(不同规模 × 不同文本编码器:RTE/T5/CLIP),通过注意力概要和因果操作分析内部电路。

关键设计

  1. 注意力概要 (Attention Synopsis):面对海量注意力图(层×头×时间步×条件/无条件×token),开发了可扩展的分析范式:

    • 将 token 按类别分组(图像 token 按物体分割,文本 token 按语义属性)
    • 聚合同类 token 对之间的注意力能量
    • 对时间步取均值,得到 [层×头] 的概要图 设计动机:逐一检查百万级注意力图不可行,类别聚合保留语义信息的同时大幅降维。
  2. RTE-DiT 的两阶段电路发现

    • 空间关系头 (L2H8):图像 token 通过 QK 电路读取关系文本 token。Q 来自正弦位置编码,K 来自关系词嵌入,内积产生与空间关系一致的梯度图(如"上方"对应垂直梯度)。此头在采样步骤 0 就激活,写入"位置标签"标记物体应放置的区域。
    • 物体生成头 (L4H3):读取带"位置标签"的图像 token 和物体形状文本 token 的对应关系。在 L2H8 的 VO 输出注入位置编码后,L4H3 显示出正确的选择性注意力。在步骤 4-8 激活。

设计动机:两阶段电路类似胚胎发育中的分子梯度引导——L2H8 建立"位置场",L4H3 读取场并生成物体。

  1. T5-DiT 的不同电路

    • T5 的自注意力将整句信息融入各 token,DiT 从 shape2 token 解码空间关系和物体信息
    • 方差分解验证 shape2 token 编码了关系(~12% partial R²)、shape(~37.5%)、color(~4.7%)
    • 经 DiT MLP 投影后关系占比放大至 ~21%
    • 因果操作:对 shape2 嵌入做向量算术(减去原关系向量+加新关系向量)可改变生成位置

设计动机:T5 的上下文表示将关系信息分散在多个 token 中,DiT 采用更紧凑但更脆弱的"从一个 token 解码所有信息"策略。

评估指标

四维评估:color(颜色存在性)、shape(形状存在性)、unique_binding(形状-颜色绑定正确性)、spatial_relation(空间关系正确性)。使用 cv2 分割和分类工具评估。

实验关键数据

主实验 — 模型对比

模型 Color Acc Shape Acc Binding Acc Relation Acc
RTE-DiT-B 高 (~67%)
T5-DiT-B
RTE (无位置编码)
DiT-nano (任何编码器) 极低 (5%)

消融实验 — 因果干预

干预 效果 说明
消融 L2H8 关系注意力 Relation Acc 67%→33% 确认关系头因果作用
消融 L4H3 物体注意力 Shape Acc 90%→76% 确认物体头因果作用
消融其他头 基本无影响 电路高度集中
T5-DiT 消融关系词 基本无影响 关系信息已融入物体token
T5-DiT 消融 shape2 所有指标降50% 核心信息源

鲁棒性对比

扰动类型 RTE-DiT 关系准确率 T5-DiT 关系准确率
原始提示
插入"the"填充词 稳定 大幅下降
同义颜色替换 稳定 下降
句子反转 稳定 下降

关键发现

  1. 模块化 vs 紧凑:RTE-DiT 的两阶段电路模块化(关系和物体分离处理),T5-DiT 的单 token 解码更紧凑但更不鲁棒。
  2. 文本编码器是瓶颈:T5 的上下文混合虽然帮助更快收敛,但使得 DiT 的关系表示变得脆弱——填充词扰动就能破坏 shape2 中的关系信息。
  3. 位置编码是必需的:无位置编码的 RTE 因文本排列不变性而无法区分"A在B上"和"B在A上"。
  4. 最小模型阈值:DiT-nano 无法形成空间关系头(Relation Acc 5%),说明需要最低容量。
  5. PixArt-Sigma 验证:在预训练大模型中也发现了类似(虽然较弱)的空间电路,验证了分析工具的迁移性。

亮点与洞察

  • 胚胎发育类比极其精彩:关系头产生的空间梯度类似于胚胎发育中引导细胞分化的分子梯度——位置标签就像发育中的形态发生素。
  • 统一了两种观点:交叉注意力和文本编码器确实都参与空间关系生成,但机制取决于编码器选择。
  • 向量算术实验是强因果证据:\(V_{shape2}^* - V_{lower\_left} + 3V_{lower\_right}\) 能精确控制物体位置。
  • 注意力概要方法是通用工具,可推广到其他大型 DiT 分析。

局限与展望

  • 最小数据集仅含简单几何形状,真实物体的关系生成电路可能更复杂。
  • 对预训练 PixArt-Sigma 的分析仅为初步(8/30 物体对有效),需更系统验证。
  • 仅分析 8 种空间关系,未涵盖大小关系、包含关系等。
  • 未提出基于发现的具体改进方案(如设计更鲁棒的文本编码器)。

相关工作与启发

  • 与 Transformer Circuits Thread 的 QK 电路分析方法一脉相承,但首次应用于扩散模型。
  • 对 T2I 模型设计有重要指导:如果关系生成重要,可能应设计保持文本 token 独立性的编码器。
  • 为"为什么 CLIP/T5 作为文本编码器强弱不同"提供了电路级解释。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次揭示 DiT 空间关系生成的具体电路机制
  • 实验充分度: ⭐⭐⭐⭐⭐ 注意力分析+权重空间筛选+因果干预+鲁棒性测试+预训练模型验证
  • 写作质量: ⭐⭐⭐⭐⭐ 叙事流畅,胚胎发育类比精彩,图示清晰
  • 价值: ⭐⭐⭐⭐⭐ 对理解和改善 T2I 空间关系生成有深远意义