A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers¶

会议: ICLR 2026
arXiv: 2602.21596
代码: 有
领域: 扩散模型
关键词: diffusion transformer, conditioning, embedding sparsity, cosine similarity, AdaLN

一句话总结¶

对扩散 Transformer 的条件嵌入进行首次系统分析，发现极端的角度相似性（类间余弦相似度>99%）和维度稀疏性（仅 1-2% 的维度携带语义信息），裁剪掉 2/3 的低幅维度后生成质量基本不变，揭示了条件嵌入中隐藏的语义瓶颈。

领域现状：DiT、SiT、REPA 等基于 Transformer 的扩散模型通过 AdaLN 注入条件信号（类标签+时间步的嵌入向量），取得了 SOTA 生成性能。

现有痛点：尽管条件嵌入是扩散 Transformer 的核心组件，其内部结构和语义编码方式几乎完全未知——没有人分析过这些嵌入长什么样。

核心矛盾：1000 个类别的条件嵌入在 1152 维空间中竟然高度相似（>99% 余弦相似度），但模型仍然能够正确区分类别生成高质量图像——这种"几乎相同的向量如何产生完全不同的图像"的矛盾需要解释。

本文目标 系统理解扩散 Transformer 如何编码和使用条件信号。

切入角度：直接分析学到的条件向量——测量余弦相似度、维度参与率、方差分布，并通过裁剪实验验证哪些维度重要。

核心 idea：扩散 Transformer 将语义信息压缩到条件嵌入的极少数"头部"维度中，其余大量"尾部"维度是冗余的。

纯分析论文，无新方法。三个发现：(1) 极端相似性；(2) 稀疏表示；(3) 冗余可裁剪。覆盖 6 个 ImageNet SOTA 模型 + 2 个连续条件任务（姿态引导人像生成、视频-音频生成）。

极端角度相似性分析:
- 发现：1000 个 ImageNet 类别的条件嵌入两两余弦相似度达 99%+（REPA 达 99.46%）。连续条件任务（姿态/视频）更甚，达 99.9%+
- 解释假说：扩散训练跨所有时间步优化嵌入，模型偏好能提供稳定去噪信号的全局对齐嵌入。语义差异编码在少数高幅头部维度中
参与率（Participation Ratio）分析:
- 度量：\(\alpha_{norm} = \text{PR}(|c|) / d\)，衡量有效使用的维度比例
- 发现：SOTA 模型（MDT/REPA/MG）的 nPR 仅 1.5-2.3%，即 1152 维中仅 ~18-26 维有效。DiT 例外（10.5%）因为较老的架构
- 连续任务的 nPR 更高（13-48%），因为需要编码更细粒度的连续条件信息
裁剪实验——头部 vs 尾部维度的角色:
- 尾部裁剪（τ=0.01）：移除 38.9% 的低幅维度，FID 从 7.17 变为 7.16（基本不变！）
- 尾部裁剪（τ=0.02）：移除 66.2% 的维度，FID 从 7.17 升至 9.22（仍可接受）
- 头部裁剪：仅移除 2/1152（0.2%）的最高幅维度 → FID 略升（7.85），移除 8/1152（0.69%）→ FID 暴涨至 523！
- 结论：语义完全集中在少数头部维度

N/A（分析论文，不训练模型）

模型	维度	nPR	余弦相似度
DiT-XL	1152	10.47%	90.01%
MDT-XL	1152	1.60%	99.05%
SiT-XL	1152	2.28%	98.52%
REPA-XL	1152	1.53%	99.46%
LightningDiT	1152	2.05%	97.79%
X-MDPT (姿态)	1024	48.42%	99.98%
MDSGen (音频)	768	13.57%	99.99%

裁剪	移除维度	FID↓	IS↑	CLIP↑
无裁剪	0%	7.17	176.0	29.75
尾部 τ=0.01	38.9%	7.16	176.0	29.81
尾部 τ=0.02	66.2%	9.22	125.2	29.22
头部 τ=5.0	0.2% (2维)	7.85	164.2	29.56
头部 τ=1.0	0.69% (8维)	523.8	1.95	22.69