ICLR 2026 图像生成长文本到图像组合生成能量模型提示分解扩散模型训练无关泛化

Long-Text-to-Image Generation via Compositional Prompt Decomposition¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jxyEci13Dd
代码: jy-joy.github.io/PRISM（项目主页）
领域: 图像生成 / 长文本到图像
关键词: 长文本到图像, 组合生成, 能量模型, 提示分解, 扩散模型, 训练无关泛化

一句话总结¶

PRISM 把一段冗长的描述性提示在文本表示空间里"折射"成若干语义组件，让冻结的预训练 T2I 模型对每个组件独立去噪、再用能量模型的概念合取（concept conjunction）把噪声预测加和成一步组合去噪，从而在不微调主干、不损失细节的前提下，让 T2I 模型能渲染 500+ token 的长段落。

研究背景与动机¶

领域现状: 现代文生图（T2I）扩散模型在简短提示上表现出色，但训练数据（如 LAION）几乎全是短小、标签式的 caption。模型学到的是"短语→视觉特征"的映射，而非对一段叙事文字中分散细节的理解。
现有痛点: 面对一段描述性段落（DetailMaster 基准平均 284.9 token），即便是 FLUX、Qwen-Image 这种用强力 LLM 文本编码器的 SOTA 模型，也会漏掉一半以上提示中点名的物体。两类现有补救方案各有硬伤：(1) 微调派（LongAlign、ParaDiffusion）在训练长度内有效，但外推到更长提示时性能急剧下滑（>500 token 掉 30%），还会"灾难性遗忘"预训练知识；(2) 投影派（ELLA、LLM4GEN）把长提示压进 T2I 原本的紧凑文本嵌入空间，信息瓶颈牺牲了长提示最值钱的细节。
核心矛盾: 长段落对预训练 T2I 模型是天然的分布外（OOD）输入——既不能靠微调硬学（外推差），也不能靠投影硬塞（保真差）。如何复用模型已有的"短提示"专长去渲染长而精细的段落，是悬而未决的问题。
本文目标: 让冻结的预训练 T2I 模型处理长序列输入，做到既保住预训练先验、又保住细节保真度，并且对超出训练长度的提示有更强泛化。
核心 idea: 将"长文本到图像"重构为组合任务（compositionality）。不强迫模型一口气理解整段 OOD 文字，而是把它分解成一组"模型看得懂"的语义组件 \(\{c_1,\dots,c_N\}\)，让同一个 T2I 模型分别对每个组件去噪，再借扩散模型可视为可组合能量模型（EBM）这一性质，把各组件的噪声预测加和，从因子化分布 \(p(x|C)\propto\prod_i p(x|c_i)\) 中采样出能被全部组件共同描述的图像。

方法详解¶

整体框架¶

PRISM（Prompt Refraction for Intricate Scene Modeling）在原有 T2I 去噪循环外只插入一个轻量"分解模块" \(\psi\)：它把长提示编码 \(C_{\text{LM}}\) 折射成 \(N\) 个组件表示；每一步去噪时，当前噪声潜变量被复制 \(N\) 份成一个 batch，冻结的 T2I 模型对每个组件表示独立做噪声预测，最后用能量合取（加和）把 \(N\) 个预测融成一个组合去噪输出。整个组合模型端到端、无监督训练，损失只来自冻结 T2I 模型给出的扩散重建误差——主干一个参数都不动，只学 \(\psi\)（或文本编码器上的 LoRA）。

flowchart TD
    P[长提示段落 C] --> E[文本编码器 / LLM<br/>得到 C_LM]
    E --> D[分解模块 ψ<br/>折射成 N 个组件 c1..cN]
    X[噪声潜变量 x_t] --> B[复制 N 份成 batch]
    D --> T[冻结 T2I 模型 εθ]
    B --> T
    T --> N1[组件1 噪声预测]
    T --> N2[组件i 噪声预测 ...]
    T --> N3[组件N 噪声预测]
    N1 & N2 & N3 --> C2[能量合取: 加和成组合噪声]
    C2 --> XT[一步组合去噪 x_t-1]
    XT -.下一步.-> X

关键设计¶

1. 能量合取做组合去噪：把"加噪声预测"变成"乘概率分布" — 这是整套方法的物理基石。扩散模型的噪声预测正比于时间相关的得分函数 \(\epsilon_\theta\propto-\nabla_{x_t}\log p_t(x_t|c)\)，而能量模型从乘积分布采样等价于把能量函数相加。两者一拍即合：要从 \(c_1,c_2\) 两个条件分布的乘积中采样，只需把各自噪声预测相加 \(\epsilon_{\text{composed}}=\epsilon_\theta(x_t,t,c_1)+\epsilon_\theta(x_t,t,c_2)\propto\nabla_{x_t}\log(p_t(x_t|c_1)\cdot p_t(x_t|c_2))\)，得到的组合得分会把生成引向同时满足两个提示的图像。PRISM 把这一"概念合取"推广到 \(N\) 个组件：\(\epsilon_\theta(x_t,t,C)=\sum_{i=1}^N\epsilon_\theta(x_t,t,c_i)\)。关键在于——合成出的图像不必出现在任一组件的训练分布里，因此能用熟悉的简单概念拼出全新的复杂场景，这正是组合泛化的来源。

2. 在表示空间学分解，而非按语言切句 — 一个最直觉的做法是用 LLM 把段落拆成若干短句当组件，但 Eq.3 的合取对每个组件没有显式空间控制，按句切分会让每个组件丢失全局上下文（光照、风格、空间关系），导致场景前后不一致、局部概念糊在一起（论文消融里"句子切分"的 Character Location 仅 6.44%，Spatial Relation 仅 5.18%，几乎崩坏）。PRISM 因此选择在文本表示空间里学一个可训练分解模块 \(\psi\)，让 \(\psi(C_{\text{LM}})=\{c_1,\dots,c_N\}\) 直接输出最适合组合生成的组件表示，而不是可解释的自然语言短句。这样学出来的分解能把"对一致性至关重要、却会在语言切分中丢掉的"空间关系和全局属性合理分配到各组件。

3. 用冻结 T2I 当老师，无监督端到端训练分解模块 — 分解没有任何 ground-truth 标签，PRISM 直接拿组合得分上的扩散重建损失当唯一监督信号：\(L(\psi)=\mathbb{E}_{x,t}\big\lVert\sum_{i=1}^N\epsilon_\theta(x_t,t,c_i)-\epsilon\big\rVert^2\)，其中 \(\psi(C_{\text{LM}})=\{c_1,\dots,c_N\}\)。因为 T2I 主干全程冻结，\(\psi\) 被迫学会把信息"折射"成预训练模型本就看得懂、且组合后能渲染出连贯整图的组件——既保住了预训练先验，又通过把语义负载分摊到多个专职组件来保证细节保真。

4. 双形态分解模块适配两类文本编码器 — PRISM 是通用框架，按编码器类型给出两种实现。对双向注意力编码器（如 SD-3.5 / FLUX 用的 T5），把 \(\psi\) 实现成 Querying Transformer：用 \(N\) 组可学习查询向量（每组 \(L\times D\)）作为 query，长提示编码 \(C_{\text{LM}}\) 作为 key/value，让 query 在合取损失引导下各自抽取一个语义组件。对因果 LLM 编码器（如 Qwen-Image 的 Qwen2.5-VL），则不另设模块，而是把输入 token 复制 \(N\) 份、各段前面拼一个可训练特殊 token \(\langle|\text{comp}_i|\rangle\) 连成扩展序列，再给文本编码器加 LoRA，让它边推理边在一条序列里输出 \(N\) 个组件表示——直接借用 LLM 的推理能力做分解。

实验关键数据¶

主实验表格（DetailMaster 基准，准确率 %，分组内加粗为最优）¶

模型	Char. Presence	Char. Attr.(Person)	Char. Location	Scene(Style)	Spatial Rel.
StableDiffusion-1.5	19.12	80.73	8.66	7.18	24.53
ELLA	25.57	80.33	15.04	15.17	69.15
LongAlign	25.88	83.85	14.12	21.24	78.60
PRISM-SD1.5	28.21	84.54	16.57	20.88	82.45
PRISM w/ tuning	25.99	86.16	16.21	24.47	90.96
FLUX-Dev.	42.02	90.23	38.18	44.94	95.73
Qwen-Image	40.46	91.29	40.14	47.02	92.00
PRISM-Qwen	46.84	93.53	41.49	49.23	94.62

在 SD-1.5 组里 PRISM 训练无关地超过专门方法（Char. Presence +2.33，Char. Location +1.53）；叠加同款微调后全指标平均超 LongAlign 4.65%。给最强的 Qwen-Image 加 PRISM，Char. Presence 平均提升 6.38%——说明长文本难题根源在长 caption 训练数据稀缺，而非文本编码器不够强。

消融实验表格（Table 3）¶

变体	Char. Presence	Char. Location	Scene Attr.	Spatial Rel.
Sentence Splitting（按句切分）	14.01	6.44	58.69	5.18
w/o Composition（单组件=投影）	28.98	16.16	78.92	20.97
w/ Composition（完整 PRISM）	29.49	17.10	85.34	22.22

关键发现¶

组合是性能关键：去掉组合（退化成单组件投影）各项明显下滑；按语言切句更是灾难性崩坏（空间关系仅 5.18），证明"学出来的表示空间分解"不可替代。
分解越细泛化越好：\(N\) 从 3→4→5 增大，相对各自等算力微调基线的增益持续扩大；可视化显示 \(N=5\) 时各组件生成内容更分散、语义负载更轻，\(N=3\) 时各组件几乎与合成图雷同（语义耦合）。
长度泛化突出：LongAlign 在 <300 token 表现好但 >500 token 掉最多 30%，投影法受固定上下文窗口限制；PRISM 在所有长度段保持稳健，>500 token 平均超基线 7.4%。
画质同样领先：PRISM-Qwen 在 DenScore(22.93)、PickScore(22.04)、VQAScore(86.21) 上拿到现代基线最优，并把 Qwen-Image 的 HPSv3 从 8.56 拉到 12.05。
可叠加微调：因组件仍落在预训练模型期望的输入空间，PRISM 可与微调方法联用进一步提升（PRISM w/ tuning 在 Style 维度从 20.88 升到 24.47），说明它是正交的能力增强而非替代。

亮点与洞察¶

"先验 vs 保真"两难的第三条路：微调保不住先验、投影保不住保真，PRISM 用组合生成同时拿下两者（论文 Fig.2 的三象限对比很直观），且完全不动主干。
诊断式结论很有价值：给已经用 MLLM 当编码器的 Qwen-Image 加 PRISM 仍大幅提升，直接证伪了"换个更强文本编码器就能解决长提示"的常见假设，把矛头指向训练数据分布。
分解学在表示空间而非语言空间是点睛之笔——它承认"人类可读的句子切分"和"模型可组合的最优因子"是两回事，并用冻结模型的扩散损失把后者无监督地学出来。
框架普适：同一思想在 Querying Transformer 和 LoRA 两种载体上都成立，覆盖 SD-1.5/SD-3.5/FLUX/Qwen-Image 多代架构。

局限与展望¶

缺显式空间控制：能量合取对生成过程没有显式的空间约束，因子化仍是纯数据驱动的，复杂空间关系靠学而非靠控，未来可探索更先进的组合方式。
分解粒度固定：当前 \(N\) 是固定超参，作者指出更理想的是按提示复杂度自适应分解——短提示用更少组件以提升组合生成效率。
组件数带来计算开销：每步要把潜变量复制 \(N\) 份过一遍 T2I 模型，\(N\) 越大泛化越好但推理成本线性增长，存在精度-效率权衡。
依赖长 caption 训练数据：仍需 LongAlign 那样约 200 万张重标注图像来训练分解模块，并未摆脱对长文本配对数据的需求。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把组合 EBM 视角系统地落到"长文本到图像"，并提出"在表示空间无监督学分解"这一非平凡的关键创新，视角新且自洽。
实验充分度: ⭐⭐⭐⭐ 覆盖 SD-1.5/SD-3.5/FLUX/Qwen-Image 多架构、DetailMaster 多维度 + 5 种偏好模型、长度分桶泛化 + 组件数/组合性消融，证据链完整；略欠推理开销与 \(N\) 的效率定量分析。
写作质量: ⭐⭐⭐⭐⭐ "棱镜折射长提示"的比喻贯穿全文，Fig.2 三象限、Fig.5 长度泛化、Fig.8 语义解耦把动机和机制讲得很清楚。
价值: ⭐⭐⭐⭐ 训练无关地增强任意 T2I 模型的长提示遵循能力，且能即插即用叠加在最新 SOTA 上，实用性与启发性兼具。