PromptEnhancer: Taming Your Rewriter for Text-to-Image Generation via Fine-Grained Reward¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://hunyuanpromptenhancer.github.io
领域: 图像生成 / 文生图 / 强化学习对齐
关键词: 文生图, prompt 改写, 细粒度奖励, GRPO, 思维链

一句话总结¶

针对文生图模型"听不懂复杂 prompt"（属性绑定、否定、组合推理常出错）的问题，提出 PromptEnhancer——一个模型无关、不改 T2I 权重的 prompt 改写框架：先用思维链（CoT）改写数据做 SFT 初始化改写器，再用一个按 24 个细粒度关键点打分的专用奖励模型 AlignEvaluator 做 GRPO 强化对齐，让改写器把短而模糊的用户 prompt 重写成结构化、可被任意冻结 T2I 准确执行的详细描述，平均图文对齐准确率提升 5.1 个点。

研究背景与动机¶

领域现状：大规模 T2I 扩散模型已能从自然语言生成高保真图像，但输出严重依赖 prompt 质量。实践中用户 prompt 往往短、含糊，导致模型漏掉属性绑定、否定、空间关系等关键约束。prompt 改写（把用户 prompt 自动转写成更明确的版本）被视为解法之一。

现有痛点：现有改写方法缺乏通用性。一类与特定生成器深度耦合（联合训练 / 模型特定适配），换个 T2I 就得重训改写器；另一类依赖粗粒度奖励信号（CLIP score、通用人类偏好模型），对"细粒度 prompt 跟随失败"几乎没有纠正力——CLIP 主要做粗语义匹配、对细节不敏感、还有 token 长度限制。

核心矛盾：要让改写器既通用（即插任意冻结 T2I）又能精确纠错（对属性绑定/否定/计数等具体失败模式有针对性），就需要一个既懂 T2I 失败模式、又能给出可解释细粒度反馈的训练信号——而通用 LLM（如 GPT-4）缺乏对 T2I 特定失败模式的专门洞察，粗粒度奖励又不够细。

本文目标：训一个解耦于图像生成、模型无关的改写器，把欠定 prompt 重写成结构化详细描述，并用一个 T2I 专用的细粒度奖励把改写策略对齐到"下游图文对齐"上。

切入角度：把 prompt 精化从图像生成里彻底解耦——改写器只管改 prompt、T2I 全程冻结；改写过程用思维链（CoT）显式做语义分析、消歧、把隐含约束显式化；奖励则按一套 T2I 失败模式分类法（24 关键点）逐点打分。

核心 idea：用"CoT 改写器 + 细粒度奖励模型 AlignEvaluator + 两阶段（SFT→GRPO）训练"，让改写器学到的不是"写得更长"，而是"写得更忠于用户意图、更易被 T2I 执行"。

方法详解¶

整体框架¶

PromptEnhancer 由三个部件构成：CoT 改写器（基于大型 VLM 的策略模型，把原始 prompt 改写成富信息 prompt）、AlignEvaluator（按 24 个细粒度关键点给"图像–prompt"对打标量奖励的奖励模型）、冻结的现成 T2I 模型（只生图、权重不动）。改写器用两阶段训练：阶段 1 用从强力闭源模型蒸馏来的 CoT 改写数据做 SFT，获得结构化分析与改写能力；阶段 2 用 GRPO 做策略对齐——改写器对每个 prompt 采样 \(N\) 个改写候选，各自喂给冻结 T2I 生图，AlignEvaluator 逐点打分给出标量奖励，回传更新改写策略。整套训练数据由一条多阶段 curation 流水线产出，并配套发布细粒度评测基准 T2I-Keypoints-Align。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户原始 prompt（短、模糊）"] --> B["CoT 改写器<br/>VLM 策略模型：结构化分析→改写"]
    B --> C["两阶段训练·阶段1<br/>SFT：CoT 改写数据蒸馏初始化"]
    C --> D["两阶段训练·阶段2<br/>GRPO：采样 N 个改写候选"]
    D --> E["冻结 T2I 生图 → AlignEvaluator<br/>24 关键点/6 类打分 → 标量奖励"]
    E -->|奖励回传更新策略| D
    H["数据 curation + T2I-Keypoints 基准<br/>SFT 三元组 + GRPO prompt 集"] -.->|供训练/评测| C
    D --> F["输出：改写后 prompt<br/>→ 任意冻结 T2I → 更对齐图像"]

关键设计¶

1. CoT 改写器：把"改 prompt"做成显式的结构化推理

针对"用户 prompt 短而模糊、T2I 漏约束"的痛点，改写器（建立在大型 VLM 上）不直接吐长 prompt，而是走思维链流程：先识别关键语义元素、消解歧义、把隐含约束（物体属性、空间布局、交互关系）显式化，再产出富信息的改写 prompt。这种"先分析关键点、再改写"的结构让改写不是无脑堆砌形容词，而是有针对性地补全易丢失的约束——论文示例中，原 prompt 只说"a cute Tom"会生成含糊的猫，改写后显式指定角色身份（Tom and Jerry 里的汤姆猫）、动作、服装、画风，图像才对得上意图。

2. 两阶段训练：SFT 打底 + GRPO 对齐下游生成

只做 SFT 不够——SFT 后改写器能产出像样的长 prompt，但这些 prompt 并没有针对"下游图文对齐"显式优化。于是分两步：阶段 1 SFT 用蒸馏数据（从 Gemini-2.5-Pro 英文、DeepSeek-V3 中文教师模型产出的"用户 prompt→CoT→改写 prompt"三元组）做监督初始化，标准语言建模损失，目的只是给后续策略对齐一个强起点；阶段 2 GRPO 把改写策略对齐到 AlignEvaluator 捕捉的细粒度偏好上：对每个 prompt \(p\) 采样 \(N\) 个候选 \(\{p'_1,\dots,p'_N\}\)，各自经冻结 T2I 生图 \(x_i\)，奖励 \(r_i=\text{AlignEvaluator}(x_i,p'_i)\)，再按 GRPO 目标更新策略。消融显示（Table 5）：基线 81.0% → SFT(含 CoT) 85.29% → GRPO 88.15%，说明 CoT 监督的收益要和基于奖励的策略优化结合才能充分兑现。

3. AlignEvaluator：按 24 个关键点的 T2I 失败模式分类法给细粒度奖励

这是全框架的奖励核心，针对"CLIP 等粗粒度奖励纠不了细粒度失败"的痛点。AlignEvaluator 不给单一整体相似度，而是把图文对齐拆成 6 大类、24 个细粒度关键点：语言/语法理解（如否定、属性一致性、代词指代）、视觉属性（计数、尺寸、材质、表情、画风）、动作与交互（全身动作、手部动作、动物动作、接触/非接触交互、状态）、关系与组合结构（比较、组合、包含、相似、跨实体绑定、实体布局）、世界知识与推理（知识应用、反事实）、图内文字与排版（文字渲染、文字布局）。它由 Qwen2.5-VL-32B-Instruct 在 6,687 条标注样本上微调而来（关键点先由 Gemini-2.5-Pro 自动标、再人工精修），对一张图按 24 个关键点各打分、取平均作为最终标量奖励。这套结构化奖励比 CLIP 对计数、否定、组合等具体失败模式敏感得多，也避免了"多奖励模型加权"带来的不稳定优化。

4. 数据 curation 流水线与 T2I-Keypoints 基准：规模化造高质量训练/评测数据

改写器要学好需要大量高质量"用户 prompt→CoT→改写"三元组。论文设计一条多阶段流水线：① 用户 prompt 模拟（从 326 万张图、用 captioning 模型生成 226 万条简洁自然的代理 prompt）；② Gemini-2.5-Pro 生成结构化 CoT + 多个改写候选；③ Gemini 自动过滤语义漂移/信息缺失/推理不连贯样本（226 万→611,921 三元组）；④ 人工在环——T2I 对候选改写生图、专业标注员按忠实度与画质选最优，最终得 485,119 条 SFT 三元组。GRPO 另用 5 万条与 SFT 不相交来源的 prompt（防数据泄漏、促泛化）。同时发布 T2I-Keypoints-Align 基准（6,687 条 prompt，中 55.1%/英 44.9%，每条标注多个关键点类别），中文偏简洁（均长约 100 字、关键点峰值 4）、英文偏长描述（均长约 500 字、关键点 3–6），分别考察"从简洁表达抽意图"与"解析长组合描述"两种能力。

损失函数 / 训练策略¶

SFT 阶段：基模型 Hunyuan-7B-Instruct，学习率 \(1\times10^{-5}\)、cosine、warmup 0.1、2 epoch、有效 batch 128、bfloat16，标准 next-token 预测损失。GRPO 阶段：从 SFT 模型起，学习率 \(1\times10^{-6}\)、constant、1 epoch、有效 batch 64、每个 prompt rollout \(N=8\)、KL 系数 0.001。T2I 基模型为 Hunyuan-Image 2.1，全程冻结以验证即插即用；AlignEvaluator 由 Qwen2.5-VL-32B-Instruct 微调得到。

实验关键数据¶

主实验¶

在公开基准 GenEval 与 T2I-CompBench 上，用 Qwen-Image 与 HY-Image 2.1 作底座 T2I，对比原始 prompt、BeautifulPrompt（BP）与 PromptEnhancer（PE）。GenEval Overall 为综合 prompt 跟随准确率（越高越好）。

基准	底座 T2I	原始	+BP	+PE
GenEval Overall↑	Qwen-Image	0.84	0.85	0.86
GenEval Overall↑	HY-Image 2.1	0.80	0.81	0.82
CompBench Spatial↑	Qwen-Image	0.3222	0.1945	0.4472
CompBench Color↑	Qwen-Image	0.7962	0.5899	0.8442
CompBench Numeracy↑	HY-Image 2.1	0.6772	0.4943	0.7434

PE 在两个底座上都稳定抬高 GenEval；T2I-CompBench 上 PE 改善 Qwen-Image 七维中的六维（Spatial 提升尤其大），而 BP 在这些设置里反而低于原始 prompt——说明粗糙的"美化式"改写会损害组合保真度，细粒度奖励驱动的改写才有正收益。

消融实验¶

两阶段训练设计的逐步贡献（内部评测，Score 为整体对齐得分）：

配置	Score	说明
Baseline（不改写）	81.0%	原始 prompt
SFT w/o CoT	86.0%	仅 SFT、无思维链监督
SFT w/ CoT	85.29%	仅 SFT、有思维链监督
GRPO（最终）	88.15%	CoT-SFT 再加 GRPO

按 24 类逐项看，PE 平均提升 5.1 个点、20 类有增益，最大增益集中在推理/组合相关类：相似关系 +17.3、反事实 +17.2、计数 +15.0、代词指代 +13.9、表情 +12.0、跨实体绑定 +11.3；在底座本就强的类（接触交互、尺寸、画风）增益小，文字布局（-0.7）、非接触交互（-0.9）有轻微下降。

关键发现¶

单看 SFT，含/不含 CoT 差别不大（85.29% vs 86.0%）；但 CoT 监督的价值在叠加 GRPO 后才放大到 88.15%——CoT 与奖励优化是互补而非冗余。
增益高度集中在"需要推理/组合"的难类（相似、反事实、计数、绑定），而非简单属性，说明改写真正补的是模型推理短板。
BP 这类粗改写在 CompBench 上反而掉点，反证"细粒度奖励"是改写有效性的关键，而非"prompt 变长"本身。

亮点与洞察¶

把 prompt 改写从图像生成彻底解耦 + T2I 全冻结，做成真正即插即用的模块——一个改写器服务任意 T2I，这是相对"耦合式/per-model 重训"方案最实用的工程价值。
用 24 关键点/6 类的 T2I 失败模式分类法做奖励，把"图文对齐"这件模糊的事拆成可逐点验证的细粒度信号，奖励本身可解释——这套 taxonomy 即使脱离本方法也能当评测维度复用。
"SFT 给推理形态、GRPO 给对齐方向"的分工很清晰：消融数据显示二者缺一不可，是 RLHF 式 pipeline 在生成式改写上的一个干净落地。

局限与展望¶

文字布局、非接触交互等少数类出现轻微负迁移（-0.7 / -0.9），说明细粒度奖励对某些维度可能过度改写，需要更精细的类别权衡。
自己观察：方法效果与底座 T2I 强相关（底座已强的类增益小），且整条 pipeline 依赖大量闭源教师模型（Gemini-2.5-Pro/DeepSeek-V3）蒸馏 48 万条数据，复现成本高 ⚠️；AlignEvaluator 的奖励质量上限受其训练标注（仅 6,687 条）约束。
改进思路：把 AlignEvaluator 的关键点权重做成可学习/任务自适应，或对负迁移类引入约束式奖励，避免"为提某些类牺牲另一些类"。

评分¶

新颖性: ⭐⭐⭐⭐ 24 关键点细粒度奖励 + 解耦改写组合得很好，但 SFT+GRPO、CoT 改写各自有先例
实验充分度: ⭐⭐⭐⭐ 多底座 + 两公开基准 + 训练消融较全，但缺奖励模型本身的消融与超参敏感性
写作质量: ⭐⭐⭐⭐ 框架、taxonomy、数据流水线都讲得清楚
价值: ⭐⭐⭐⭐⭐ 即插即用、模型无关、对齐增益实打实，工程落地价值高