CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think¶
会议: CVPR 2026
arXiv: 2603.18991
代码: 无
领域: 图像生成 / 扩散模型对齐
关键词: 扩散模型对齐, 人类偏好, 组合奖励过滤, 监督微调, 数据高效
一句话总结¶
CRAFT 提出一种超轻量的扩散模型对齐方法:通过组合奖励过滤(CRF)策略自动构建高质量训练集,然后执行增强版 SFT,理论证明 CRAFT 实际优化的是分组强化学习的下界,仅用 100 个样本就超越了需要数千偏好对的 SOTA 方法,且训练速度快 11-220 倍。
研究背景与动机¶
- 领域现状:扩散模型的后训练对齐主要有三条路线——SFT(需要高质量数据)、DPO 风格的偏好优化(需要大规模偏好对)、在线 RL 方法(计算开销大)。
- 现有痛点:SFT 依赖难以获取的高质量图像;DPO 方法如 Diff-DPO 依赖大规模偏好数据集且质量不一致;在线方法如 SPO 需要反复采样和评估,计算极其昂贵。
- 核心矛盾:数据效率与计算效率的双重挑战——现有方法要么需要大量数据,要么需要大量计算,两者难以兼得。
- 本文目标:设计一种既数据高效又计算轻量的微调方法。
- 切入角度:不需要外部高质量数据或偏好对,模型自己生成候选图像并通过多维奖励筛选最优样本。
- 核心 idea:组合多个奖励模型进行数据过滤 + 优势加权的 SFT,理论上等价于分组 RL 的下界优化。
方法详解¶
整体框架¶
CRAFT 分三个阶段:(1) 数据构建:从 HPD 数据集采样 10000 个提示,用 Qwen-Plus 扩展为多个变体,用基础模型生成候选图像;(2) 组合奖励过滤:用多个奖励模型联合筛选高质量样本;(3) 加权 SFT 微调:用分组优势计算权重,只对通过过滤的样本计算损失。
关键设计¶
-
组合奖励过滤 (CRF):
- 功能:从模型自生成的候选图像中自动筛选高质量训练数据
- 核心思路:使用三个互补的奖励模型——HPSv2.1(人类偏好)、PickScore(拣选偏好)、AES(美学评分)。设计多级过滤策略:单奖励过滤 \(\mathcal{I}_\xi\)(任一奖励提升即保留)、双奖励过滤 \(\mathcal{I}_{ha}\)(两个同时提升)、三重过滤 \(\mathcal{I}_{hpa}\)(三个都提升,最严格)。对每个原始提示,如果其扩展版本生成的图像在所有奖励上都优于原始版本,则保留这批样本
- 设计动机:自动数据策展避免了依赖外部高质量数据集或强模型蒸馏,组合多维奖励确保数据一致性
-
分组优势加权 SFT:
- 功能:根据样本质量自适应调整梯度贡献
- 核心思路:对每组样本计算归一化优势 \(\hat{A}^{(i,j)} = (r^{(i,j)}_{\text{total}} - \text{mean}) / (\text{std} + \epsilon)\),然后以优势值加权标准 SFT 损失 \(\|\epsilon_\theta(x^{(i,j)}_t, t, c) - \epsilon^{(i,j)}_t\|^2\),并用指示函数只对通过过滤的样本计算梯度
- 设计动机:质量好的样本获得更大梯度贡献,差的样本被抑制,实现隐式的奖励引导
-
理论保证 (Theorem 3.1):
- 功能:建立 SFT 与强化学习之间的理论联系
- 核心思路:在小学习率假设下,证明 CRAFT 的损失实际上优化的是分组强化学习目标 \(\hat{J}(\theta)\) 的下界。具体来说,优势加权的 SFT 损失与 RL 目标之间存在精确的数学关系
- 设计动机:为"用选择性数据做 SFT 就能实现 RL 级别对齐"提供理论基础,不再是纯经验方法
损失函数 / 训练策略¶
损失函数为优势加权的噪声预测 MSE 损失。使用 AdamW 优化器对 UNet 进行全参数微调。SD1.5 训练 120 步,SDXL 训练 200 步,batch size 128,学习率 5e-5。总训练仅需约 4 GPU 小时(SDXL on H100)。
实验关键数据¶
主实验¶
| 基准/指标 | SDXL 基线 | Diff-DPO | SPO | CRAFT | 提升 vs SPO |
|---|---|---|---|---|---|
| HPDv2 HPSv2.1↑ | 27.93 | 29.76 | 32.32 | 32.67 | +0.35 |
| HPDv2 ImgReward↑ | 0.819 | 1.037 | 1.103 | 1.312 | +0.209 |
| HPDv2 MPS↑ | 14.35 | 14.70 | 15.36 | 15.62 | +0.26 |
| Parti HPS↑ | 27.32 | 28.74 | 30.54 | 31.10 | +0.56 |
CRAFT 在所有指标和数据集上全面领先,且 ImageReward 和 MPS 未在训练中使用,证明泛化能力。
消融实验¶
| 配置 | HPSv2.1 | 训练数据量 | GPU 时间 |
|---|---|---|---|
| CRAFT (\(\mathcal{I}_{hpa}\)) | 32.67 | 100 | ~4h |
| CRAFT (\(\mathcal{I}_{ha}\)) | 32.45 | ~300 | ~4h |
| CRAFT (\(\mathcal{I}_h\)) | 32.12 | ~1000 | ~4h |
| 无过滤 SFT | 31.80 | 10000 | ~4h |
关键发现¶
- 最严格的三重过滤 \(\mathcal{I}_{hpa}\) 效果最好,说明数据质量远比数量重要
- CRAFT 仅用 100 个样本即超越需要 4000 样本的 SPO,数据效率提升 40 倍
- 训练速度比 SPO 快 19.7 倍(SDXL),比 SmPO 快 60.1 倍
- 在 GenEval 组合推理基准上也表现优异,说明对齐能力迁移到了指令跟随
- 在未训练的奖励指标上同样领先,说明不是过拟合训练奖励
亮点与洞察¶
- 极致数据效率:100 个样本超越数千偏好对的方法,颠覆了"对齐需要大量偏好数据"的认知
- 自策展数据管线:不需要外部数据,模型自己生成、自己筛选、自己训练,完全自包含
- 理论优雅:证明选择性 SFT 等价于 RL 下界优化,建立了两种范式的理论桥梁
- 即时落地价值:4 GPU 小时就能对齐 SDXL,极大降低了扩散模型后训练的门槛
局限与展望¶
- 依赖奖励模型的质量,如果奖励模型本身有偏差会传递到微调模型
- 仅在 SD1.5 和 SDXL 上验证,未在更新的架构(如 DiT/FLUX)上测试
- 理论证明需要小学习率假设,大学习率下可能不成立
- 未来可探索在视频扩散模型或 3D 生成上的应用
相关工作与启发¶
- vs Diff-DPO: DPO 需要大量偏好对且效率低,CRAFT 用 SFT 达到更好效果
- vs SPO: SPO 需要在线采样和评估,CRAFT 完全离线且快 20 倍
- vs RLHF/GRPO: CRAFT 理论证明与 RL 等价但实现简单得多
评分¶
- 新颖性: ⭐⭐⭐⭐ 组合奖励过滤新颖,理论联系有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准、多指标、多基线对比全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论和实验结合好
- 价值: ⭐⭐⭐⭐⭐ 极高实用价值,大幅降低扩散模型对齐成本