HP-Edit: A Human-Preference Post-Training Framework for Image Editing¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 图像生成 / 图像编辑 / 对齐RLHF
关键词: 图像编辑、人类偏好对齐、RLHF、Flow-GRPO、VLM 奖励模型

一句话总结¶

本文提出 HP-Edit——一套面向图像编辑的人类偏好后训练框架：用少量人工打分数据微调一个基于 VLM 的自动评分器 HP-Scorer，再用它构建偏好数据集并充当奖励模型，通过 Flow-GRPO 在线后训练把预训练编辑模型（如 Qwen-Image-Edit-2509）对齐到人类偏好，同时配套发布 RealPref-50K 数据集与 RealPref-Bench 基准。

研究背景与动机¶

领域现状：图像编辑（I2I）的主流范式是在预训练 T2I 扩散骨干上做有监督微调（SFT），用大规模 I2I 数据获得编辑能力；近年 Diffusion-DPO、Flow-GRPO、Dance-GRPO 等 RL 方法在 T2I 生成质量上已展现潜力。

现有痛点：SFT 路线有两个硬伤——其一，SFT 数据来源混杂（卡通、合成图等），和真实世界的人类偏好对不上；其二，构建偏好对齐的编辑数据集需要昂贵的人工标注，规模化对齐几乎不可行。而把 RLHF 高效用到扩散式编辑上，至今基本是空白：缺可规模化的人类偏好数据集，也缺面向多样编辑子任务定制的框架。

核心矛盾：与开放式的 T2I 合成不同，I2I 编辑要同时满足任务准确性（如忠实地移除某个物体）和偏好对齐（结果要自然好看）。这个双目标要求一个框架既能低成本构建偏好数据，又能提供任务感知的奖励模型——现有工作两头都没解决，而且缺一个真实世界、物体类别均衡的编辑评测基准。

本文目标：搭一套后训练框架，用很少的人工打分把"自动评分器 + 高效数据构建 + 任务感知 RL"串起来，在保住编辑准确性的同时把模型对齐到人类偏好。

切入角度：作者观察到强预训练编辑模型（如 Qwen-Image-Edit-2509）在大多数场景下已经很好，原始数据里大量样本都能拿满分，RL 训练信号被这些"简单样本"稀释了。所以与其堆数据，不如聚焦难样本，再配一个能逼近人类判断的评分器当奖励。

核心 idea：用"少量人工打分 → 蒸出 VLM 评分器 HP-Scorer → 过滤掉满分简单样本只留难例 → 把 HP-Scorer 当奖励做 Flow-GRPO 后训练"，把昂贵的人类偏好对齐变成可规模化的自动闭环。

方法详解¶

整体框架¶

HP-Edit 是一条三阶段后训练流水线，核心都围绕一个 HP-Scorer（基于预训练 VLM、对每个编辑子任务定制评分提示的自动评分器）展开。阶段一用少量人工 0–5 打分把 HP-Scorer 校准到逼近人类判断；阶段二用 HP-Scorer 对大规模真实编辑案例打分、丢掉满分简单样本、只留难例，构建出可规模化的 RL 训练集 RealPref-50K；阶段三以 HP-Scorer 作奖励模型，对预训练编辑模型用在线 Flow-GRPO 后训练。输入是"原图 A + 指令 T"，预训练编辑模型 SDE 采样出一组候选编辑图，HP-Scorer 给每张打分并归一化成奖励，GRPO 用组内相对优势更新模型，让它输出更贴合高人类偏好分的结果。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["编辑三元组<br/>(原图 A, 编辑图 B, 指令 T)"] --> B["任务感知 HP-Scorer<br/>少量人工打分校准 VLM 评分提示"]
    B --> C["难例聚焦数据构建<br/>打分→丢满分简单样本→留难例 D†"]
    C --> D["任务感知 RL 后训练<br/>HP-Scorer 当奖励 + Flow-GRPO"]
    D --> E["对齐人类偏好的编辑模型<br/>(8 类编辑任务)"]

关键设计¶

1. 任务感知 HP-Scorer：用极少人工打分蒸出一个会"按任务标准评分"的 VLM

人类偏好对齐最贵的就是标注，逐张人工评分无法规模化。HP-Edit 的破解办法是只收集每个子任务约 50–100 个编辑三元组（原图 A、编辑图 B、指令 T），由人工按统一的 0–5 分标准打分（0 完全不符指令、3 大体遵循但画质/美感欠佳、5 完全遵循且高质量真实），然后用一个预训练 VLM（如 Qwen3-VL、GPT-4o）配上为每个子任务定制的评分系统提示来逼近人类判断。评分提示从只含通用标准的基础版起步，逐步加入任务特定的推理追问（如物体交换任务追问"替换是否可行且明确指定？""原物体是否被完全替换？"），不断迭代直到 HP-Scorer 在收集到的三元组上与人工评分高度吻合。这样就把"人类偏好"固化进一个可无限调用的自动评分器，HP-Scorer 给出的分数也直接当作评测用的 HP-Score。

2. 难例聚焦的数据构建：丢掉满分样本，把训练信号集中到模型真正不会的地方

强预训练编辑模型在大部分案例上已经能拿满分，如果直接拿原始数据 \(D\) 做 RL，一个训练 batch 里大量样本奖励饱和（都接近 5 分），梯度信号极弱、模型学不到东西（奖励曲线几乎不涨）。HP-Edit 的关键一步是数据集过滤：先采集大量真实世界编辑案例、按 MS-COCO 物体类别做均衡得到原始集 \(D\)，再用 HP-Scorer 打分后丢弃满分（score 5）样本得到最终训练集 \(D^\dagger\)。这一步把训练难度主动抬高、让模型聚焦低分难例，从而提供更有信息量的梯度、加快奖励提升——消融里这一步单独就把 HP-Score 从 4.391（原始数据）提到 4.577。

3. 任务感知 Flow-GRPO 后训练：把确定性 ODE 转成 SDE，用 HP-Scorer 奖励在线对齐

有了难例数据和评分器，第三阶段用在线 Flow-GRPO 做后训练。Flow Matching 的生成是确定性 ODE（\(dx_t=v_t\,dt\)）缺乏探索性，Flow-GRPO 把它转成边际概率密度等价的 SDE（在漂移项里加入 \(\frac{\sigma_t^2}{2t}(x_t+(1-t)v_t)\) 并叠加 Wiener 噪声 \(\sigma_t\,dw\)），从而能在同一指令下采样出一组 \(G\) 张图做组内比较。对每张图，HP-Scorer 打分 \(s\) 经 sigmoid 归一化到 \([0,1]\) 当奖励：\(r=\frac{1}{1+\exp(-\alpha s+\beta)}\)（\(\alpha=2,\beta=5\)）；优势按组内统计归一化 \(\hat A_i=\frac{R_i-\mathrm{mean}(\{R_j\})}{\mathrm{std}(\{R_j\})}\)，再用带 clip 和 KL 正则的 GRPO 目标 \(J=J_{\text{clip}}-\beta D_{KL}(\pi_\theta\|\pi_{\text{ref}})\) 更新。训练时冻结大部分基模参数、只训 rank=32 的轻量 LoRA，既保住预训练能力又稳。任务感知体现在奖励里的评分提示是按子任务定制的——同一个 GRPO 框架，奖励信号会随编辑任务类型自动切换标准。

损失函数 / 训练策略¶

后训练采用在线 Flow-GRPO，奖励来自任务定制的 HP-Scorer（训练时用 Qwen3-VL-32B-Instruct 而非 GPT-4o，因为外部 API 延迟不稳、偶发失败会干扰在线 RL）。基模 Qwen-Image-Edit-2509 大部分参数冻结，仅训练 rank 32 的 LoRA，AdamW 优化器，学习率 \(3\times10^{-4}\)。GRPO 目标含 clip 与对参考策略的 KL 正则以保证训练稳定。

实验关键数据¶

主实验¶

RealPref-Bench（1,638 例、8 类编辑任务、约 200 例/任务）上的 HP-Score（0–5，由 GPT-4o 基于 HP-Scorer 评分，越高越好）对比（节选）：

模型	整体 HP-Score	人工分	Relighting	Bokeh	Color
Step1X-Edit	4.07	3.89	3.922	4.696	4.174
Qwen-Image-Edit	3.919	4.005	4.549	4.539	4.574
FLUX.1-Kontext-Dev	3.59	3.345	3.99	4.23	4.116
Qwen-Image-Edit-2509(基线)	4.472	4.337	4.358	4.539	4.781
HP-Edit(本文)	4.667	4.554	4.75	4.733	4.781

HP-Edit 在整体 HP-Score 上从强基线 Qwen-Image-Edit-2509 的 4.472 提到 4.667，在全部 8 个子任务上均排第一；提升最明显的恰好是 color change、bokeh、relighting、background replacement 这类需要细粒度外观一致性和强真实感先验的任务——这些正是预训练模型容易翻车、偏好对齐最能补的地方。

泛化性：在 Step1X-Edit 的官方基准 GEdit-Bench-EN 上 HP-Edit 也取得 SOTA，语义一致性 G_SC、画质 G_PQ、整体 G_O 均领先，说明偏好对齐策略能迁移到既有标准基准。

消融实验¶

配置	HP-Score	说明
Baseline（预训练）	4.472	未后训练
BaseData + Base-Scorer	4.391	原始未过滤数据 + 简单评分提示，反而掉点
RealPref-50K + Base-Scorer	4.577	只加难例过滤
RealPref-50K + HP-Scorer（HP-Edit）	4.667	难例过滤 + 任务感知评分器（完整）

关键发现¶

难例过滤和评分器细化缺一不可：用原始数据 + 简单评分器（4.391）反而比预训练基线（4.472）还低，说明原始数据里大量简单/噪声样本提供的是弱甚至误导性的 RL 信号；换上过滤后的 RealPref-50K 立刻涨到 4.577，再叠加任务感知 HP-Scorer 涨到 4.667，两个组件的贡献都被独立验证。
奖励曲线印证"满分样本稀释信号"假设：原始数据（BaseData）奖励起点最高但几乎不涨（饱和），过滤后数据训练初期就有明显上升趋势，完整 HP-Edit 的曲线最稳最持续——直接坐实了"丢掉满分难例聚焦"的设计动机。
HP-Scorer 与人类高度一致：5 名标注者对 1k+ 编辑对做用户研究（评指令遵循 + 画质），打分分布与 HP-Scorer 结果高度吻合，既证明 HP-Edit 有效，也反过来验证了 HP-Scorer 评分的人类对齐度。

亮点与洞察¶

"少量人工 → VLM 评分器 → 自动闭环"把偏好对齐规模化：最巧的地方是只用每任务 50–100 条人工打分就蒸出一个可无限调用的任务感知奖励器，绕过了 RLHF 在编辑上最贵的标注瓶颈，这套蒸馏思路可迁移到任何"标注昂贵但有强 VLM 可借力"的对齐任务。
难例过滤是被低估的"免费午餐"：仅仅丢掉满分样本就带来 +0.1 以上的提升，揭示了一个反直觉但通用的规律——当基模已经很强时，RL 数据的价值不在量而在"是否集中在模型不会的难例上"。
任务感知奖励：同一个 GRPO 框架，靠子任务定制评分提示就能让奖励标准随编辑类型切换（移除任务问"是否干净移除"、换色任务问"是否串色"），把"一个奖励模型打天下"换成"按任务讲标准"，这对多子任务场景很有借鉴价值。

局限与展望¶

HP-Scorer 是整个框架的天花板：奖励完全由 VLM 评分器决定，若它在某些子任务上和人类判断有系统性偏差，RL 会把模型对齐到"评分器偏好"而非真正的人类偏好；⚠️ 论文未给出 HP-Scorer 在各子任务上与人类的逐项一致性数值。
评测的"裁判"和"奖励"同源：主实验 HP-Score 由 HP-Scorer 体系给出，存在"既当运动员又当裁判"的潜在循环，虽有用户研究佐证，但跨独立评分体系的对比偏少。
只在 Qwen-Image-Edit-2509（及 FLUX.1-Kontext-dev）上验证，对更弱/架构差异更大的编辑骨干是否同样有效未充分展开。
难例过滤目前是"丢弃满分"的硬阈值策略，⚠️ 是否存在更细的难度加权方案（而非二值丢弃）值得探索。

评分¶

新颖性: ⭐⭐⭐⭐ 把 RLHF 系统性地落到图像编辑、并用 VLM 评分器 + 难例过滤解决数据瓶颈，组合新颖；单个组件（GRPO、VLM 评分）非首创。
实验充分度: ⭐⭐⭐⭐ 8 类任务 + 两个基准 + 消融 + 奖励曲线 + 用户研究，较完整；但裁判与奖励同源、跨独立评分体系对比偏少。
写作质量: ⭐⭐⭐⭐ 三阶段流程清晰、动机（满分样本稀释信号）讲得透；部分数据集/评分提示细节需查补充材料。
价值: ⭐⭐⭐⭐⭐ 提供了可规模化的编辑偏好对齐范式 + 真实世界数据集与基准，对图像编辑社区的实用价值高。