CREward: A Type-Specific Creativity Reward Model¶
会议: CVPR 2026
arXiv: 2511.19995
代码: https://han-j-y.github.io/creward_prj/ (有)
领域: 可解释性 / 创造力评估 / 奖励模型 / 图像生成
关键词: 创造力度量, 类型化奖励模型, LVLM 标注, 偏好学习, LoRA slider
一句话总结¶
本文把"视觉创造力"沿图像形成管线拆成 几何 / 材质 / 纹理 三个可解释的轴,先用专家两两比较建一个人类基准 CreBench、确认大型视觉语言模型(LVLM)的创造力判断与人类高度一致,再用 LVLM 生成的偏好标签蒸馏出一个轻量级类型化奖励模型 CREward(冻结视觉骨干 + MLP 头),并把它用于创造力评估、创意样本筛选 / LoRA slider 引导生成、以及 Grad-CAM 可解释三大应用。
研究背景与动机¶
领域现状:随着文生图扩散模型能力飞涨,"生成有创意的图像"成了热门方向,但如何量化创造力一直没解决。已有工作要么靠昂贵的人工打分,要么直接借用通用视觉指标(FID、CLIPScore、Improved Precision/Recall)来凑。
现有痛点:通用指标根本不是为"创造力"设计的——它们衡量保真度、分布距离或文图对齐,却测不出"这把椅子有没有创意"。少数专门指标也各有硬伤:Rarity Score 受训练分布偏置约束;Wang 等人把 Boden 的"新颖 / 价值 / 惊奇"三准则算子化,但只有"新颖"能在单样本层面计算。
核心矛盾:现有方法都把创造力当成一个不可分的标量来打分。可创造力是个复杂现象,一张图可能是"形状怪但材质普通",也可能是"造型平庸但纹理炫"。用单一数值描述,既不可解释,也无法对生成做方向性控制(你想加强材质创意却没有抓手)。
本文目标:(1) 给创造力一个精确、可量化、可解释的定义;(2) 造一个能同时用于评估和生成引导的奖励模型;(3) 避免对人工标注或闭源模型的依赖。
切入角度:作者观察到视觉设计中的创造力天然沿图像形成 / 3D 渲染管线展开——几何(形状结构)、材质(表面材料属性)、纹理(表面花纹),这恰好对应人类视觉"先处理粗粒度全局结构、再处理细粒度细节"的层级加工方式。
核心 idea:用"类型化奖励模型"代替"单一标量"来度量创造力——把创造力沿几何 / 材质 / 纹理三轴分解,并用 LVLM 标签蒸馏出一个轻量奖励模型,让创造力既可评估又可被 LoRA 引导。
方法详解¶
整体框架¶
整篇工作要解决"创造力测不准、控不了"的问题,整体分两步走:先证明 LVLM 能像人一样判断类型化创造力,再把这种判断蒸馏成一个轻量奖励模型供下游使用。具体地,作者先在 5 类物体(椅子、汽车、手袋、碗、花瓶)上让专家做成对比较,建立人类基准 CreBench-Human;接着用同一套指令喂给 Gemini-2.5 和 Gemma-3,验证 LVLM 排序与人类排序的 Spearman 相关;确认对齐后,用多个 T2I 模型 + LLM 生成的类型化 prompt 合成大规模创意图、由开源 Gemma-3 打出 5,000 对偏好标签;最后训练 CREward——冻结视觉骨干(最终选 SigLIP)+ 5 层 MLP 头,按成对 logistic 损失为每张图输出几何 / 材质 / 纹理 / 总体四个标量分。CREward 既能给生成模型打分排名,又能通过 LoRA slider 反向引导扩散去噪、还能接 Grad-CAM 做像素级归因。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["创意图像<br/>(多 T2I 模型生成)"] --> B["三轴创造力分解<br/>几何/材质/纹理"]
B --> C["人类基准 + LVLM 对齐<br/>(CreBench 成对比较)"]
C --> D["LVLM 蒸馏奖励模型<br/>冻结骨干 + MLP 头"]
D -->|评估| E["创造力打分<br/>排名生成模型"]
D -->|引导| F["LoRA slider<br/>引导创意生成"]
D -->|解释| G["Grad-CAM<br/>创造力归因"]
关键设计¶
1. 三轴创造力分解:把"创意"锚定在图像形成管线上
针对"创造力被当成单一标量、不可解释也不可控"的痛点,作者主张沿 3D 渲染管线把创造力拆成 几何(Geometry,形状 / 结构)、材质(Material,表面材料属性)、纹理(Texture,表面花纹) 三类。这个分解不是随意取的:它对应图像如何"被生成出来"的物理过程,也吻合人类视觉先粗后细的层级处理。分解带来四个直接好处——更细粒度可解释的评估、对创意方向的可控性、鼓励跨维度探索从而提升多样性、以及与人类感知更强的对齐。后文 Table 3 还量化了一个有趣结论:三轴里几何与"总体创造力"的相关最高(人类 0.84、Gemini 0.96、CREward 0.80),纹理最弱,说明结构 / 形状因素主导了人对整体创意的感知,强化几何创意可能是拿高总体创意分的捷径
2. 人类基准 + LVLM 对齐:用成对比较锚定"人觉得什么有创意",再验证 LVLM 可替代
绝对打分即便对同一标注者也不稳定,所以作者改用成对比较:5 名有 4 年以上设计训练的专家,对每个物体 25 张图(20 张多样创意图 + 5 张 "a/an {obj}" 普通图作最低创意锚点)随机采 100 个图对、每张恰好出现 8 次,每对在某个类型上选"更有创意"或 Tie。每张图的胜率=它被偏好的比例 ÷ 出现次数(8),按胜率排序得到 ground-truth 排名,这套数据就是 CreBench-Human。关键一步是验证 LVLM 能不能顶替人工:用同样指令喂 Gemini-2.5(闭源)和 Gemma-3(开源),算它们排名与人类平均排名的 Spearman 相关。结果很惊艳——Gemini-2.5 的相关甚至超过 inter-human(如几何 0.80 > 人类 0.71),开源 Gemma-3 在材质 / 纹理上也达到或超过人类标注者间的一致性。这就为"用 LVLM 标签大规模替代人工"提供了依据
3. CREward 奖励模型:把 LVLM 偏好蒸馏成轻量可微的类型化打分器
直接用 LVLM 在线评估创造力计算开销大、也难嵌入训练循环,所以作者把 Gemma-3 的偏好蒸馏进一个轻量奖励模型。先合成训练数据:用 5 个架构 / 训练集各异的 T2I 模型(Hunyuan-DiT、PixArt、Kandinsky v3、SD v3.5 Large、Flux-schnell)配 ChatGPT-5 生成的每类型 20 条 prompt(8 条物体无关模板 + 12 条物体相关,且都加 "clean background"),每 prompt 每模型出 10 张;随机组对、由 Gemma-3 打类型化 + 总体偏好标签,每物体 1,000 对、共 5,000 对。训练把偏好学习写成三元组 \((x_A, x_B, y)\) 的二分类,\(y \in \{+1, -1, 0\}\) 表示 \(x_A\) 胜 / \(x_B\) 胜 / 平局,用掩码 \(m(y) = \mathbb{1}[y \neq 0]\) 在训练时剔除平局。对类型 \(c\),标量奖励 \(f_\theta^{(c)}\) 的成对 logistic 分数与损失为:
结构上冻结视觉骨干、只训一个 5 层 MLP 头(ReLU、dropout \(p=0.2\)),头输出几何 / 材质 / 纹理 / 总体四个标量。作者横扫 VGG16 / CLIP / DreamSim / DINOv3 / SigLIP 五种骨干(Table 2),最终选测试偏好准确率最高的 SigLIP(恰好是 Gemma-3 的视觉编码器)。值得注意:CREward 只用 Gemma-3 标签训练,却在人类基准上拿到第二高相关,纹理上甚至超过闭源 Gemini-2.5——说明 LVLM 蒸馏的监督信号足以建模创造力
4. 三大应用:让分数变成可评估、可引导、可解释的抓手
奖励模型的价值在于落地,CREward 撑起三类应用。评估:作为打分器对比生成模型的创意能力,发现 Hunyuan-DiT 各类型分最高、蒸馏型 Flux-schnell 最低(蒸馏常以牺牲多样性换保真)。创意样本获取 + 引导生成:用每 prompt 的最大样本分筛出 Top/Bottom 创意样本供设计师找灵感(从 1,500 张里取 Top 30 即 Top 2% 喂给工业设计师,真的启发出手袋 / 花瓶设计);更进一步,把分数变成可执行信号——用一步外推(one-step extrapolation)缓解迭代去噪的信用分配问题、只更新 LoRA 参数,训练得到类型化 CREward-LoRA slider,损失为创造力增益项 + 标准扩散噪声预测项:
其中 \(\hat{\mathbf{x}}_{0,t}\) 是 DDPM 式反演得到的一步干净样本估计。slider 能选择性放大对应创意属性、还可多 slider 混合(尽管类型间存在纠缠)。可解释:CREward 是可微函数,接 Grad-CAM 即可可视化哪些像素对每类创造力贡献最大,为"可解释的创意 AI"开了口子
实验关键数据¶
主实验¶
CreBench-Human 上各方法与人类排名的 Spearman 秩相关(↑)与偏好准确率(Acc.,↑),CREward 仅用 Gemma-3 标签训练却整体第二、纹理超闭源 Gemini:
| 类型 | 指标 | Inter-Human | Gemini-2.5 | CREward(ours) | Gemma-3 | Surprise |
|---|---|---|---|---|---|---|
| 几何 | Rank Corr. | 0.71 | 0.80 | 0.59 | 0.56 | 0.42 |
| 几何 | Acc.(%) | - | 0.87 | 0.72 | 0.71 | 0.66 |
| 材质 | Rank Corr. | 0.63 | 0.75 | 0.72 | 0.66 | 0.51 |
| 材质 | Acc.(%) | - | 0.84 | 0.77 | 0.65 | 0.71 |
| 纹理 | Rank Corr. | 0.46 | 0.74 | 0.76 | 0.60 | 0.49 |
| 纹理 | Acc.(%) | - | 0.73 | 0.74 | 0.64 | 0.66 |
| 总体 | Rank Corr. | 0.65 | 0.68 | 0.61 | 0.57 | 0.56 |
注:列名映射依据原文(Inter-Human / CREward / Surprise 显式给出,闭源最高分列对应 Gemini-2.5、开源列对应 Gemma-3)。⚠️ 个别列归属以原文 Table 1 为准。
消融实验¶
视觉骨干选型(Table 2,测试偏好准确率),SigLIP 在三轴上整体最优、参数量适中,故被选为 CREward 骨干:
| 骨干 | 参数量 | 几何 | 材质 | 纹理 | 总体 |
|---|---|---|---|---|---|
| VGG16 | 138M | 0.72 | 0.72 | 0.75 | 0.74 |
| CLIP | 304M | 0.80 | 0.77 | 0.80 | 0.78 |
| DreamSim | 267M | 0.76 | 0.73 | 0.79 | 0.78 |
| DINOv3 | 824M | 0.78 | 0.70 | 0.76 | 0.78 |
| SigLIP | 422M | 0.81 | 0.78 | 0.80 | 0.82 |
类型与总体创造力的相关(Table 3,几何主导总体感知):
| 类型 | Human | Gemini-2.5 | Gemma-3 | CREward |
|---|---|---|---|---|
| 几何 | 0.84 | 0.96 | 0.75 | 0.80 |
| 材质 | 0.65 | 0.82 | 0.67 | 0.44 |
| 纹理 | 0.58 | 0.71 | 0.69 | 0.39 |
关键发现¶
- 骨干选型最关键:SigLIP(恰是 Gemma-3 的视觉编码器)以 422M 参数取得最佳整体准确率,比 824M 的 DINOv3 更好,说明"与标注 LVLM 同源的视觉表征"对蒸馏更友好。
- 几何 > 材质 > 纹理:三轴里几何与总体创造力相关最高(CREward 0.80)、纹理最弱(0.39),与人类"先看全局结构再看细节"的视觉加工顺序一致;想拿高总体创意分,优先做"形状上的创新"更划算。
- 开源标签足够:CREward 全程只用开源 Gemma-3 标签,却在人类基准上排第二、纹理上反超闭源 Gemini-2.5,验证了"开源 LVLM 蒸馏即可,不必依赖昂贵闭源模型或人工标注"。
- 生成模型差异:Hunyuan-DiT 创意分最高、蒸馏型 Flux-schnell 最低,符合"蒸馏牺牲多样性换保真"的预期。
亮点与洞察¶
- 把抽象的"创造力"锚定到图像形成管线:几何 / 材质 / 纹理三轴既物理可解释、又对应人类视觉层级加工,是全文最优雅的一步——它让"创造力可分解、可控制"从口号变成可操作的坐标系。
- "先验证再蒸馏"的方法论可迁移:先用人类成对比较建小基准、再证明 LVLM 与人类对齐、最后才用 LVLM 大规模标注——这套"用小人类基准为 LVLM 背书、再用 LVLM 规模化"的范式,可直接迁移到任何"主观但有共识"的评估任务(美感、风格、情感强度)。
- 奖励模型一鱼三吃:同一个可微 CREward,向前是打分器(评估)、向后接 LoRA 是 slider(引导生成)、接 Grad-CAM 是归因器(解释),充分体现"可微奖励模型"作为通用接口的价值。
- 诚实的负面结论也有用:作者明说 slider 存在类型间纠缠、且这种纠缠源自模型本身的纠缠表征(Figure 10),没有粉饰,反而点出了下游可改进的方向。
局限与展望¶
- 偏新颖、轻价值:偏好数据假设了最低视觉质量,CREward 强调 Boden 的"新颖"而弱化"价值",可能给语义很弱的图打高分(如 Figure 5 的低质样本);作者建议质量不确定时配一个价值估计器(CLIP / BLIP-VQA)来平衡。
- 类型间纠缠:LoRA slider 虽针对单一类型,跨类型副作用仍常见,反映表征本身纠缠;更好的解纠缠留作未来工作。
- 场景受限:目前在单物体、干净背景下验证,扩展到多物体和噪声环境仍是未来工作。
- 自己发现的局限:人类基准只覆盖 5 类物体(椅 / 车 / 袋 / 碗 / 瓶)、标注者仅 5 人,三轴分解对"语义 / 概念层面的创意"(如把椅子设计成拥抱的姿态)可能力有不逮——它本质是渲染管线层面的创造力,不一定覆盖更高层的概念创新。
相关工作与启发¶
- vs Surprise (Wang et al.):Surprise 把 Boden 三准则算子化但只有"新颖"能在单样本算、且类型无关;CREward 是类型化、单样本可算、且在所有轴上相关都显著高于 Surprise(如几何 0.59 vs 0.42)。
- vs Rarity Score:Rarity 用相对训练分布的稀有度度量创意,受数据偏置约束、也不可解释方向;CREward 用 LVLM 对齐人类感知,提供几何 / 材质 / 纹理可解释维度。
- vs ImageReward / VisionReward / UnifiedReward:这些奖励模型用大规模人工标注学对齐 / 保真 / 通用偏好;CREward 是首个面向创造力且类型化的奖励模型,且用 LVLM 标签替代人工标注,省去昂贵标注成本。
- vs ConceptLab / C3:它们是创意生成方法,CREward 反过来给这些方法做可解释的横向评测——发现 ConceptLab 在材质 / 纹理创意最高、C3 在几何上对基线有稳定提升,把"谁更有创意"量化成可比较的分数。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个类型化创造力奖励模型,把抽象创造力锚定到几何 / 材质 / 纹理可解释三轴。
- 实验充分度: ⭐⭐⭐⭐ 有人类基准 + LVLM 对齐 + 骨干消融 + 三大应用,但人类基准仅 5 物体 5 标注者、规模偏小。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、图表丰富,但部分 Table 列名(开 / 闭源 LVLM)需对照原文图标才能确认归属。
- 价值: ⭐⭐⭐⭐⭐ 给"创意 AI"提供了可评估 / 可引导 / 可解释的统一抓手,开源奖励模型 + 数据集利于复现与扩展。