跳转至

Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

会议: CVPR 2026
arXiv: 2603.11556
代码: 无
领域: 图像生成 / 图像美学增强
关键词: 图像美学增强, 多模态美学感知, 弱监督扩散模型, 不完美配对数据, ControlNet

一句话总结

DIAE提出多模态美学感知(MAP)模块将模糊的美学指令转为HSV+轮廓图+文本的显式控制信号,并构建"不完美配对"数据集IIAEData配合双分支监督框架进行弱监督训练,实现内容一致的美学增强,LAION美学评分提升17.4%。

研究背景与动机

领域现状:图像美学增强要求模型具备审美感知能力,识别色彩、构图、光照等方面的不足并进行相应编辑。近年扩散模型在图像编辑领域取得巨大成功,但现有方法主要面向语义编辑,缺乏美学感知能力。

现有痛点:(1) 美学指令理解困难——美学评价如"饱和度过低"、"使用三分法构图"高度抽象,简单文本编码器无法理解并转化为生成方向;(2) 缺乏训练数据——美学增强需要内容一致但美学质量不同的"完美配对"图像对,专业标注代价极高。

核心矛盾:美学是高层人类视觉能力,受文化、经历等不可控因素影响,且缺乏可直接用于监督学习的配对数据。现有图像质量评估数据集的人工退化(模糊、噪声)反映的是质量而非美学。

本文目标 (1) 如何让扩散模型理解和执行模糊的美学指令;(2) 如何在没有完美配对数据的条件下训练美学增强模型。

切入角度:将美学感知分解为色彩和结构两个维度,分别用HSV色彩图和HED轮廓图作为视觉表示,配合文本描述形成多模态控制信号。数据方面,用语义相同但美学不同的"不完美配对"图像进行弱监督训练。

核心 idea:用多模态视觉表示(HSV+轮廓)将模糊美学指令具象化,用"不完美配对"数据+双分支监督实现弱监督美学增强。

方法详解

整体框架

三个主要组件:(1) IIAEData数据集构建——从AVA/TAD66K等数据集中按MOS分高低质量,通过LLaVA匹配语义相似对并用UNIAA-LLaVA生成美学评估文本;(2) MAP多模态美学感知——将美学评估转为HSV图+轮廓图+文本的控制信号通过ControlNet注入;(3) 双分支监督框架——输入图像监督语义(早期去噪),参考图像监督美学(全程),实现弱监督训练。

关键设计

  1. 多模态美学感知(MAP):

    • 功能:将模糊的美学指令转化为扩散模型可理解的显式控制信号
    • 核心思路:将美学评估分为色彩属性(饱和度、光照、光照技巧)和结构属性(焦点、拍摄类型、构图、构图技巧)。色彩属性用HSV色彩图作为视觉表示(比RGB更直观地表达色彩感知),结构属性用HED轮廓图强调焦点和构图。两个CNN分支 \(\Phi_i\) 提取视觉特征 \(F_{col}^I, F_{str}^I\),CLIP文本编码器提取文本特征 \(F_{col}^T, F_{str}^T\),组合为控制信号 \(\{cond_h, cond_c\}\) 通过ControlNet注入UNet
    • 设计动机:抽象美学文本无法被简单文本编码器理解,但HSV图和轮廓图是美学属性的直观视觉表征。二者分别丢失部分语义信息,因此配合文本补充语义
  2. "不完美配对"数据集(IIAEData):

    • 功能:构建可用于弱监督训练的美学增强数据集
    • 核心思路:从AVA、TAD66K、KonIQ、FLICKR中选高MOS值图像为参考、低MOS值图像为输入(排除中间分数)。用LLaVA-13b生成图像描述后按语义匹配对。用UNIAA-LLaVA生成标准化的美学评估文本。人工专家审核过滤错误配对。最终47.5K样本(45K训练+1.5K测试)
    • 设计动机:完美配对(同一图像仅改变美学属性)几乎不可能获取。不完美配对提供了"语义相同但美学不同"的弱监督信号,足以训练扩散模型学习美学增强
  3. 双分支监督框架:

    • 功能:解决输入图像和参考图像内容不一致时如何训练
    • 核心思路:利用扩散模型去噪的频率分层特性——早期步骤构建语义、后期步骤创建美学属性。设参数 \(t_s\)(默认900),当时间步 \(t \leq t_s\) 时由输入图像监督语义一致性 \(L_{inp}\),全程由高MOS参考图像监督美学属性 \(L_{ref}\)。总损失 \(L = L_{ref} + \lambda L_{inp}\)
    • 设计动机:直接用内容不一致的参考图像作唯一监督会导致内容偏移。双分支设计让模型在保持输入语义的同时学习参考图像的美学属性

损失函数 / 训练策略

基于SD-v1.5,UNet和ControlNet可训练,CLIP文本编码器冻结。\(t_s=900\),AdamW优化器,学习率1e-5,4×A800训练100K迭代。

实验关键数据

主实验

方法 LAION评分(256) LAION评分(512) MLLM评分(256) MLLM评分(512) CLIP-I(256) CLIP-I(512)
原始图像 4.962 5.123 3.243 3.300 1.000 1.000
ControlNet 4.979 5.522 3.271 3.415 0.628 0.617
InstructPix2Pix 4.991 5.396 3.264 3.325 0.764 0.690
MGIE 4.947 5.519 3.045 3.411 0.557 0.770
DOODL 5.102 5.140 3.255 3.297 0.775 0.703
DIAE 5.324 6.012 3.339 3.662 0.772 0.784

消融实验

配置 LAION评分 MLLM评分 CLIP-I 说明
DIAE (w/o v) 5.250 3.343 0.623 去掉视觉模态,退化为ControlNet
DIAE (w/o t) 5.428 3.410 0.792 去掉文本模态
DIAE(完整) 5.668 3.501 0.778 文本+视觉

关键发现

  • 512分辨率下DIAE的LAION评分提升17.4%(5.123→6.012),MLLM评分提升11.0%,同时CLIP-I维持0.784说明内容保持
  • 对低美学质量图像(MOS<4.0)改善最显著,能有效修正色彩和亮度缺陷
  • 去掉视觉模态CLIP-I跌至0.623说明HSV/轮廓图对内容一致性至关重要
  • \(t_s\) 越大保留输入语义越多——该参数提供了内容保持vs美学增强的显式控制

亮点与洞察

  • 将美学感知分解为色彩+结构两个可视化维度:HSV图直观编码色彩感知,轮廓图编码构图和焦点,这种分解方式将抽象美学概念落地为具体的视觉信号,思路可迁移到其他需要将抽象概念具象化的控制生成任务。
  • 弱监督训练策略的巧妙设计:利用去噪过程的频率分层特性,在不同时间步用不同监督信号,本质上是将"内容"和"风格"在时间维度上解耦。这种思路可以推广到其他内容-属性分离的生成任务。
  • IIAEData的构建思路:用现有美学评分数据集+LLM语义匹配自动构建弱配对数据,成本极低且可扩展,为缺乏配对数据的任务提供了通用的数据构建范式。

局限与展望

  • 人像/人群场景未覆盖——面部特征和体态是美学重要因素但数据中被排除
  • 基于SD-v1.5而非更新模型(如SD3.5),生成能力受限
  • IIAEData的"不完美配对"质量依赖LLaVA匹配精度,错配问题可能存在
  • 美学评估限于色彩+结构两维,缺少更微观的质感、光影渐变等属性
  • \(t_s\) 为固定值,不同图像可能需要自适应调节

相关工作与启发

  • vs InstructPix2Pix: IP2P面向语义编辑,依赖文本指令但缺乏美学理解,在美学任务上效果有限
  • vs DOODL: DOODL在采样时用美学分类器梯度引导,但只改变整体分数而不针对具体美学属性进行修正
  • vs ControlNet: ControlNet提供结构控制但不理解美学语义,DIAE在其基础上增加美学感知能力

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态美学感知+弱监督配对数据+双分支训练的组合新颖,但各组件单独看技术新意有限
  • 实验充分度: ⭐⭐⭐ 缺少用户研究,CLIP-I不能完全反映人类感知的内容一致性,消融不够深入
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,动机推导流畅,图表丰富
  • 价值: ⭐⭐⭐⭐ 美学增强是实际有需求的任务,弱监督数据构建思路有推广价值