Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception¶
会议: CVPR 2026
arXiv: 2603.11556
代码: 无
领域: 图像生成 / 图像美学增强
关键词: 图像美学增强, 多模态美学感知, 弱监督扩散模型, 不完美配对数据, ControlNet
一句话总结¶
DIAE提出多模态美学感知(MAP)模块将模糊的美学指令转为HSV+轮廓图+文本的显式控制信号,并构建"不完美配对"数据集IIAEData配合双分支监督框架进行弱监督训练,实现内容一致的美学增强,LAION美学评分提升17.4%。
研究背景与动机¶
领域现状:图像美学增强要求模型具备审美感知能力,识别色彩、构图、光照等方面的不足并进行相应编辑。近年扩散模型在图像编辑领域取得巨大成功,但现有方法主要面向语义编辑,缺乏美学感知能力。
现有痛点:(1) 美学指令理解困难——美学评价如"饱和度过低"、"使用三分法构图"高度抽象,简单文本编码器无法理解并转化为生成方向;(2) 缺乏训练数据——美学增强需要内容一致但美学质量不同的"完美配对"图像对,专业标注代价极高。
核心矛盾:美学是高层人类视觉能力,受文化、经历等不可控因素影响,且缺乏可直接用于监督学习的配对数据。现有图像质量评估数据集的人工退化(模糊、噪声)反映的是质量而非美学。
本文目标 (1) 如何让扩散模型理解和执行模糊的美学指令;(2) 如何在没有完美配对数据的条件下训练美学增强模型。
切入角度:将美学感知分解为色彩和结构两个维度,分别用HSV色彩图和HED轮廓图作为视觉表示,配合文本描述形成多模态控制信号。数据方面,用语义相同但美学不同的"不完美配对"图像进行弱监督训练。
核心 idea:用多模态视觉表示(HSV+轮廓)将模糊美学指令具象化,用"不完美配对"数据+双分支监督实现弱监督美学增强。
方法详解¶
整体框架¶
三个主要组件:(1) IIAEData数据集构建——从AVA/TAD66K等数据集中按MOS分高低质量,通过LLaVA匹配语义相似对并用UNIAA-LLaVA生成美学评估文本;(2) MAP多模态美学感知——将美学评估转为HSV图+轮廓图+文本的控制信号通过ControlNet注入;(3) 双分支监督框架——输入图像监督语义(早期去噪),参考图像监督美学(全程),实现弱监督训练。
关键设计¶
-
多模态美学感知(MAP):
- 功能:将模糊的美学指令转化为扩散模型可理解的显式控制信号
- 核心思路:将美学评估分为色彩属性(饱和度、光照、光照技巧)和结构属性(焦点、拍摄类型、构图、构图技巧)。色彩属性用HSV色彩图作为视觉表示(比RGB更直观地表达色彩感知),结构属性用HED轮廓图强调焦点和构图。两个CNN分支 \(\Phi_i\) 提取视觉特征 \(F_{col}^I, F_{str}^I\),CLIP文本编码器提取文本特征 \(F_{col}^T, F_{str}^T\),组合为控制信号 \(\{cond_h, cond_c\}\) 通过ControlNet注入UNet
- 设计动机:抽象美学文本无法被简单文本编码器理解,但HSV图和轮廓图是美学属性的直观视觉表征。二者分别丢失部分语义信息,因此配合文本补充语义
-
"不完美配对"数据集(IIAEData):
- 功能:构建可用于弱监督训练的美学增强数据集
- 核心思路:从AVA、TAD66K、KonIQ、FLICKR中选高MOS值图像为参考、低MOS值图像为输入(排除中间分数)。用LLaVA-13b生成图像描述后按语义匹配对。用UNIAA-LLaVA生成标准化的美学评估文本。人工专家审核过滤错误配对。最终47.5K样本(45K训练+1.5K测试)
- 设计动机:完美配对(同一图像仅改变美学属性)几乎不可能获取。不完美配对提供了"语义相同但美学不同"的弱监督信号,足以训练扩散模型学习美学增强
-
双分支监督框架:
- 功能:解决输入图像和参考图像内容不一致时如何训练
- 核心思路:利用扩散模型去噪的频率分层特性——早期步骤构建语义、后期步骤创建美学属性。设参数 \(t_s\)(默认900),当时间步 \(t \leq t_s\) 时由输入图像监督语义一致性 \(L_{inp}\),全程由高MOS参考图像监督美学属性 \(L_{ref}\)。总损失 \(L = L_{ref} + \lambda L_{inp}\)
- 设计动机:直接用内容不一致的参考图像作唯一监督会导致内容偏移。双分支设计让模型在保持输入语义的同时学习参考图像的美学属性
损失函数 / 训练策略¶
基于SD-v1.5,UNet和ControlNet可训练,CLIP文本编码器冻结。\(t_s=900\),AdamW优化器,学习率1e-5,4×A800训练100K迭代。
实验关键数据¶
主实验¶
| 方法 | LAION评分(256) | LAION评分(512) | MLLM评分(256) | MLLM评分(512) | CLIP-I(256) | CLIP-I(512) |
|---|---|---|---|---|---|---|
| 原始图像 | 4.962 | 5.123 | 3.243 | 3.300 | 1.000 | 1.000 |
| ControlNet | 4.979 | 5.522 | 3.271 | 3.415 | 0.628 | 0.617 |
| InstructPix2Pix | 4.991 | 5.396 | 3.264 | 3.325 | 0.764 | 0.690 |
| MGIE | 4.947 | 5.519 | 3.045 | 3.411 | 0.557 | 0.770 |
| DOODL | 5.102 | 5.140 | 3.255 | 3.297 | 0.775 | 0.703 |
| DIAE | 5.324 | 6.012 | 3.339 | 3.662 | 0.772 | 0.784 |
消融实验¶
| 配置 | LAION评分 | MLLM评分 | CLIP-I | 说明 |
|---|---|---|---|---|
| DIAE (w/o v) | 5.250 | 3.343 | 0.623 | 去掉视觉模态,退化为ControlNet |
| DIAE (w/o t) | 5.428 | 3.410 | 0.792 | 去掉文本模态 |
| DIAE(完整) | 5.668 | 3.501 | 0.778 | 文本+视觉 |
关键发现¶
- 512分辨率下DIAE的LAION评分提升17.4%(5.123→6.012),MLLM评分提升11.0%,同时CLIP-I维持0.784说明内容保持
- 对低美学质量图像(MOS<4.0)改善最显著,能有效修正色彩和亮度缺陷
- 去掉视觉模态CLIP-I跌至0.623说明HSV/轮廓图对内容一致性至关重要
- \(t_s\) 越大保留输入语义越多——该参数提供了内容保持vs美学增强的显式控制
亮点与洞察¶
- 将美学感知分解为色彩+结构两个可视化维度:HSV图直观编码色彩感知,轮廓图编码构图和焦点,这种分解方式将抽象美学概念落地为具体的视觉信号,思路可迁移到其他需要将抽象概念具象化的控制生成任务。
- 弱监督训练策略的巧妙设计:利用去噪过程的频率分层特性,在不同时间步用不同监督信号,本质上是将"内容"和"风格"在时间维度上解耦。这种思路可以推广到其他内容-属性分离的生成任务。
- IIAEData的构建思路:用现有美学评分数据集+LLM语义匹配自动构建弱配对数据,成本极低且可扩展,为缺乏配对数据的任务提供了通用的数据构建范式。
局限与展望¶
- 人像/人群场景未覆盖——面部特征和体态是美学重要因素但数据中被排除
- 基于SD-v1.5而非更新模型(如SD3.5),生成能力受限
- IIAEData的"不完美配对"质量依赖LLaVA匹配精度,错配问题可能存在
- 美学评估限于色彩+结构两维,缺少更微观的质感、光影渐变等属性
- \(t_s\) 为固定值,不同图像可能需要自适应调节
相关工作与启发¶
- vs InstructPix2Pix: IP2P面向语义编辑,依赖文本指令但缺乏美学理解,在美学任务上效果有限
- vs DOODL: DOODL在采样时用美学分类器梯度引导,但只改变整体分数而不针对具体美学属性进行修正
- vs ControlNet: ControlNet提供结构控制但不理解美学语义,DIAE在其基础上增加美学感知能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 多模态美学感知+弱监督配对数据+双分支训练的组合新颖,但各组件单独看技术新意有限
- 实验充分度: ⭐⭐⭐ 缺少用户研究,CLIP-I不能完全反映人类感知的内容一致性,消融不够深入
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,动机推导流畅,图表丰富
- 价值: ⭐⭐⭐⭐ 美学增强是实际有需求的任务,弱监督数据构建思路有推广价值