Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping¶
会议: CVPR 2026
arXiv: 2602.23980
代码: https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
领域: 多模态VLM
关键词: 美学指导, 图像裁剪, MLLM, 审美评估, CoT推理
一句话总结¶
定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。
研究背景与动机¶
领域现状:计算美学已从审美评分、美感描述等感知级任务发展到较高层次,但"审美指导"——识别审美问题并给出可执行的拍摄建议——这一关键能力尚未被系统研究。
现有痛点:(a) 通用MLLM(如GPT-4o)和审美MLLM(如AesExpert)面对照片时倾向于给出过度正面的评价,无法识别问题或给出可操作建议;(b) 审美裁剪模型虽能裁剪但缺乏可解释性和交互性,无法解释裁剪原因或适应用户偏好。
核心矛盾:现有审美数据集主要标注的是"好在哪里",缺乏"问题在哪里"和"如何改进"的指导性标注。同时MLLM与人类审美推理过程不对齐。
本文目标:(a) 构建首个审美指导数据集和基准;(b) 赋能MLLM审美指导能力;(c) 利用审美指导能力激活裁剪能力。
切入角度:审美指导遵循"整体印象→分析优劣→提出改进"的人类认知过程,用渐进式复杂度问答训练MLLM模拟这一过程。
核心 idea:通过审美指导能力建设(渐进式问答)和审美裁剪激活(CoT推理rationale),两阶段实现MLLM的审美理解和审美创作能力。
方法详解¶
整体框架¶
两阶段流程:Stage 1在AesGuide上训练MLLM回答从简单到复杂的审美问题(评分→分析→指导),建立审美指导能力。Stage 2在裁剪数据上用包含美学推理(AR)的CoT rationale训练,激活裁剪能力。
关键设计¶
-
AesGuide数据集构建 (AGGF框架):
- 功能:从在线平台和专业摄影师收集10748张照片,标注审美评分+分析+指导
- 核心思路:两阶段标注——MLLM精炼(GPT-4o分析原始评论→Qwen2.5-VL-72B验证完整性)→专家标注(20位摄影专家审核修订,分离为审美分析和审美指导两部分)
- 设计动机:原始在线评论噪声大且不一致,MLLM+专家两阶段保证标注质量和一致性
-
渐进式审美问答训练:
- 功能:从三个层次训练MLLM回答审美问题
- 核心思路:第一层——整体印象(这张照片怎么样?);第二层——详细分析(构图有什么问题?光线是否合适?);第三层——改进指导(应该怎么改?如何调整拍摄角度/光线?)
- 设计动机:模拟人类审美认知的渐进过程,先建立感性认知再深入理性分析,最后产出可执行建议
-
审美裁剪CoT激活:
- 功能:训练模型同时输出裁剪框和审美推理
- 核心思路:为好裁剪和差裁剪都生成aesthetic rationale (AR),由GPT-4o根据红框标注的裁剪区域解释为什么该区域构图好/差,再由Qwen2.5-VL-72B验证一致性
- 设计动机:单纯学裁剪坐标缺乏构图逻辑理解,CoT rationale迫使模型理解"为什么裁这里",提升可解释性和交互性
-
AG评估基准设计:
- 功能:用GPT作为评分器,从完整性、精确性、相关性三个维度评估
- 核心思路:每个维度0-2分,用golden annotation作参考由GPT-4评分
- 辅以10位专家在100张样本上的人工评估验证GPT评分可靠性
损失函数 / 训练策略¶
两阶段均为标准指令微调:\(\mathcal{L} = -\mathbb{E}\sum_t \log\pi_\theta(y_t|x,q,y_{<t})\)。Stage 1冻结视觉编码器和连接器,只训练LLM。Stage 2全参数微调审美指导MLLM。
实验关键数据¶
审美指导评估 (AesGuide Benchmark)¶
| 模型 | Completeness | Preciseness | Relevance | Mean | Expert |
|---|---|---|---|---|---|
| GPT-4o | 0.84 | 1.09 | 1.01 | 0.98 | 1.15 |
| AesExpert-7B | 0.33 | 0.56 | 0.51 | 0.47 | 0.56 |
| UNIAA-7B | 1.03 | 1.02 | 1.23 | 1.09 | 1.01 |
| InternVL 2.5-7B | 0.83 | 1.01 | 1.02 | 0.95 | 0.99 |
| Venus-I (ours) | 1.27 | 1.33 | 1.81 | 1.47 | 1.50 |
| LLaVA-1.5-13B | 0.67 | 0.86 | 0.41 | 0.65 | 0.61 |
| Venus-L-13B (ours) | 1.28 | 1.35 | 1.83 | 1.49 | 1.53 |
审美裁剪 (FLMS Benchmark)¶
| 模型 | IoU%↑ | Disp↓ | 可解释 | 可交互 |
|---|---|---|---|---|
| CACNet | 72.8 | 0.062 | ✗ | ✗ |
| TransView | 71.5 | 0.068 | ✗ | ✗ |
| GPT-4o | 58.3 | 0.105 | ✓ | ✓ |
| Venus-Q (ours) | 74.2 | 0.055 | ✓ | ✓ |
关键发现¶
- Venus在审美指导Mean分上超越GPT-4o约50%(1.47 vs 0.98),提升最大的是Relevance维度(+0.79)
- 审美指导能力对裁剪有直接帮助——不先做Stage 1,直接训练裁剪效果显著下降
- 1069人的用户调查显示91%希望获得审美指导功能,验证了任务定义的实际需求
- Venus在裁剪上同时达到SOTA性能和可解释+可交互能力,是唯一同时满足三者的方法
- 包含"差裁剪"的rationale训练比只用"好裁剪"效果更好
亮点与洞察¶
- 任务定义的贡献:正式定义"审美指导(AG)"任务填补了计算美学的关键空白,91%用户调查验证了真实需求。这一定义可以推动后续研究。
- 两阶段能力传导:AG能力→裁剪能力的传导路径巧妙——先让模型"懂美",再让模型"做美",Stage 1是Stage 2的基础。这种能力递进的训练范式可迁移到其他"理解+创作"的双重任务。
- AGGF标注框架:MLLM精炼+专家审核的标注流程兼顾了效率和质量,是大规模主观任务标注的实用方案。
局限与展望¶
- AesGuide数据主要来自在线平台摄影社区,风格偏好可能倾向特定审美取向
- 裁剪仅限二维重构,未涉及3D视角调整或光线修改等更丰富的审美修正
- 评估依赖GPT作为评分器,对于高度主观的审美判断可能存在偏差
- 未探索用户个性化——不同用户对"好照片"的标准不同
相关工作与启发¶
- vs AesExpert:AesExpert专注审美感知和描述(偏正面),Venus关注审美指导(指出问题+给建议),定位完全不同
- vs CACNet:CACNet是专用裁剪小模型,IoU高但无可解释性;Venus通过CoT rationale同时做到裁剪+解释
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ AG任务定义填补空白,AesGuide数据集是首创
- 实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM × 两个任务,GPT+专家双重评估
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,用户调查增加说服力
- 价值: ⭐⭐⭐⭐⭐ 数据集和benchmark对社区有高价值,直接面向实用的摄影指导场景