跳转至

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

会议: CVPR 2026
arXiv: 2602.23980
代码: https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
领域: 多模态VLM
关键词: 美学指导, 图像裁剪, MLLM, 审美评估, CoT推理

一句话总结

定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。

研究背景与动机

领域现状:计算美学已从审美评分、美感描述等感知级任务发展到较高层次,但"审美指导"——识别审美问题并给出可执行的拍摄建议——这一关键能力尚未被系统研究。

现有痛点:(a) 通用MLLM(如GPT-4o)和审美MLLM(如AesExpert)面对照片时倾向于给出过度正面的评价,无法识别问题或给出可操作建议;(b) 审美裁剪模型虽能裁剪但缺乏可解释性和交互性,无法解释裁剪原因或适应用户偏好。

核心矛盾:现有审美数据集主要标注的是"好在哪里",缺乏"问题在哪里"和"如何改进"的指导性标注。同时MLLM与人类审美推理过程不对齐。

本文目标:(a) 构建首个审美指导数据集和基准;(b) 赋能MLLM审美指导能力;(c) 利用审美指导能力激活裁剪能力。

切入角度:审美指导遵循"整体印象→分析优劣→提出改进"的人类认知过程,用渐进式复杂度问答训练MLLM模拟这一过程。

核心 idea:通过审美指导能力建设(渐进式问答)和审美裁剪激活(CoT推理rationale),两阶段实现MLLM的审美理解和审美创作能力。

方法详解

整体框架

两阶段流程:Stage 1在AesGuide上训练MLLM回答从简单到复杂的审美问题(评分→分析→指导),建立审美指导能力。Stage 2在裁剪数据上用包含美学推理(AR)的CoT rationale训练,激活裁剪能力。

关键设计

  1. AesGuide数据集构建 (AGGF框架)

    • 功能:从在线平台和专业摄影师收集10748张照片,标注审美评分+分析+指导
    • 核心思路:两阶段标注——MLLM精炼(GPT-4o分析原始评论→Qwen2.5-VL-72B验证完整性)→专家标注(20位摄影专家审核修订,分离为审美分析和审美指导两部分)
    • 设计动机:原始在线评论噪声大且不一致,MLLM+专家两阶段保证标注质量和一致性
  2. 渐进式审美问答训练

    • 功能:从三个层次训练MLLM回答审美问题
    • 核心思路:第一层——整体印象(这张照片怎么样?);第二层——详细分析(构图有什么问题?光线是否合适?);第三层——改进指导(应该怎么改?如何调整拍摄角度/光线?)
    • 设计动机:模拟人类审美认知的渐进过程,先建立感性认知再深入理性分析,最后产出可执行建议
  3. 审美裁剪CoT激活

    • 功能:训练模型同时输出裁剪框和审美推理
    • 核心思路:为好裁剪和差裁剪都生成aesthetic rationale (AR),由GPT-4o根据红框标注的裁剪区域解释为什么该区域构图好/差,再由Qwen2.5-VL-72B验证一致性
    • 设计动机:单纯学裁剪坐标缺乏构图逻辑理解,CoT rationale迫使模型理解"为什么裁这里",提升可解释性和交互性
  4. AG评估基准设计

    • 功能:用GPT作为评分器,从完整性、精确性、相关性三个维度评估
    • 核心思路:每个维度0-2分,用golden annotation作参考由GPT-4评分
    • 辅以10位专家在100张样本上的人工评估验证GPT评分可靠性

损失函数 / 训练策略

两阶段均为标准指令微调:\(\mathcal{L} = -\mathbb{E}\sum_t \log\pi_\theta(y_t|x,q,y_{<t})\)。Stage 1冻结视觉编码器和连接器,只训练LLM。Stage 2全参数微调审美指导MLLM。

实验关键数据

审美指导评估 (AesGuide Benchmark)

模型 Completeness Preciseness Relevance Mean Expert
GPT-4o 0.84 1.09 1.01 0.98 1.15
AesExpert-7B 0.33 0.56 0.51 0.47 0.56
UNIAA-7B 1.03 1.02 1.23 1.09 1.01
InternVL 2.5-7B 0.83 1.01 1.02 0.95 0.99
Venus-I (ours) 1.27 1.33 1.81 1.47 1.50
LLaVA-1.5-13B 0.67 0.86 0.41 0.65 0.61
Venus-L-13B (ours) 1.28 1.35 1.83 1.49 1.53

审美裁剪 (FLMS Benchmark)

模型 IoU%↑ Disp↓ 可解释 可交互
CACNet 72.8 0.062
TransView 71.5 0.068
GPT-4o 58.3 0.105
Venus-Q (ours) 74.2 0.055

关键发现

  • Venus在审美指导Mean分上超越GPT-4o约50%(1.47 vs 0.98),提升最大的是Relevance维度(+0.79)
  • 审美指导能力对裁剪有直接帮助——不先做Stage 1,直接训练裁剪效果显著下降
  • 1069人的用户调查显示91%希望获得审美指导功能,验证了任务定义的实际需求
  • Venus在裁剪上同时达到SOTA性能和可解释+可交互能力,是唯一同时满足三者的方法
  • 包含"差裁剪"的rationale训练比只用"好裁剪"效果更好

亮点与洞察

  • 任务定义的贡献:正式定义"审美指导(AG)"任务填补了计算美学的关键空白,91%用户调查验证了真实需求。这一定义可以推动后续研究。
  • 两阶段能力传导:AG能力→裁剪能力的传导路径巧妙——先让模型"懂美",再让模型"做美",Stage 1是Stage 2的基础。这种能力递进的训练范式可迁移到其他"理解+创作"的双重任务。
  • AGGF标注框架:MLLM精炼+专家审核的标注流程兼顾了效率和质量,是大规模主观任务标注的实用方案。

局限与展望

  • AesGuide数据主要来自在线平台摄影社区,风格偏好可能倾向特定审美取向
  • 裁剪仅限二维重构,未涉及3D视角调整或光线修改等更丰富的审美修正
  • 评估依赖GPT作为评分器,对于高度主观的审美判断可能存在偏差
  • 未探索用户个性化——不同用户对"好照片"的标准不同

相关工作与启发

  • vs AesExpert:AesExpert专注审美感知和描述(偏正面),Venus关注审美指导(指出问题+给建议),定位完全不同
  • vs CACNet:CACNet是专用裁剪小模型,IoU高但无可解释性;Venus通过CoT rationale同时做到裁剪+解释

评分

  • 新颖性: ⭐⭐⭐⭐⭐ AG任务定义填补空白,AesGuide数据集是首创
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM × 两个任务,GPT+专家双重评估
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,用户调查增加说服力
  • 价值: ⭐⭐⭐⭐⭐ 数据集和benchmark对社区有高价值,直接面向实用的摄影指导场景