Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping¶

会议: CVPR 2026
arXiv: 2602.23980
代码: https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
领域: 多模态VLM
关键词: 美学指导, 图像裁剪, MLLM, 审美评估, CoT推理

一句话总结¶

定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注)，提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力，再通过CoT推理激活审美裁剪能力，在两个任务上均达到SOTA。

研究背景与动机¶

领域现状：计算美学已从审美评分、美感描述等感知级任务发展到较高层次，但"审美指导"——识别审美问题并给出可执行的拍摄建议——这一关键能力尚未被系统研究。

现有痛点：(a) 通用MLLM(如GPT-4o)和审美MLLM(如AesExpert)面对照片时倾向于给出过度正面的评价，无法识别问题或给出可操作建议；(b) 审美裁剪模型虽能裁剪但缺乏可解释性和交互性，无法解释裁剪原因或适应用户偏好。

核心矛盾：现有审美数据集主要标注的是"好在哪里"，缺乏"问题在哪里"和"如何改进"的指导性标注。同时MLLM与人类审美推理过程不对齐。

本文目标：(a) 构建首个审美指导数据集和基准；(b) 赋能MLLM审美指导能力；(c) 利用审美指导能力激活裁剪能力。

切入角度：审美指导遵循"整体印象→分析优劣→提出改进"的人类认知过程，用渐进式复杂度问答训练MLLM模拟这一过程。

核心 idea：通过审美指导能力建设（渐进式问答）和审美裁剪激活（CoT推理rationale），两阶段实现MLLM的审美理解和审美创作能力。

方法详解¶

整体框架¶

两阶段流程：Stage 1在AesGuide上训练MLLM回答从简单到复杂的审美问题（评分→分析→指导），建立审美指导能力。Stage 2在裁剪数据上用包含美学推理(AR)的CoT rationale训练，激活裁剪能力。

关键设计¶

AesGuide数据集构建 (AGGF框架)：
- 功能：从在线平台和专业摄影师收集10748张照片，标注审美评分+分析+指导
- 核心思路：两阶段标注——MLLM精炼(GPT-4o分析原始评论→Qwen2.5-VL-72B验证完整性)→专家标注(20位摄影专家审核修订，分离为审美分析和审美指导两部分)
- 设计动机：原始在线评论噪声大且不一致，MLLM+专家两阶段保证标注质量和一致性
渐进式审美问答训练：
- 功能：从三个层次训练MLLM回答审美问题
- 核心思路：第一层——整体印象（这张照片怎么样？）；第二层——详细分析（构图有什么问题？光线是否合适？）；第三层——改进指导（应该怎么改？如何调整拍摄角度/光线？）
- 设计动机：模拟人类审美认知的渐进过程，先建立感性认知再深入理性分析，最后产出可执行建议
审美裁剪CoT激活：
- 功能：训练模型同时输出裁剪框和审美推理
- 核心思路：为好裁剪和差裁剪都生成aesthetic rationale (AR)，由GPT-4o根据红框标注的裁剪区域解释为什么该区域构图好/差，再由Qwen2.5-VL-72B验证一致性
- 设计动机：单纯学裁剪坐标缺乏构图逻辑理解，CoT rationale迫使模型理解"为什么裁这里"，提升可解释性和交互性
AG评估基准设计：
- 功能：用GPT作为评分器，从完整性、精确性、相关性三个维度评估
- 核心思路：每个维度0-2分，用golden annotation作参考由GPT-4评分
- 辅以10位专家在100张样本上的人工评估验证GPT评分可靠性

损失函数 / 训练策略¶

两阶段均为标准指令微调：\(\mathcal{L} = -\mathbb{E}\sum_t \log\pi_\theta(y_t|x,q,y_{<t})\)。Stage 1冻结视觉编码器和连接器，只训练LLM。Stage 2全参数微调审美指导MLLM。

实验关键数据¶

审美指导评估 (AesGuide Benchmark)¶

模型	Completeness	Preciseness	Relevance	Mean	Expert
GPT-4o	0.84	1.09	1.01	0.98	1.15
AesExpert-7B	0.33	0.56	0.51	0.47	0.56
UNIAA-7B	1.03	1.02	1.23	1.09	1.01
InternVL 2.5-7B	0.83	1.01	1.02	0.95	0.99
Venus-I (ours)	1.27	1.33	1.81	1.47	1.50
LLaVA-1.5-13B	0.67	0.86	0.41	0.65	0.61
Venus-L-13B (ours)	1.28	1.35	1.83	1.49	1.53

审美裁剪 (FLMS Benchmark)¶

模型	IoU%↑	Disp↓	可解释	可交互
CACNet	72.8	0.062	✗	✗
TransView	71.5	0.068	✗	✗
GPT-4o	58.3	0.105	✓	✓
Venus-Q (ours)	74.2	0.055	✓	✓

关键发现¶

Venus在审美指导Mean分上超越GPT-4o约50%（1.47 vs 0.98），提升最大的是Relevance维度（+0.79）
审美指导能力对裁剪有直接帮助——不先做Stage 1，直接训练裁剪效果显著下降
1069人的用户调查显示91%希望获得审美指导功能，验证了任务定义的实际需求
Venus在裁剪上同时达到SOTA性能和可解释+可交互能力，是唯一同时满足三者的方法
包含"差裁剪"的rationale训练比只用"好裁剪"效果更好

亮点与洞察¶

任务定义的贡献：正式定义"审美指导(AG)"任务填补了计算美学的关键空白，91%用户调查验证了真实需求。这一定义可以推动后续研究。
两阶段能力传导：AG能力→裁剪能力的传导路径巧妙——先让模型"懂美"，再让模型"做美"，Stage 1是Stage 2的基础。这种能力递进的训练范式可迁移到其他"理解+创作"的双重任务。
AGGF标注框架：MLLM精炼+专家审核的标注流程兼顾了效率和质量，是大规模主观任务标注的实用方案。

局限与展望¶

AesGuide数据主要来自在线平台摄影社区，风格偏好可能倾向特定审美取向
裁剪仅限二维重构，未涉及3D视角调整或光线修改等更丰富的审美修正
评估依赖GPT作为评分器，对于高度主观的审美判断可能存在偏差
未探索用户个性化——不同用户对"好照片"的标准不同

评分¶

新颖性: ⭐⭐⭐⭐⭐ AG任务定义填补空白，AesGuide数据集是首创
实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM × 两个任务，GPT+专家双重评估
写作质量: ⭐⭐⭐⭐ 框架图清晰，用户调查增加说服力
价值: ⭐⭐⭐⭐⭐ 数据集和benchmark对社区有高价值，直接面向实用的摄影指导场景