Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping¶
会议: CVPR 2026
arXiv: 2602.23980
代码: https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
领域: 多模态VLM
关键词: 美学指导, 图像裁剪, MLLM, 审美评估, CoT推理
一句话总结¶
定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。
研究背景与动机¶
领域现状:计算美学已从审美评分、美感描述等感知级任务发展到较高层次,但"审美指导"——识别审美问题并给出可执行的拍摄建议——这一关键能力尚未被系统研究。
现有痛点:(a) 通用MLLM(如GPT-4o)和审美MLLM(如AesExpert)面对照片时倾向于给出过度正面的评价,无法识别问题或给出可操作建议;(b) 审美裁剪模型虽能裁剪但缺乏可解释性和交互性,无法解释裁剪原因或适应用户偏好。
核心矛盾:现有审美数据集主要标注的是"好在哪里",缺乏"问题在哪里"和"如何改进"的指导性标注。同时MLLM与人类审美推理过程不对齐。
本文目标:(a) 构建首个审美指导数据集和基准;(b) 赋能MLLM审美指导能力;(c) 利用审美指导能力激活裁剪能力。
切入角度:审美指导遵循"整体印象→分析优劣→提出改进"的人类认知过程,用渐进式复杂度问答训练MLLM模拟这一过程。
核心 idea:通过审美指导能力建设(渐进式问答)和审美裁剪激活(CoT推理rationale),两阶段实现MLLM的审美理解和审美创作能力。
方法详解¶
整体框架¶
Venus想解决的痛点是:现有MLLM面对一张照片只会给笼统的好评,既说不清问题在哪,更给不出可操作的拍摄建议。它把这件事拆成两阶段递进训练。Stage 1 在自建的 AesGuide 上让模型按"评分→分析→指导"由浅入深地回答审美问题,先把"审美指导"这项理解能力立起来;Stage 2 再把这份理解力迁到裁剪上——训练数据里每个裁剪框都配一段审美推理(aesthetic rationale, AR),逼模型在输出坐标的同时说清"为什么这么裁"。前者教模型"懂美",后者让它"做美",两步共用同一套审美认知。这一切的前提是数据:AesGuide 先经 AGGF 标注框架把噪声评论提炼成高质量的"审美分析+审美指导"标注,最后再用 GPT 评分器在 AG 基准上检验模型答得好不好。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
subgraph DATA["AesGuide 数据集(AGGF 标注框架)"]
direction TB
A["网络/专业照片<br/>+ 原始评论"] --> B["MLLM 精炼<br/>GPT-4o 提炼 → Qwen2.5-VL-72B 校验"]
B --> C["专家标注<br/>切成审美分析 + 审美指导"]
end
C --> D["渐进式审美问答<br/>整体印象 → 分析优劣 → 改进指导<br/>冻结视觉编码器/连接器,只训 LLM"]
D --> E["审美指导 MLLM(π_AG)"]
E --> F["审美裁剪的 CoT 激活<br/>好/差裁剪框各配审美推理(AR)<br/>全参微调,联合输出裁剪框 + 推理"]
F --> G["审美裁剪 MLLM"]
E -->|开放式生成无标答| H["AG 评估基准<br/>GPT 按完整性/精确性/相关性打分"]
关键设计¶
1. AesGuide 数据集:把"好在哪"补成"问题在哪 + 怎么改"
现有审美数据集大多只标注照片好在哪里,缺的正是"哪里有问题""该怎么调"这类指导性信息。AesGuide 从在线平台和专业摄影师处收集 10748 张照片,并采用两阶段标注来对抗在线评论噪声大、风格不一致的问题:先做 MLLM 精炼——GPT-4o 把原始评论整理成结构化的审美分析,再由 Qwen2.5-VL-72B 校验信息是否完整;再做专家把关——20 位摄影专家逐条审核修订,并把内容明确切成"审美分析"(指出优劣)和"审美指导"(给改进建议)两部分。这样既借 MLLM 的吞吐量做了初稿,又靠专家保证了主观标注的质量与一致性。
2. 渐进式审美问答:按人类看片的认知顺序逐层加难
人欣赏一张照片是"先有整体印象,再分析优劣,最后想怎么改",Venus 把训练问题也设计成对应的三层递进。第一层问整体印象(这张照片怎么样?),建立感性判断;第二层追细节分析(构图有什么问题?光线是否合适?),把感觉落到具体审美要素上;第三层要可执行的改进指导(应该怎么改?拍摄角度、光线该如何调整?)。让模型顺着"感性认知→理性拆解→给出建议"走一遍,比直接喂"问题+答案"更贴合审美推理的真实过程,产出的建议也更落地。
3. 审美裁剪的 CoT 激活:用 rationale 逼模型理解"为什么裁这里"
只学裁剪坐标的模型能框出区域却讲不出构图逻辑,既不可解释也无法和用户交互。Venus 为每个裁剪框都配一段审美推理(AR):GPT-4o 依据红框标出的裁剪区域解释这一裁法构图为什么好或差,再由 Qwen2.5-VL-72B 校验解释与图像是否一致。关键是好裁剪和差裁剪都生成 rationale——让模型在正反对比中真正学到"什么样的裁法好",而不只是模仿坐标。这一步把裁剪从黑盒回归变成了带构图推理的可解释、可交互过程。
4. AG 评估基准:用 GPT 当评分器,三维度对照黄金标注打分
审美指导是开放式生成,没有唯一答案,难以用传统指标衡量。基准让 GPT-4 以人工黄金标注为参照,从三个维度给模型回答打分,每个维度 0–2 分:完整性(Completeness,问题/建议是否覆盖全)、精确性(Preciseness,判断是否准确)、相关性(Relevance,是否切题)。为确认这套自动评分靠谱,作者另请 10 位专家在 100 张样本上人工评分做交叉验证,证明 GPT 评分与专家判断一致。
损失函数 / 训练策略¶
两阶段都是标准指令微调,目标为下一词预测的负对数似然:
其中 \(x\) 为图像、\(q\) 为问题。Stage 1 冻结视觉编码器和连接器、只训练 LLM,把审美指导能力注入语言侧;Stage 2 对该审美指导 MLLM 做全参数微调,激活裁剪能力。
实验关键数据¶
审美指导评估 (AesGuide Benchmark)¶
| 模型 | Completeness | Preciseness | Relevance | Mean | Expert |
|---|---|---|---|---|---|
| GPT-4o | 0.84 | 1.09 | 1.01 | 0.98 | 1.15 |
| AesExpert-7B | 0.33 | 0.56 | 0.51 | 0.47 | 0.56 |
| UNIAA-7B | 1.03 | 1.02 | 1.23 | 1.09 | 1.01 |
| InternVL 2.5-7B | 0.83 | 1.01 | 1.02 | 0.95 | 0.99 |
| Venus-I (ours) | 1.27 | 1.33 | 1.81 | 1.47 | 1.50 |
| LLaVA-1.5-13B | 0.67 | 0.86 | 0.41 | 0.65 | 0.61 |
| Venus-L-13B (ours) | 1.28 | 1.35 | 1.83 | 1.49 | 1.53 |
审美裁剪 (FLMS Benchmark)¶
| 模型 | IoU%↑ | Disp↓ | 可解释 | 可交互 |
|---|---|---|---|---|
| CACNet | 72.8 | 0.062 | ✗ | ✗ |
| TransView | 71.5 | 0.068 | ✗ | ✗ |
| GPT-4o | 58.3 | 0.105 | ✓ | ✓ |
| Venus-Q (ours) | 74.2 | 0.055 | ✓ | ✓ |
关键发现¶
- Venus在审美指导Mean分上超越GPT-4o约50%(1.47 vs 0.98),提升最大的是Relevance维度(+0.79)
- 审美指导能力对裁剪有直接帮助——不先做Stage 1,直接训练裁剪效果显著下降
- 1069人的用户调查显示91%希望获得审美指导功能,验证了任务定义的实际需求
- Venus在裁剪上同时达到SOTA性能和可解释+可交互能力,是唯一同时满足三者的方法
- 包含"差裁剪"的rationale训练比只用"好裁剪"效果更好
亮点与洞察¶
- 任务定义的贡献:正式定义"审美指导(AG)"任务填补了计算美学的关键空白,91%用户调查验证了真实需求。这一定义可以推动后续研究。
- 两阶段能力传导:AG能力→裁剪能力的传导路径巧妙——先让模型"懂美",再让模型"做美",Stage 1是Stage 2的基础。这种能力递进的训练范式可迁移到其他"理解+创作"的双重任务。
- AGGF标注框架:MLLM精炼+专家审核的标注流程兼顾了效率和质量,是大规模主观任务标注的实用方案。
局限与展望¶
- AesGuide数据主要来自在线平台摄影社区,风格偏好可能倾向特定审美取向
- 裁剪仅限二维重构,未涉及3D视角调整或光线修改等更丰富的审美修正
- 评估依赖GPT作为评分器,对于高度主观的审美判断可能存在偏差
- 未探索用户个性化——不同用户对"好照片"的标准不同
相关工作与启发¶
- vs AesExpert:AesExpert专注审美感知和描述(偏正面),Venus关注审美指导(指出问题+给建议),定位完全不同
- vs CACNet:CACNet是专用裁剪小模型,IoU高但无可解释性;Venus通过CoT rationale同时做到裁剪+解释
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ AG任务定义填补空白,AesGuide数据集是首创
- 实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM × 两个任务,GPT+专家双重评估
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,用户调查增加说服力
- 价值: ⭐⭐⭐⭐⭐ 数据集和benchmark对社区有高价值,直接面向实用的摄影指导场景