What Do Vision-Language Models Encode for Personalized Image Aesthetics Assessment?¶

会议: ACL 2026
arXiv: 2604.11374
代码: https://github.com/ynklab/vlm-latent-piaa
领域: 多模态VLM
关键词: 个性化美学评估, 视觉语言模型, 线性探测, 隐藏表示, 图像美学

一句话总结¶

本文通过线性探测发现 VLM 的隐藏表示中编码了丰富的多层次美学属性信息（光照、色彩、构图等），并传播到语言解码器层，基于此提出用简单线性回归实现无需微调的个性化图像美学评估（PIAA），效果显著优于 few-shot 和 LoRA 微调基线。

研究背景与动机¶

领域现状：个性化图像美学评估（PIAA）旨在预测特定用户对图像的美学评分，反映个体审美偏好。现有方法通常需要在大规模通用美学评估数据集上预训练，再针对每个用户进行适配，计算成本高且跨域迁移能力存疑。

现有痛点：现有 PIAA 方法需要多阶段训练流程（通用美学预训练 + 用户适配），且严重依赖领域特定的训练数据。VLM 在美学评估中的应用仅限于人口统计群体级别，尚未实现个体级别的个性化。此外，尚不清楚 VLM 的内部表示是否编码了个性化所需的多层次、连续的美学属性。

核心矛盾：VLM 通过大规模预训练获得了丰富的视觉语义理解能力，但其隐藏表示中的美学信息是否足够细粒度以支持个性化评估，这一问题未被验证。

本文目标：(1) 通过线性探测验证 VLM 隐藏表示中编码了哪些美学属性；(2) 利用这些表示实现轻量级、无需微调的个体级别 PIAA。

切入角度：借鉴表示分析领域的线性探测方法论，逐层分析 VLM 的视觉编码器和语言解码器，揭示美学信息的编码位置和传播模式。

核心 idea：VLM 的隐藏表示中天然编码了多维度美学属性信息，简单的线性回归就能将这些表示映射为个性化美学评分，无需任何模型微调。

方法详解¶

整体框架¶

方法分为两个阶段：首先通过线性探测分析 VLM 各层表示中的美学属性编码情况（探测阶段），然后基于发现，训练用户特定的线性模型从 VLM 隐藏表示预测个性化美学评分（PIAA 阶段）。输入为图像 + 固定提示语（"Assess the aesthetics of this image."），提取各层隐藏表示后通过平均池化得到单一向量。

关键设计¶

多层美学属性线性探测:
- 功能：验证 VLM 隐藏表示中编码了哪些美学属性，以及在哪些层中编码最强
- 核心思路：对 VLM 每一层的隐藏表示 \(\mathbf{h}(I)\) 训练岭回归，预测 AADB 数据集的 11 维美学属性向量（包括物体、光照、色彩和谐、景深、构图等）。提取三种表示：视觉编码器输出 \(\mathbf{V}_i\)、语言解码器文本 token \(\mathbf{LT}_i\)、语言解码器视觉 token \(\mathbf{LV}_i\)，通过 Spearman 相关系数评估探测质量。
- 设计动机：先前工作仅验证了 CLIP 编码整体美学评分的能力，但个性化需要多维度细粒度美学属性。本文首次系统验证了 VLM 中多属性美学信息的存在和分布。
用户特定线性回归（Linear-Hidden）:
- 功能：从 VLM 隐藏表示预测个体用户的美学评分
- 核心思路：对每个用户 \(u\)，训练一个用户特定的岭回归模型 \(M_u\)，使得 \(M_u \mathbf{h}(I) \approx s_{I,u}\)。使用语言解码器第 15 层（\(\mathbf{LT}_{15}\)）的文本 token 平均池化表示作为输入，仅需 100 张用户标注图像即可训练。
- 设计动机：探测分析发现语言解码器中间层稳定地包含丰富的美学信息。线性模型既轻量又可解释，避免了微调 VLM 的巨大开销。
属性降维变体（Linear-Hidden Reduce）:
- 功能：验证线性探测识别出的美学属性是否是个性化的充分信息来源
- 核心思路：先训练一个通用回归器 \(M\) 将 VLM 表示投影到 AADB 美学属性空间（排除整体评分），再在此低维属性空间上训练用户特定回归器 \(M'_u\) 预测个性化评分。
- 设计动机：如果降维后性能不降，说明探测识别的美学属性足以支撑个性化；如果降低，说明 VLM 表示中还包含探测未捕获的额外有用信息。

损失函数 / 训练策略¶

使用岭回归（L2 正则化的线性回归），无需梯度优化，训练极其轻量。每个用户独立训练一个回归模型，支持集 100 张图像，测试集 50 张图像。

实验关键数据¶

主实验¶

方法	PARA (ρ)	PARA (R²)	LAPIS (ρ)	LAPIS (R²)
Raw Text (Qwen3-VL 4B)	0.570	-1.277	0.176	-0.937
Few-shot (10-shot)	0.197	-1.576	-	-
LoRA (100-shot)	0.578	-1.751	-	-
Linear-Hidden (Qwen3-VL 4B)	0.611	0.362	0.401	0.138
Linear-Hidden Reduce	0.597	0.382	0.315	0.061
PIAA-ICI (域内)	0.590	0.303	-	-
PIAA-ICI (跨域迁移)	-	-	0.277	-0.120

消融实验¶

配置	PARA (ρ)	说明
Linear-Hidden (完整表示)	0.611	使用完整 VLM 隐藏表示
Linear-Hidden (GIAA)	0.603	用通用美学评分替代个性化标注
Linear-Hidden (Reduce)	0.597	仅用探测识别的美学属性

关键发现¶

VLM 编码多维度美学属性：超过半数的美学属性在 VLM 隐藏表示中达到中等以上正相关（Spearman > 0.4），Object（0.722）、VividColor（0.696）、Overall Score（0.727）等属性编码最强。
语言解码器层承载美学信息：语言解码器的文本 token 表示在大多数属性上达到与视觉编码器相当甚至更好的探测性能，纯视觉模型 DINOv3 在几乎所有属性上表现最差。
架构差异影响信息传播：Gemma 3 的美学信息在语言解码器早中层从视觉 token 转移到文本 token；Qwen3-VL 由于 DeepStack 架构，两者在各层保持一致。
照片域 vs 艺术品域：在照片数据集 PARA 上，Reduce 变体接近完整模型性能（0.597 vs 0.611），但在艺术品数据集 LAPIS 上差距更大（0.315 vs 0.401），说明艺术品评估需要基于照片探测未捕获的额外信息。
简单线性优于微调：Linear-Hidden 显著优于 Few-shot、LoRA、Raw Text 等基于文本输出的方法，甚至超越了需要额外预训练的领域专用 PIAA-ICI 模型。

亮点与洞察¶

"读隐藏层"比"读文本输出"更有效：VLM 生成的文本评分（Raw Text）远不如直接从隐藏表示做线性回归，说明隐藏表示中包含大量未被文本生成过程保留的美学信息。这一发现对其他主观评估任务也有启发。
极其轻量的个性化方案：每个用户仅需训练一个岭回归模型（100 张图像），无需微调 VLM 参数，实现了高效的个体级别个性化。
跨域迁移的洞察：在照片上探测到的美学属性能较好地迁移到照片域 PIAA，但在艺术品域需要额外信息，这为未来跨域美学评估提供了方向。

局限与展望¶

仅测试了两个 VLM 家族（Qwen3-VL、Gemma 3），未涉及更大规模模型或其他架构。
线性探测仅能捕获线性可分的信息，VLM 中可能存在非线性编码的美学属性。
个性化仅基于图像表示，未考虑用户属性（如年龄、性别、文化背景等），可能限制了个性化深度。
AADB 的美学属性维度有限（11 维），可能遗漏了对某些用户重要的审美维度。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统分析 VLM 隐藏层的美学属性编码并用于个性化美学评估
实验充分度: ⭐⭐⭐⭐ 多模型多数据集对比，含丰富的变体和消融分析
写作质量: ⭐⭐⭐⭐⭐ 逻辑链从探测分析到应用设计非常清晰
价值: ⭐⭐⭐⭐ 为利用预训练模型隐藏表示进行主观评估提供了新范式