Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach¶
会议: ICLR 2026
arXiv: 2509.21950
代码: GitHub
领域: 多模态VLM
关键词: Visual Emotion, MLLM Evaluation, Open-vocabulary, ESJ, MVEI Benchmark
一句话总结¶
提出情感陈述判断(ESJ)任务与 INSETS 自动标注流水线,将视觉情感评估从"开放式分类"重构为"陈述真伪判断",构建了 MVEI benchmark(3,086 样本、424 种情感标签、四个认知维度),系统评估 19 个 MLLMs,发现即使 GPT-4o 也与人类(91.6%)存在 13.3% 的准确率差距。
研究背景与动机¶
领域现状:情感图像内容分析(AICA)是多模态理解的关键方向。随着 MLLMs 在通用视觉任务上不断突破,其视觉情感感知能力受到关注,但研究结论存在矛盾——有研究认为 MLLMs 情感识别能力有限,也有研究成功将其用作情感标注器进行数据增强。
现有痛点:作者系统分析了这种矛盾的来源,归因于传统评估方法与 MLLMs 之间的不兼容,具体体现在四个方面:(1)固定标签排除了其他合理答案——情感感知本质上具有主观性,同一图像可引发不同反应;(2)情感分类粒度太粗——主流 benchmark(FI、Artemis)仅有 8 种情感类别;(3)忽视上下文因素——只关注图像内在属性,忽略场景、观者身份等心理学证实的外部影响因素;(4)标注代价高昂——EMOTIC 数据集需要协调 23,788 名标注者进行众包。
核心矛盾:现有评估用开放式问题对 MLLMs 提问(如"这张图片的情感是什么?"),一方面答案空间开放导致评判标准模糊,另一方面分类体系封闭又无法覆盖细粒度情感差异,评估精度和评估覆盖面之间存在根本冲突。
本文目标 (1)如何消除开放式情感评估的答案歧义?(2)如何在保持可扩展性的同时覆盖细粒度情感?(3)如何将场景上下文和主观性纳入评估维度?(4)如何以最小人工代价构建大规模评估数据?
切入角度:受认知心理学启发,将情感评估从"生成式回答"转为"判断式验证"——让模型判断图像与情感陈述是否匹配,同时设计四个互补维度覆盖从基本情感识别到主观性理解的完整能力谱。
核心 idea:用"判断情感陈述对错"替代"回答情感是什么",从根本上消除开放式评估的歧义,同时通过自动化流水线实现开放词汇、多维度、大规模评估。
方法详解¶
整体框架¶
整个方案由两个核心组件构成:ESJ 任务定义了评估的"怎么测",INSETS 流水线解决了"测什么"。Pipeline 为:首先 INSETS 从 EmoSet 的 17,716 张图像中自动提取开放词汇情感标签(通过 9 个 MLLMs 的集成投票),然后基于标签构建四个维度的情感陈述(正确/错误各半),自动生成 462K 条标注语料(INSETS-462k),最后经人工精炼得到 3,086 条高质量 MVEI benchmark 样本。评测时,MLLMs 接收图像+陈述对,仅需输出 "Correct" 或 "Incorrect"。
关键设计¶
-
四维度评估体系(基于认知心理学)
- 功能:从四个互补维度全面衡量 MLLMs 的视觉情感理解能力
- 核心思路:(a)情感极性(Sentiment Polarity)——判断情感基调(正面/负面/混合),根据 POM 中标签所属谱系自动确定正确性,配合三条预定义极性陈述;(b)情感诠释(Emotion Interpretation)——将原型解释与情感状态组合,匹配则为正确,不匹配则为错误,干扰策略包括图像间干扰(用视觉相似但情感不同的图像替换解释)和图像内干扰(同图对立极性标签间交换);(c)场景上下文(Scene Context)——将原型场景背景与情感结论组合,错误陈述通过极性翻转(POM 对立谱随机采样)或同图对立极性场景交换构建;(d)感知主观性(Perception Subjectivity)——将原型观者角色与对候选情感的偏好倾向组合,错误陈述通过反转偏好顺序构建
- 设计动机:现有 benchmark 只覆盖前两个维度(图像内在属性),而心理学研究表明外部因素(场景、观者身份)对情感感知有关键影响。四维度构成了从"能认出情感"到"理解情感如何因人因境而异"的完整能力谱
-
INSETS 开放词汇情感标记流水线
- 功能:以最小人工介入为图像分配开放词汇情感标签,并自动构建多维度情感陈述
- 核心思路:分两个阶段——Stage 1(标记):9 个 MLLMs 对每张图像分别提取潜在情感词(平均每模型 8-13 个),汇总到情感池后用 GPT-4 过滤不适合的词汇,将过滤后的词挂载到 Parrott 层次情感模型(6 一级 / 25 二级 / 113 三级类别,形成扩展版 POM),最后通过基于 POM 的集成多数投票选择共识标签(二级类别上分配配额→类内按频率排序选 top-k)。Stage 2(构建):为每个标签在其来源 MLLM 上生成原型解释/场景/角色三种陈述,然后按维度规则组合正确/错误陈述
- 设计动机:单个 MLLM 标注存在幻觉和偏差,多模型集成 + 心理学层次模型约束,可同时保证标注可靠性(90.6% 准确率)和开放词汇灵活性(751 种不同情感标签)
-
MVEI Benchmark 构建(人工精炼)
- 功能:从 INSETS-462k 中精炼出高质量评估 benchmark
- 核心思路:从语料中采样 3,164 条,招募 5 名研究生按四维度任务指南评估标注准确性,以 ≥4/5 共识为正确、≤1/5 为错误、中间为歧义。保留正确、修正错误、丢弃歧义,得到最终 3,086 条 MVEI 样本
- 设计动机:自动标注虽高效但难免误差,人工精炼确保 benchmark 的黄金标准质量,同时约 100 人时的代价远低于传统从零标注
实验关键数据¶
主实验¶
| 模型 | 参数量 | 情感极性 | 情感诠释 | 场景上下文 | 感知主观性 | 总准确率 |
|---|---|---|---|---|---|---|
| GPT-4o | - | 72.5% | 84.3% | 81.6% | 69.2% | 78.3% |
| InternVL2.5 | 8.3B | 75.7% | 80.2% | 79.4% | 61.3% | 74.7% |
| mPLUG-Owl3 | 8.1B | 73.9% | 79.3% | 81.7% | 75.0% | 78.1% |
| Qwen2.5-VL | 8.3B | 63.2% | 81.5% | 83.9% | 66.3% | 75.9% |
| Qwen2-VL | 8.3B | 70.7% | 75.0% | 86.1% | 72.8% | 76.6% |
| LLaVa-1.6 | 7.6B | 66.4% | 69.7% | 55.3% | 49.7% | 60.2% |
| 人类平均 | - | 92.3% | 90.1% | 95.3% | 89.6% | 91.6% |
消融实验(MLLM 适配策略对 Qwen2.5-VL 的提升)¶
| 适配策略 | 情感极性 | 情感诠释 | 场景上下文 | 感知主观性 | 总准确率 |
|---|---|---|---|---|---|
| 直接推理 | 63.2% | 81.5% | 83.9% | 66.3% | 75.9% |
| Chain-of-Thought | 67.4 (+4.2) | 81.5 (+0.0) | 84.6 (+0.7) | 67.0 (+0.7) | 76.6 (+0.8) |
| ICL 8-shot | 70.1 (+6.9) | 81.7 (+0.2) | 84.9 (+1.0) | 67.0 (+0.7) | 77.3 (+1.4) |
| LoRA 微调 | 78.6 (+15.4) | 84.7 (+3.2) | 86.3 (+2.4) | 70.3 (+4.0) | 80.7 (+4.8) |
| 全参数微调 | 84.3 (+21.1) | 84.8 (+3.3) | 87.0 (+3.1) | 71.1 (+4.8) | 81.9 (+6.0) |
| GRPO | 83.2 (+20.0) | 82.5 (+1.0) | 86.5 (+2.6) | 71.1 (+4.8) | 80.7 (+4.8) |
关键发现¶
- 情感极性是最大短板之一:MLLMs 在判断正/负/混合方面表现差,但可通过微调大幅改善(全参数微调 +21.1%),说明问题在于类别边界混淆而非能力缺失
- 感知主观性是根本性挑战:即使全参数微调也只提升 +4.8%,人类 89.6% vs 最好 MLLM 仅 75.0%,说明这与模型固有属性相关
- INSETS 自动标注准确率达 90.6%:正确陈述 89.7%、错误陈述 91.5%,验证了流水线的高可靠性
- 无单一模型全维度最优:GPT-4o 整体最强但感知主观性不如 mPLUG-Owl3(69.2% vs 75.0%)
亮点与洞察¶
- ESJ 任务设计精妙:将主观开放问题转化为客观二分类判断,既保留了评估深度(四个维度)又消除了答案歧义。这种"陈述验证"思路可迁移到任何主观性强的评估任务(如美学、幽默、讽刺理解)
- INSETS 的"低成本高质量"范式:通过多 MLLM 集成 + 心理学分类模型约束,仅需约 115 人时就构建了 462K 标注语料,相比 EMOTIC 的 23,788 标注者效率提升数个数量级。这种"AI 初标注 + 人工精炼"的流水线模式具有广泛适用性
- 四个维度的发现具有指导意义:揭示了"可通过适配改善的能力"(极性识别)与"需要根本性改进的能力"(主观性理解)之间的区别,为 MLLM 改进指明方向
局限与展望¶
- 数据分布偏斜:正面情感图像占 65.2%,继承自 EmoSet 的社交媒体偏差,可能导致负面情感评估可靠性不足
- 评估颗粒度有限:ESJ 仅判断对/错,无法评估 MLLMs 对情感强度的连续感知能力
- 自动角色生成的隐含偏差:感知主观性维度中的观者角色可能隐含人口统计刻板印象
- 未覆盖动态情感:仅评估静态单图,视频中情感的时序演变和多模态情感(配合文本/音频)未涉及
相关工作与启发¶
- vs EmoSet/FI:传统 benchmark 用固定 8 类做分类,本文用 751 种开放词汇做陈述判断,评估灵活性和粒度质变性提升
- vs EmoBench-M/EEmo-Bench:扩展了任务覆盖但仍用开放式问题,未从根本上解决答案歧义问题;本文 ESJ 从任务形式上消除歧义
- vs FABA-Bench:聚焦面部表情和动作,忽略了场景上下文和主观性等更深层维度
评分¶
- 新颖性: ⭐⭐⭐⭐ ESJ 任务设计和四维度评估体系有创新,但核心是评估方法论而非模型架构突破
- 实验充分度: ⭐⭐⭐⭐⭐ 评估了 19 个 MLLMs、5 种适配策略、25 名人类参与者,分析全面深入
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,心理学理论与技术方案结合自然,伦理讨论详尽
- 价值: ⭐⭐⭐⭐ 为视觉情感评估提供了新范式,MVEI benchmark 和 INSETS-462k 语料对后续研究有实用价值