EmoPrefer: Can Large Language Models Understand Human Emotion Preferences?¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=EhA4znYsuG
代码: zeroQiaoba/AffectGPT/EmoPrefer
领域: 情感计算 / 人体情感理解
关键词: 描述性情感识别、情感偏好学习、多模态大模型评判、偏好数据集、基准测试

一句话总结¶

针对描述性多模态情感识别（DMER）评估代价高的痛点，提出 EmoPrefer——首个情感偏好数据集与基准，系统探索 MLLM 是否能替代人工标注者完成情感偏好判断，最佳方案（Qwen2.5-Omni）达到 67.21% 两类 WAF，仍留有提升空间。

研究背景与动机¶

领域现状：描述性多模态情感识别（DMER）用自由形式自然语言描述情感状态，相比传统分类范式（如 6 类基本情感）更精细、更可解释，近年借助 MLLM 取得快速进展。

现有痛点：DMER 的评估极为困难。基于 ground-truth 描述的评估方法依赖人工标注的"黄金描述"，但情感天然与多模态行为（表情、手势、音调等）深度绑定，高质量参考描述既昂贵又不完整。而直接收集人工偏好标注（给定两段描述让人选更好的那个）虽更可行，但 M 个模型 N 样本所需比较数为 C(M,2)×N，代价同样巨大。

核心矛盾：是否能用 MLLM 本身作为偏好判官（judge），从而低成本地替代人工偏好标注？

本文目标：构建首个以人类情感为中心的多模态偏好数据集与基准，系统评估当前 MLLM 在情感偏好预测上的能力边界。

核心 idea：用多模态 LLM 替代人工标注员完成"哪段情感描述更好"的偏好判断，降低 DMER 评估成本。

方法详解¶

整体框架¶

EmoPrefer 由三个模块构成：EmoPrefer-Data（高质量人工偏好数据集）、EmoPrefer-Bench（多 MLLM 零样本评测基准）、以及两套评估指标（识别性能 + 顺序一致性）。整体流程如下：

flowchart LR
    A[两个 DMER 数据集\nMERR-Fine & MER-Caption+] -->|取交集1368样本| B[EmoPrefer-Data\n专家三人一致标注]
    B --> C[EmoPrefer-Bench\n12+ MLLM × 4种提示策略]
    C --> D[识别性能 WAF/ACC]
    C --> E[顺序一致性 Swap Consistency]
    D & E --> F[模型众包聚合\ntop-k投票]
    F --> G[实际应用: Bradley-Terry\n模型排行榜]

关键设计¶

1. EmoPrefer-Data：高置信度偏好标注

数据来源于两个已有 DMER 数据集（MERR-Fine 和 MER-Caption+）的交集视频，共 1,368 个样本，每个样本含同一视频的两段描述（分别来自两个数据集）。招募情感计算方向硕士生作为标注员，先用 12 个公认共识样本做资格测试（准确率需≥75%），最终保留 3 名合格标注员。每个样本三人独立判断（描述 A 更好 / 描述 B 更好 / 持平），只保留三人全部一致的样本，确保高置信度。人工一致性上界在去掉"持平"选项后约 69.31%（两类），包含"持平"后降至 59.23%，说明"持平"样本天然歧义更大。

2. 四种提示策略：从端到端到链式分解

为系统探索 MLLM 的偏好判断能力，设计四种递进式提示策略： - S1（直接判断）：视频 + 两段描述同时输入 MLLM，直接让模型选更好的描述。 - S2（两步、同一 MLLM）：先让 MLLM 生成视频的情感描述，再以此为参照判断哪段更符合。 - S3（两步、外部 LLM 做裁判）：MLLM 只负责生成视频描述，判断步骤交给外部纯文本 LLM（Qwen2.5-7B），规避 MLLM 多模态微调后文本理解能力退化的问题。 - S4（S3 + 额外推理）：在 S3 的判断步骤前加显式推理过程，验证 CoT 是否有效。

实验发现大多数 MLLM 在 S3/S4 下表现更好，说明其文本理解能力受多模态训练影响；但 Qwen2.5-VL、Qwen2.5-Omni 等训练流程更完善的模型反而在 S1/S2 下更优，因为更长的推理链会引入误差累积。

3. 顺序一致性：衡量鲁棒性的第二维度

除识别性能外，本文引入 swap consistency 指标：对同一样本分别以正序和逆序输入 MLLM，计算两次预测一致的比例。理想的偏好判官应不受输入顺序影响。实验表明两类指标（识别性能与顺序一致性）相关性较弱，说明它们衡量不同维度的能力，优秀模型需在两者上均表现良好。

4. 模型众包：聚合多 MLLM 提升可靠性

对多个 MLLM 预测结果进行多数投票（model-based crowdsourcing）。将模型按识别性能排序，取 top-k 模型聚合。实验发现 k 过大引入噪声、k 过小效果有限；限定为开源模型且 k=3 或 4 时，可在不损失明显性能的前提下大幅降低成本（无需调用付费闭源 API）。

实验关键数据¶

主实验（EmoPrefer-Bench 最优策略）¶

模型	策略	两类 WAF ↑	两类 ACC ↑	顺序一致性 ↑
VideoChat	S4	51.79	52.31	40.85
Video-LLaVA	S4	54.53	54.62	42.86
LLaVA-Next-Video	S4	56.41	56.57	53.92
VITA-1.5	S4	60.08	60.12	59.06
Qwen2-Audio	S4	63.17	63.23	61.50
Qwen2.5-VL	S1	64.43	65.28	62.02
Qwen2.5-Omni	S2	67.21	67.32	79.09
GPT-4o（闭源）	S1	59.28	59.41	64.55
GPT-4.1（闭源）	S1	60.75	60.75	80.84
Gemini-1.5-Flash（闭源）	S1	64.64	65.19	72.04
人工一致性上界	—	~69.31	—	—

开源 Qwen2.5-Omni 超越所有闭源模型识别性能，逼近人工上界，说明情感偏好判断能力已部分转移至开源模型。

关键发现¶

多数模型 S3/S4（外部 LLM 判断）优于 S1/S2；但文本能力强的模型（Qwen2.5-VL/Omni）用 S1/S2 更好，因更长推理链反而累积误差。
更大的外部 LLM（Qwen3-14B）不一定优于 Qwen2.5-7B，说明 LLM 规模与情感偏好对齐并非单调关系。
顺序一致性与识别性能的 Pearson 相关较低（仅弱相关），需同时考量两个维度才能全面评估。
模型众包（top-k=3 开源模型）兼顾效果与成本，正序+逆序组合（normal-swapped）在众包场景下效果不稳定，不推荐默认使用。

亮点与洞察¶

评估任务转化视角新颖：将 DMER 评估从"与 ground-truth 计算相似度"转化为"偏好学习"，再进一步转化为"用 MLLM 自动完成偏好判断"，每一步都有清晰的动机和代价分析。
首个全模态情感偏好数据集：现有 judge 基准几乎全是文本模态，EmoPrefer-Data 首次覆盖文本+图像+音频+视频四模态，且专注情感领域，填补空白。
实践应用落地：结合 Bradley-Terry 算法，直接应用于真实竞赛（MER2025）的模型排行，验证了实际可用性。
开源模型与闭源模型的代价-性能权衡：论文明确给出"开源 top-3 众包"的推荐配置，工程实践价值高。

局限与展望¶

EmoPrefer-Data 规模仅 1,368 样本，且视频主要来自 MER2024（中文场景、正面单人），跨文化泛化能力未验证。
最佳 MLLM 仍低于人工一致性上界（67.21% vs 69.31%），情感偏好解码仍是开放问题。
仅评估零样本能力，情感感知微调（emotion-aware RLHF）的潜力尚未探索。
"持平"类别的预测效果显著弱于二分类，如何处理模糊偏好样本值得深入研究。

评分¶

新颖性: ⭐⭐⭐⭐ 首个多模态情感偏好数据集与基准，任务定义清晰、填补空白
实验充分度: ⭐⭐⭐⭐ 覆盖 12+ MLLM × 4 策略，消融系统，附众包与实际应用验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表丰富，评估体系完整
价值: ⭐⭐⭐⭐ 为 DMER 评估降本提效，数据集和基准对情感 RLHF 研究有直接价值