egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks¶
会议: NeurIPS 2025
arXiv: 2510.22129
代码: 有(开源数据集+基线实现)
领域: 情感计算 / 第一人称视觉 / 多模态数据集
关键词: egocentric vision, emotion recognition, personality, physiological signals, Project Aria
一句话总结¶
提出egoEMOTION——首个结合第一人称视觉(Meta Project Aria眼镜)与生理信号的情感与人格识别数据集,涵盖43名被试、50+小时录制、16种任务,发现第一人称视觉信号(尤其眼动特征)在真实场景情感预测中优于传统生理信号。
研究背景与动机¶
领域现状:第一人称视觉已建立大型基准(Ego4D、EPIC-KITCHENS),情感识别则依赖实验室环境中的生理信号(DEAP、AMIGOS等)。
现有痛点:(a) 第一人称视觉基准忽略参与者情绪状态,假设情感中立;(b) 现有情感数据集局限于实验室,生态效度低;(c) 唯一公开移动眼动情感数据集eSEE-d仅4类情绪、无生理信号、需固定头部。
核心矛盾:情绪和人格是行为的内在驱动力,但第一人称视觉系统无法建模这些状态。
本文目标 构建生态效度高的多模态情感数据集,证明第一人称视觉信号足以进行情感预测。
核心 idea:第一人称眼镜信号(尤其眼动)在真实场景情感预测中比传统生理信号更有效。
方法详解¶
整体框架¶
43名被试佩戴Project Aria眼镜+生理传感器完成16项任务(9个诱导视频+7个自然活动),三个基准:(1)连续情感V/A/D二分类,(2)离散情绪9类,(3)人格Big Five二分类。
关键设计¶
-
16项任务设计:
- Session A:9段~48s视频对应Mikels' Wheel 8种情绪+中性
- Session B:Flappy Bird(挫折)、品尝难吃软糖(厌恶)、Jenga(紧张社交)、绘画+音乐(放松)、写悲伤信件(悲伤)、Slenderman恐怖游戏(恐惧)、讲笑话(娱乐)
-
多层次标注体系:
- Emoti-SAM 7点量表收集V/A/D
- 加权Mikels' Wheel:100%分配给9种情绪(10%步长),捕捉混合情绪的相对强度
- BFI-2人格问卷
-
传感器配置:
- Aria眼镜:眼动视频(640x480@90fps)、POV相机(1408x1408@10fps)、双IMU(1000Hz+800Hz)、鼻垫PPG(128Hz)
- 外部:ECG(1024Hz)、EDA(256Hz)、RSP(400Hz)
-
612维特征提取:
- ECG/PPG 77维、EDA 31维、RSP 14维
- 眼动派生:瞳孔大小、像素强度、Fisherface、注视方向、眨眼检测、LBP-TOP微表情
- 每个信号15个统计描述符
基线方法¶
- 连续情感:SVM-RBF + LOSO
- 离散情绪:Random Forest + SelectKBest(top-10) + LOSO
- 人格:Random Forest + SelectKBest + LOSO
- 深度学习:CNN和WER(Transformer),5折CV
实验关键数据¶
模态对比主实验(F1 score)¶
| 基准任务 | 可穿戴(ECG/EDA/RSP) | 第一人称眼镜 | 全融合 | 随机基线 |
|---|---|---|---|---|
| 连续情感(V/A/D均值) | 0.70 | 0.74 | 0.75 | 0.59 |
| 离散情绪(9类均值) | 0.24 | 0.46 | 0.46 | 0.11 |
| 人格特质(Big Five均值) | 0.50 | 0.57 | 0.59 | 0.53 |
经典方法 vs 深度学习¶
| 基准任务 | 经典方法(All) | CNN(All) | Transformer WER(All) |
|---|---|---|---|
| 连续情感 | 0.75 | 0.68 | 0.60 |
| 离散情绪 | 0.46 | 0.22 | 0.21 |
| 人格特质 | 0.59 | — | 0.47 |
关键发现¶
- 第一人称眼镜信号全面优于传统生理传感器:离散情绪任务优势最大(0.46 vs 0.24)
- 眼动注视(gaze)对连续情感最有效,像素强度对离散情绪最有效,IMU泛化性最好
- 经典ML大幅优于深度学习——小数据(43人x16任务)上深度模型过拟合严重
- 人格预测最困难,接近随机基线
亮点与洞察¶
- 加权Mikels' Wheel标注:允许量化混合情绪的相对强度,比简单多选更rich。可迁移到视频情感分析标注
- 眼动视频>传统生理信号:未来情感识别可能不需ECG/EDA接触式传感器,一副眼动追踪眼镜即可
- Fisherface特征:PCA+LDA应用于眼动视频帧作为低成本视觉描述符,效果良好
局限与展望¶
- 43名被试(主要大学生)样本量偏小
- 深度学习表现远不如经典方法,应探索few-shot/meta-learning小样本策略
- 标注仅在任务结束后收集,非连续时序标注
- 活动设计最大化减少身体运动,限制了日常活动场景推广
- 未探索大型视觉基础模型(VideoMAE/InternVideo)的表征能力
- 数据集中实验者在场(坐在帘子后面),可能影响被试的自然行为
- 被试均为健康人群,临床焦虑/抑郁人群的泛化性未知
相关工作与启发¶
- vs DEAP/AMIGOS/ASCERTAIN:这些经典情感数据集都在实验室环境、使用台式EEG/ECG设备,生态效度低。egoEMOTION首次用移动第一人称设备在半自然场景收集,更接近真实使用
- vs Ego4D/EPIC-KITCHENS:大型第一人称视觉数据集但无情感标注。egoEMOTION填补情感维度但规模远小于它们
- vs eSEE-d:唯一公开移动眼动情感数据集,但仅4类情绪、需下巴托固定、无生理信号。egoEMOTION在每个维度上显著扩展
- vs K-EmoCon/EmoPairCompete:在社交场景中自然诱导情绪,但缺乏第一人称视觉和眼动数据。egoEMOTION传感器覆盖更全面
- 未来可将egoEMOTION的标注方法用于Ego4D等大规模数据集的情感扩展标注
- 眼动特征的有效性暗示混合现实(MR)设备内置眼动追踪已足以支持实时情感推断
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个第一人称视觉+情感多模态数据集,填补重要空白
- 实验充分度: ⭐⭐⭐⭐ 612维特征、多模态对比、经典vs深度学习,但被试量偏小
- 写作质量: ⭐⭐⭐⭐⭐ 数据集论文非常清晰,实验设计描述详尽
- 价值: ⭐⭐⭐⭐ 开源数据集+基线对后续研究有推动,但规模限制直接应用