egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks¶

会议: NeurIPS 2025
arXiv: 2510.22129
代码: 有（开源数据集+基线实现）
领域: 情感计算 / 第一人称视觉 / 多模态数据集
关键词: egocentric vision, emotion recognition, personality, physiological signals, Project Aria

一句话总结¶

提出egoEMOTION——首个结合第一人称视觉（Meta Project Aria眼镜）与生理信号的情感与人格识别数据集，涵盖43名被试、50+小时录制、16种任务，发现第一人称视觉信号（尤其眼动特征）在真实场景情感预测中优于传统生理信号。

研究背景与动机¶

领域现状：第一人称视觉已建立大型基准（Ego4D、EPIC-KITCHENS），情感识别则依赖实验室环境中的生理信号（DEAP、AMIGOS等）。

现有痛点：(a) 第一人称视觉基准忽略参与者情绪状态，假设情感中立；(b) 现有情感数据集局限于实验室，生态效度低；(c) 唯一公开移动眼动情感数据集eSEE-d仅4类情绪、无生理信号、需固定头部。

核心矛盾：情绪和人格是行为的内在驱动力，但第一人称视觉系统无法建模这些状态。

本文目标 构建生态效度高的多模态情感数据集，证明第一人称视觉信号足以进行情感预测。

核心 idea：第一人称眼镜信号（尤其眼动）在真实场景情感预测中比传统生理信号更有效。

方法详解¶

整体框架¶

43名被试佩戴Project Aria眼镜+生理传感器完成16项任务（9个诱导视频+7个自然活动），三个基准：(1)连续情感V/A/D二分类，(2)离散情绪9类，(3)人格Big Five二分类。

关键设计¶

16项任务设计:
- Session A：9段~48s视频对应Mikels' Wheel 8种情绪+中性
- Session B：Flappy Bird（挫折）、品尝难吃软糖（厌恶）、Jenga（紧张社交）、绘画+音乐（放松）、写悲伤信件（悲伤）、Slenderman恐怖游戏（恐惧）、讲笑话（娱乐）
多层次标注体系:
- Emoti-SAM 7点量表收集V/A/D
- 加权Mikels' Wheel：100%分配给9种情绪（10%步长），捕捉混合情绪的相对强度
- BFI-2人格问卷
传感器配置:
- Aria眼镜：眼动视频(640x480@90fps)、POV相机(1408x1408@10fps)、双IMU(1000Hz+800Hz)、鼻垫PPG(128Hz)
- 外部：ECG(1024Hz)、EDA(256Hz)、RSP(400Hz)
612维特征提取:
- ECG/PPG 77维、EDA 31维、RSP 14维
- 眼动派生：瞳孔大小、像素强度、Fisherface、注视方向、眨眼检测、LBP-TOP微表情
- 每个信号15个统计描述符

基线方法¶

连续情感：SVM-RBF + LOSO
离散情绪：Random Forest + SelectKBest(top-10) + LOSO
人格：Random Forest + SelectKBest + LOSO
深度学习：CNN和WER(Transformer)，5折CV

实验关键数据¶

模态对比主实验（F1 score）¶

基准任务	可穿戴(ECG/EDA/RSP)	第一人称眼镜	全融合	随机基线
连续情感(V/A/D均值)	0.70	0.74	0.75	0.59
离散情绪(9类均值)	0.24	0.46	0.46	0.11
人格特质(Big Five均值)	0.50	0.57	0.59	0.53

经典方法 vs 深度学习¶

基准任务	经典方法(All)	CNN(All)	Transformer WER(All)
连续情感	0.75	0.68	0.60
离散情绪	0.46	0.22	0.21
人格特质	0.59	—	0.47

关键发现¶

第一人称眼镜信号全面优于传统生理传感器：离散情绪任务优势最大（0.46 vs 0.24）
眼动注视(gaze)对连续情感最有效，像素强度对离散情绪最有效，IMU泛化性最好
经典ML大幅优于深度学习——小数据(43人x16任务)上深度模型过拟合严重
人格预测最困难，接近随机基线

亮点与洞察¶

加权Mikels' Wheel标注：允许量化混合情绪的相对强度，比简单多选更rich。可迁移到视频情感分析标注
眼动视频>传统生理信号：未来情感识别可能不需ECG/EDA接触式传感器，一副眼动追踪眼镜即可
Fisherface特征：PCA+LDA应用于眼动视频帧作为低成本视觉描述符，效果良好

局限与展望¶

43名被试（主要大学生）样本量偏小
深度学习表现远不如经典方法，应探索few-shot/meta-learning小样本策略
标注仅在任务结束后收集，非连续时序标注
活动设计最大化减少身体运动，限制了日常活动场景推广
未探索大型视觉基础模型(VideoMAE/InternVideo)的表征能力
数据集中实验者在场（坐在帘子后面），可能影响被试的自然行为
被试均为健康人群，临床焦虑/抑郁人群的泛化性未知

评分¶

新颖性: ⭐⭐⭐⭐ 首个第一人称视觉+情感多模态数据集，填补重要空白
实验充分度: ⭐⭐⭐⭐ 612维特征、多模态对比、经典vs深度学习，但被试量偏小
写作质量: ⭐⭐⭐⭐⭐ 数据集论文非常清晰，实验设计描述详尽
价值: ⭐⭐⭐⭐ 开源数据集+基线对后续研究有推动，但规模限制直接应用