OSMO: Open-vocabulary Self-eMOtion Tracking¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://osmo-emos.github.io
领域: 人体理解 / 情感计算 / 第一人称多模态
关键词: 自我情绪追踪, 智能眼镜, 第一人称, 开放词表情绪, 多模态大模型

一句话总结¶

本文提出"第一人称自我情绪追踪"新任务——从智能眼镜的多模态流（语音、视觉环境、对话文本、眼动）推断佩戴者随时间演变的情绪，并配套发布 OSMO 数据集（110 小时、首个带逐主体情绪时间线的最大第一人称情绪数据集）、OSMO 基准（5 个任务）和 OSIRIS 模型（首个联合视频/音频/对话/眼动红外、用情绪历史做时序推理的情绪 LMM），在各项指标上大幅刷新 SOTA。

研究背景与动机¶

领域现状：自我情绪追踪能显著改善心理健康（文献称可降低抑郁症状 34%、焦虑 20%），但现有方案（如手机 App）依赖高摩擦的手动情绪记录，普及率低。智能眼镜作为可全天佩戴、被动无感的设备，集成多模态传感器（语音音色、注视行为、环境上下文），天然适合连续、上下文感知的情绪追踪。

现有痛点：现有情绪识别数据集不适合训练可部署到智能眼镜的模型——它们要么是第三人称（exo-centric），要么是短而孤立的视频片段（无法建模情绪的连续性）；且主要来源（实验室、电影、网络 vlog）充满夸张、表演式的表情，无法刻画真实世界中微妙、自发的情绪。由此训练出的情绪 LMM 继承了四个缺陷：(1) 依赖面部视角，在第一人称下表现差；(2) 孤立处理单句话，误判上下文相关的含义（如"那可真棒"是真诚还是讽刺）；(3) 忽略先前情绪的影响（情绪的延续/carry-over 效应）；(4) 缺乏可解释推理，输出虚假无依据。

核心矛盾：情绪本质上是连续、上下文相关、有时间惯性的过程，但现有数据和模型却把它当成对修剪好视频片段的离散分类。

本文目标：把情绪理解重新定义为"连续、上下文感知的追踪过程"，并解决数据（缺第一人称真实情绪数据）、任务（缺连续追踪基准）、模型（缺时序+多模态+可解释的模型）三方面缺口。

切入角度 / 核心 idea：不去新采数据，而是给三个已有的第一人称数据集（EgoLife、Nymeria、AEA，它们已满足"真实、纵向、有主体身份、智能眼镜多模态"四要求、只缺情绪标签）补上高质量情绪标注；同时设计一个能"先推理后判断"、并记住个人情绪历史的多模态大模型。

方法详解¶

整体框架¶

本文是一篇"数据集 + 基准 + 模型"三位一体的工作，三个贡献环环相扣：

OSMO 数据集：用三阶段 human–LMM 协同流程，对 110 小时智能眼镜录制（EgoLife/Nymeria/AEA）做标注，得到逐主体、带时间戳的开放词表情绪时间线（含情绪、情感极性、强度、时间区间、成因），并补充 LMM 生成的模态描述与思维链（CoT）标签。覆盖英语（41.3%）与普通话（58.7%）。
OSMO 基准：把情绪理解拆成 5 个连续任务——开放词表情绪识别、情感分析、强度预测、时间定位、情绪推理；并定义 4 种泛化协议（跨主体 XSub、跨时间 XTime、跨语言 XLang、跨集 XSet）。
OSIRIS 模型：第一个联合处理第一人称视频、音频、对话、眼动红外的情绪追踪 LMM，通过 Encode → Adapt → Remember → SENSE → Predict 五步，对个人情绪历史 + 当前表情 + 第一人称观察做推理，输出情绪状态及其解释。

下图是 OSIRIS 模型的五步推理流程（数据集构建管线见下方「关键设计 1」）：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["第一人称多模态输入<br/>视频 / 眼动红外 / 音频 / 对话 / 历史情绪"] --> B["Step1 Encode<br/>冻结专家编码器抽特征"]
    B --> C["Step2 Adapt<br/>各模态适配器投影到 LLM 嵌入空间"]
    C --> D["Step3 Remember 个人情绪记忆<br/>检索 Np 条历史情绪 + Nq 个多模态查询"]
    D --> E["Step4 SENSE<br/>结构化情绪推理生成 6 步 CoT 标签"]
    E --> F["Step5 Predict<br/>LoRA 微调 LLM 自回归生成"]
    F --> G["情绪时间线（情绪/情感/强度/区间/成因）"]

关键设计¶

1. 三阶段 human–LMM 协同标注：用 LMM 筛、用人精标、用 LLM+人验

情绪表达在真实录制中非常稀疏，对 750 小时原始录制全人工标注不现实。作者设计三阶段流程：Stage 1（LMM 预筛）——先用 Whisper 生成带时间戳转写、切成 20 万条句级片段，再用四个 SOTA 情绪 LMM（Emotion-LLaMA、AffectGPT、DeSTA2.5-Audio、Qwen-Audio2）给每段打 Ekman 六情绪或中性的伪标签，多数投票（≥3 票一致）去噪，保留 1.78 万高置信片段并扩成 30 秒上下文段，得到 125 小时待标子集；Stage 2（人工标注）——招募 41 名标注员（性别均衡、教育多元），经多阶段培训，对每段标注开放词表情绪（一级+二级，借 Plutchik 情绪轮 + 开放词）、情感极性、三级强度（low/medium/high）、起止时间、以及仅依据可观察视听线索的情绪成因，全程隐藏 LMM 预测以防偏置，累计投入 8000+ 小时；Stage 3（质量评估）——LLM 辅助校验（检查缺失信息、异常时长 <1s/>25s、过短描述 <7 词、重叠片段，并用 LLaMA3 当裁判按 rubric 打 1–10 分、<8 拒收）+ 人工三维评估（类别正确性、定位准确性、推理有效性），不合格样本迭代重标。最终人审一致率达 87.0%（类别）、91.2%（定位）、82.6%（推理）。这套分工证实了"LMM 擅长缩小候选（88% 候选被人保留）但精分类弱（与人标重叠率仅 48.6）"的互补性。

2. SENSE 结构化情绪推理：先看证据再下结论，自动造 CoT 监督标签

现有模型常用单步、不透明的方式推断情绪，依赖"流泪=悲伤"这类虚假关联，忽视了泪也可能是喜悦、且不发挥 LLM 擅长的自回归推理。作者把情绪识别重构成结构化推理问题：OSIRIS 必须先解读感知线索再推断情绪。但人工标注如此细的多模态线索成本过高。观察到"人类描述能抓准情绪但缺感知细节、多模态描述模型富细节却缺情绪深度"，作者提出 SENSE（Structured Emotional reasoNing from SEnsory inputs）：先用 SOTA 视频/音频描述模型抽细粒度视觉 \(R_v\)、声学 \(R_a\) 描述，并把情绪映射到眼部动作单元得到眼部线索 \(R_e\)；再把人类情绪描述 \(R_h\)、\(R_v\)、\(R_a\)、\(R_e\)、对话文本 \(X_c\)、历史情绪 \(X_{emo}\) 喂给 LLaMA3 当"认知代理"，产出 6 步推理链 \(R=\{r_1,\dots,r_6\}\)（依次为视觉、音频、对话、眼部、先前情绪、最终推断）。用这些 CoT 标签微调 OSIRIS，教模型不只"预测什么"还要"如何推理"，把任务从直接分类转成模仿人类内省的认知过程。消融显示 SENSE 是单项增益最大的组件。

3. 个人情绪记忆模块：显式建模情绪的延续/carry-over 效应

情绪并非离散瞬时，而是带惯性地随时间演变（如喜悦的惊喜会留下持续的暖意与乐观）。OSIRIS 维护一个个性化情绪日志 \(\mathbf{L}=\{E^{(1)},\dots,E^{(j-1)}\}\)，每个情绪事件 \(E^i=\{\mathbf{O}^i,\mathbf{Q}^i,t^i,D^i\}\) 记录三件事：What（开放词表语义描述 \(\mathbf{O}^i\)，如"happy""disappointed"）、How（多模态表达签名——各模态嵌入投影池化归一为描述子 \(\tilde z^i_m\)，按模态门 \(\alpha_m=\sigma(g_m)\) 加权后拼接，再用 \(N_{ms}\) 个可学习查询 \(\mathbf{Q}\) 做交叉注意力精炼成 \(\mathbf{Q}^i\)）、When（时间戳 \(t^i\) 与时长 \(D^i\)）。推理时刻 \(t^j\) 检索最近 \(N_p\) 条历史情绪 \(\mathbf{X}^j_{emo}\) 和 \(N_q\) 个多模态查询 \(\mathbf{Q}^j_{exp}\)，各自配上时间元数据（\(\Delta t^i=t^j-t^i\) 与 \(D^i\)）：语义情绪并入文本输入、多模态码直接插入 LLM token，使模型把情绪当成连续时间轨迹的一部分来解读。消融显示历史长度 \(N_p\) 从 0 增到 4 显著提升、\(N_q\) 在 32 时峰值，但记忆槽 \(N_{ms}\) 超过 1 之后增益微弱。

4. 全模态融合并首次引入眼动：用冻结专家编码器 + 适配器统一进 LLM 空间

OSIRIS 在 Encode 步用冻结的现成编码器分别处理第一人称视频 \(X_v\)、眼动红外视频 \(X_e\)、音频 \(X_a\)，对话文本 \(X_c\) 由 LLM 词嵌入层编码；其中它是首个把眼动红外显式纳入情绪建模的模型（如惊讶时睁大眼、大笑时闭眼这类眼部动态强相关于情绪）。Adapt 步给每个模态一个可学习适配器 \(G_m(\cdot)\) 把表征映射到 LLM 嵌入维度 \(d\)，统一异构模态以便 LLM 内跨模态推理。这种"冻结专家编码 + 轻量适配器 + LoRA 微调 LLM"的设计在保留预训练能力的同时高效接入多模态。消融显示去掉任一模态都掉点，其中去掉对话文本掉点最多（-11.8），眼动其次（-9.1）。

损失函数 / 训练策略¶

Predict 步给定多模态上下文 \(\mathcal{X}=\{X_v,X_e,X_a,X_c,X_{emo},\mathbf{Q}\}\) 和指令 \(\mathbf{I}\)，OSIRIS 自回归最大化生成推理链 \(R\) 的似然 \(\theta^*=\arg\max_\theta\prod_{l=1}^{L_r}P_\theta(r_l\mid\mathcal{X},\mathbf{I},r_{<l})\)；用 LoRA 在注意力与前馈层插入低秩适配器微调基础 LLM，冻结大部分预训练权重以高效优化。

实验关键数据¶

主实验¶

基准 5 个任务的自定义指标：OVER（开放词表情绪识别，SOS = Set Overlap Score 预测/真值开放词情绪集合重叠度，HR = Hit Rate 任一真值情绪是否被预测命中）、SA（情感分析，准确率 + 加权 F 值 WAF）、IP（强度预测，WAF + 准确率）、EL（时间定位，mIoU + \(R_{n,U}@m\)）、ER（情绪推理，BLEU/ROUGE-L/METEOR + LLaMa 裁判按 IC 信息正确性/DO 细节导向/CU 上下文理解/TUC 时序一致性打 1–100）。Mean Δ 为相对零样本 LLaMa3 基线的平均增益。

协议	模型	OVER HR	SA WAF	IP WAF	EL mIoU	Mean Δ
XSub	零样本 LLaMa3（基线）	45.4	47.7	32.5	25.4	—
XSub	AffectGPT（微调）	66.7	67.5	47.6	43.5	+24.4
XSub	OSIRIS（全模态含眼动）	77.6	76.7	58.0	51.2	+35.1
XTime	AffectGPT（微调）	67.4	71.2	45.3	42.6	+25.5
XTime	OSIRIS（全模态含眼动）	78.4	79.1	55.2	50.1	+35.6

OSIRIS 在 XSub/XTime 上分别比零样本 LLaMa3 高 +35.1/+35.6，在微调设定下比此前 SOTA AffectGPT 平均高 +10.7（XSub）/+10.1（XTime），其中推理任务增益最大（LLaMa 裁判指标平均 +14.1），验证 SENSE 策略的有效性。跨语言（XLang）上所有模型都是英→中迁移优于中→英（因英文子集主体多样性更高，282 vs 6 主体，说明多样性比规模更重要）；跨集（XSet）上在 OSMO 训练的模型能更好泛化到未见的 AEA。

消融实验¶

在 OSMO-XSub 上相对微调 AffectGPT 的组件贡献（Mean Δ）：

配置	相对增益	说明
+ 历史情绪 \(X_{emo}\)	+3.6	建模情绪连续性（如 confusion→frustration）
+ 记忆查询 \(Q_{exp}\)	+6.8	建模情绪 carry-over 效应
+ 对话上下文	+7.7	厘清歧义语气（"really?" 是惊讶还是愤怒）
+ SENSE 推理	+8.2	单项增益最大，先推理后判断
全部组合	+10.5	时序+上下文+推理协同

去模态消融（性能变化）：w/o 对话 -11.8（最关键）、w/o 眼动 -9.1、w/o 音频 -7.8、w/o 视频 -7.5。

关键发现¶

SENSE 是单项贡献最大的组件（+8.2），且让推理类指标涨得最多，说明"把情绪识别变成结构化推理"是核心增益来源。
对话文本是最关键的模态（去掉掉 -11.8），印证情绪高度依赖会话上下文——同一句"难以置信"在"我们赢了"还是"我们输了"之后含义截然相反；扩大对话历史 \(N_u\) 从 1 到 16，OVER HR 增益从 +6.4 升到 +11.4。
个人历史有饱和点：先前情绪数 \(N_p\) 在 4、记忆查询 \(N_q\) 在 32 附近收益见顶，记忆槽 \(N_{ms}\) 超过 1 几乎无增益——说明建模"最近几个情绪"已足够捕捉时间惯性，不必无限堆历史。
数据质量：OSMO 带 SENSE 的 CoT 描述被 LLaMa3 / DeepSeek-V2 评分分别比 E3 高 +24.2 / +40.9，佐证人–LLM 协同标注的质量优势。

亮点与洞察¶

重定义任务：把"对修剪片段做离散情绪分类"升级为"连续、上下文感知的情绪追踪"，并配齐数据/基准/模型，这种"立一个新方向"的工作对领域的牵引力很大。
不采新数据、改标已有数据：选三个已满足"真实+纵向+主体身份+智能眼镜多模态"的数据集只补情绪标签，既省成本又拿到真实自发情绪，是很聪明的数据策略。
SENSE 把"人标的准 + LMM 描述的细"互补起来自动造 CoT：用 LLM 当认知代理把多源描述串成推理链，这种"用模型补人标短板"的造标思路可迁移到任何需要可解释中间推理的任务。
首次纳入眼动红外做情绪建模，且消融显示眼动是第二关键模态，提示眼动这一被忽视的廉价信号在情感计算里大有可为。
记忆模块显式建模情绪惯性（What/How/When 三元 + 门控多模态签名 + 时间元数据），为"时序情感建模"提供了可复用的结构。

局限与展望¶

主体多样性仍偏低：跨语言不对称（英→中优于中→英）源于英文子集仅 6 个主体 vs 普通话 282，作者也承认需进一步扩展主体与文化覆盖才能做"普世"情绪追踪。
依赖大量人力与 LMM 调用：8000+ 小时人工标注 + 多个 SOTA LMM 预筛/造标，构建成本高，复现门槛大。
聚焦"具身情绪"（可观察生理表达），明确排除需侵入式传感的内部情绪，适用范围有边界；且眼部线索 \(R_e\) 由"情绪→眼动单元"映射得到，可能引入循环依赖（用情绪反推眼部线索再用于推情绪）。⚠️ 该映射是否会造成标签泄漏，正文未明确讨论。
隐私与伦理：全天佩戴智能眼镜持续追踪个人情绪轨迹，涉及强隐私风险，论文未深入展开部署伦理与同意机制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出第一人称自我情绪追踪新任务，数据/基准/模型三位一体且首纳眼动
实验充分度: ⭐⭐⭐⭐⭐ 4 协议 + 5 任务 + 组件/模态/历史长度多维消融 + 数据质量评估，非常扎实
写作质量: ⭐⭐⭐⭐ 动机与贡献清晰、图表丰富，部分公式在缓存中渲染不全需对照原文
价值: ⭐⭐⭐⭐⭐ 为可穿戴情感计算立了新方向并开源资源，落地与研究价值都高