EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services¶

会议: AAAI 2026
arXiv: 2511.09894
代码: 项目页面
领域: 医学图像 / 数据集 / 多模态学习
关键词: 自我中心视角, 应急医疗服务, 多模态融合, 认知协助, 活动识别

一句话总结¶

发布首个高保真多人多模态自我中心EMS数据集，包含233个试验20小时视频、9项干预67个关键步骤标注，提供三个基准任务（步骤分类/在线分割/CPR质量估计）推动EMS认知协助系统开发。

领域现状：应急医疗服务（EMS）中一线应急人员面临巨大认知压力，AI和LLM的进展为虚拟认知协助系统创造了机遇。现有自我中心数据集大多关注日常活动，缺乏医学高风险领域。

现有痛点：(a) 医学领域缺乏大规模高保真标注数据集；(b) 现有EMS数据多为单模态（仅语音）；(c) 应急场景涉及团队协作但现有数据集多为单视角；(d) 医学标注成本高昂。

核心矛盾：需要真实性数据训练有效系统，但真实急救涉及伦理困难；需要多模态数据但标注成本倍增。

本文目标 创建首个多模态多人自我中心EMS数据集，建立与国家标准对齐的分类法，提供基准任务和基线。

切入角度：使用模拟场景保证伦理、招募真实EMS专业人员保证真实性、采用手工+半自动混合标注降低成本。

核心 idea：通过与EMS专家协作建立规范分类法，采集模拟场景中62名参与者的多模态自我中心数据，为AI认知协助提供坚实基础。

数据集构成：233试验 × 20小时视频 × 4种模态（视频+音频+IMU+CPR真值）× 2694关键步骤标注。覆盖3种场景（心脏骤停76试、疑似心脏病23试、中风41试）。

EMS分类法制定：
- 功能：基于NREMT/NEMSIS国家标准建立层级分类法
- 核心思路：分析1500万+EMS记录+咨询专家，建立3大协议→9项干预→67项关键步骤的三级体系
- 设计动机：确保数据与临床实践对齐，便于系统可部署
半自动音频标注流水线：
- 功能：生成带时间戳的转录文本并标记说话人
- 核心思路：Gemini-2.5零样本语音识别，WER仅0.31（vs Whisper 0.62-0.68），时间戳MAE 0.18s
- 设计动机：相比纯手工标注节省约90%时间
半监督目标标注流水线：
- 功能：标注医疗工具的边界框和分割掩码
- 核心思路：爬取种子图片→Gemini过滤→微调DETR→SAM2分割。平均IoU=0.76
- 设计动机：标注时间从66小时减至1小时（98.5%节省）

基准任务使用有监督Transformer、多模态融合、零样本LLM等多种方法。