EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services¶
会议: AAAI 2026
arXiv: 2511.09894
代码: 项目页面
领域: 医学图像 / 数据集 / 多模态学习
关键词: 自我中心视角, 应急医疗服务, 多模态融合, 认知协助, 活动识别
一句话总结¶
发布首个高保真多人多模态自我中心EMS数据集,包含233个试验20小时视频、9项干预67个关键步骤标注,提供三个基准任务(步骤分类/在线分割/CPR质量估计)推动EMS认知协助系统开发。
研究背景与动机¶
领域现状:应急医疗服务(EMS)中一线应急人员面临巨大认知压力,AI和LLM的进展为虚拟认知协助系统创造了机遇。现有自我中心数据集大多关注日常活动,缺乏医学高风险领域。
现有痛点:(a) 医学领域缺乏大规模高保真标注数据集;(b) 现有EMS数据多为单模态(仅语音);(c) 应急场景涉及团队协作但现有数据集多为单视角;(d) 医学标注成本高昂。
核心矛盾:需要真实性数据训练有效系统,但真实急救涉及伦理困难;需要多模态数据但标注成本倍增。
本文目标 创建首个多模态多人自我中心EMS数据集,建立与国家标准对齐的分类法,提供基准任务和基线。
切入角度:使用模拟场景保证伦理、招募真实EMS专业人员保证真实性、采用手工+半自动混合标注降低成本。
核心 idea:通过与EMS专家协作建立规范分类法,采集模拟场景中62名参与者的多模态自我中心数据,为AI认知协助提供坚实基础。
方法详解¶
整体框架¶
数据集构成:233试验 × 20小时视频 × 4种模态(视频+音频+IMU+CPR真值)× 2694关键步骤标注。覆盖3种场景(心脏骤停76试、疑似心脏病23试、中风41试)。
关键设计¶
-
EMS分类法制定:
- 功能:基于NREMT/NEMSIS国家标准建立层级分类法
- 核心思路:分析1500万+EMS记录+咨询专家,建立3大协议→9项干预→67项关键步骤的三级体系
- 设计动机:确保数据与临床实践对齐,便于系统可部署
-
半自动音频标注流水线:
- 功能:生成带时间戳的转录文本并标记说话人
- 核心思路:Gemini-2.5零样本语音识别,WER仅0.31(vs Whisper 0.62-0.68),时间戳MAE 0.18s
- 设计动机:相比纯手工标注节省约90%时间
-
半监督目标标注流水线:
- 功能:标注医疗工具的边界框和分割掩码
- 核心思路:爬取种子图片→Gemini过滤→微调DETR→SAM2分割。平均IoU=0.76
- 设计动机:标注时间从66小时减至1小时(98.5%节省)
损失函数 / 训练策略¶
基准任务使用有监督Transformer、多模态融合、零样本LLM等多种方法。
实验关键数据¶
基准任务1:关键步骤分类¶
| 方法 | Top-1精度 | 说明 |
|---|---|---|
| 有监督Transformer(视频) | 62.3% | 最佳 |
| 视频+IMU融合 | 62.2% | 融合未带来增益 |
| 零样本Qwen-2.5 | 38.3% | LLM有潜力但不够 |
基准任务2:关键步骤在线分割¶
| 方法 | 精度 | 说明 |
|---|---|---|
| Transformer(视频+IMU) | 61% | 比仅视频提升6% |
| 零样本Qwen-2.5 | 55.5% | LLM表现不错 |
| 音频(Whisper+GPT-4o) | 38% | 操作人员不总说话 |
关键发现¶
- 早期融合策略不足,需更高级融合方法(视频+IMU融合几乎无增益)
- 零样本LLM在某些任务上有潜力但不及有监督方法
- CPR质量估计中IMU对频率有独特优势(RMSE最低),但视频+IMU融合对深度估计最优(F1=0.83)
- EMS专业人员CPR性能稳定,公众参与者变异性大
亮点与洞察¶
- 首创性:首个多人多模态自我中心EMS数据集,包含CPR质量真值。低成本可复制的数据采集系统(GoPro+Galaxy Watch)。
- 半自动标注创新:Gemini-2.5在语音识别上超SOTA(WER 0.31),DETR+SAM2管道节省98.5%标注时间。
- 完整的分类法:与国家标准(NREMT/NEMSIS)对齐,确保实际可部署性。
局限与展望¶
- 规模限制:62名参与者相对较小,特定地理位置(弗吉尼亚州)
- 模拟vs真实差距:模拟场景无法完全复现真实急救的混乱和压力
- 多人交互建模不足:基准主要关注主应急人员,团队协调建模待深入
- 模态融合效果不佳:视频+IMU融合几乎无增益,需更精巧策略
相关工作与启发¶
- vs Ego-Exo4D:EgoEMS专注单一高风险领域深入建模,后者多领域但较浅
- vs EgoSurgery:EgoEMS多人多模态且包含质量指标,后者仅手术视频
- 医学AI需缩小真实-模拟鸿沟,且需严格隐私保护
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个多模态多人自我中心EMS数据集
- 实验充分度: ⭐⭐⭐⭐ 三个完整基准但消融不足
- 写作质量: ⭐⭐⭐⭐⭐ 清晰的伦理考量和详细标注流程
- 价值: ⭐⭐⭐⭐⭐ 高度实际应用价值且开放资源