OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments¶

会议: CVPR 2026
arXiv: 2603.02390
代码: 有（OpenMarcie 官网提供数据集与代码）
领域: 视频理解
关键词: 多模态数据集, 人体动作识别, 工业制造, 可穿戴传感器, 跨模态对齐

一句话总结¶

提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie，融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制，并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。

研究背景与动机¶

1. 领域现状¶

智能工厂依赖人类活动识别（HAR）来量化工人表现、提升效率并保障安全。视频数据长期是 HAR 的主要信息来源，但单一视觉模态在工业场景中面临隐私泄露和技术泄漏风险。近年来已涌现多个工业 HAR 数据集（InHARD、LARa、OpenPack、Assembly101、IKEA-ASM 等），但均存在明显短板。

2. 痛点¶

现有工业 HAR 数据集存在三大局限： - 缺乏真正的多模态同步数据：多数仅覆盖视觉或 IMU 单一模态，缺少可穿戴传感器+视觉+音频的协同采集 - 任务过度受限：依赖高度控制的协议驱动任务，无法反映真实工业中开放式、程序化的工作流程 - 人口多样性和任务复杂度不足：多数数据集仅采集短时孤立动作，未能捕捉制造业中长时间、多步骤的连续活动

3. 核心矛盾¶

人类动作本质上是多模态的——整合了视觉、听觉、触觉以及认知和情绪状态——但现有数据集要么模态单一，要么缺乏自然变异性和真实工业噪声。要让 AI 系统真正理解工业场景中的人类活动，需要一个涵盖多种传感器、多视角视频、自然语言叙述的综合性数据集。

4. 要解决什么¶

构建一个统一的大规模工业多模态基准，同时支持活动分类、开放词表描述生成和跨模态对齐三大任务，填补当前数据集在模态丰富度、任务多样性和标注细粒度上的空白。

5. 切入角度¶

设计两个互补的实验场景——自行车组装拆卸（开放式临场发挥）和 3D 打印机组装（程序化依照说明书）——分别捕捉自由目标导向行为和程序化知识获取过程，并通过序贯协作组装引入真实制造业动态。

6. 核心 idea¶

OpenMarcie 是首个同时覆盖可穿戴传感器 + 自中心/外中心多视角视频 + 多动作重叠标注的全工业场景数据集，通过 8 种感知模态、282 个原始通道、36 名参与者和超过 37 小时的数据，为工业 HAR 提供最全面的多模态基准。

方法详解¶

整体框架¶

OpenMarcie 本质上不是一个"模型"，而是一套采集—标注—验证的数据流水线，目标是把工业现场里同时发生的运动、声音、视觉、距离等信号尽量完整地录下来，并配上能直接拿来训练的标签。整条管线分三段：前端在两个真实组装场景里同步采集 8 种模态、282 个原始通道的信号，覆盖 36 名参与者、37+ 小时；中段把录下来的视频/叙述转成结构化动作标签（人工 + LLM 混合）；后端则在 HAR 分类、开放词表描述、跨模态对齐三个任务上跑出基线，用来验证"这批多模态数据到底有没有用、哪些模态组合最有用"。下面三个关键设计分别对应这条管线里最关键的三个取舍：采什么场景、采哪些模态、怎么标注。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph S1["双场景互补采集（设计 1）"]
        direction TB
        A["自行车组装/拆卸<br/>熟悉任务·即兴(Ad-hoc)"]
        B["3D 打印机组装<br/>陌生任务·程序化(Procedural)+序贯协作"]
    end
    S1 --> C["八种感知模态同步覆盖（设计 2）<br/>IMU/音频/视觉/LiDAR 等·282 通道·36 人·37+ h"]
    C --> S3
    subgraph S3["人工 + LLM 混合标注管线（设计 3）"]
        direction TB
        D["场景a：人工 verb-object-tool<br/>多标签 ground truth"]
        E["场景b：叙述→Whisper→DeepSeek-R1→GPT-4o<br/>结构化硬标签"]
    end
    S3 --> F["三基准验证（下游）<br/>HAR 分类 / 开放词表描述 / 跨模态对齐"]

关键设计¶

1. 双场景互补采集：用一个熟悉任务 + 一个陌生任务覆盖工业里的两种行为模式

现有工业 HAR 数据集大多依赖高度受控的协议任务，工人按固定脚本走一遍，捕捉不到真实车间里既有熟练工即兴操作、又有新手照说明书摸索的自然变异。OpenMarcie 因此特意设计了两个对照场景：自行车组装/拆卸是参与者熟悉的任务，鼓励自由决策和目标导向的即兴操作（Ad-hoc）；3D 打印机组装是陌生任务，参与者必须一边读详细说明书一边获取程序化知识（Procedural）。这两类正好对应工业中的开放式维修和结构化流水线作业。更进一步，3D 打印机场景引入了序贯协作组装——下一位参与者从上一位停手的地方接着干，必须先判断别人已经做到哪、再决定下一步——这把真实产线上的"工位交接"动态也录了进来，是单人孤立动作数据集做不到的。

2. 八种感知模态同步覆盖：靠互补信号补上单模态的盲区

工业动作天然是多模态的，但单一模态各有盲区：只看视觉分不清"拧紧"还是"松开"，只看 IMU 又不知道手在操作哪个对象。OpenMarcie 因此在每位参与者身上同步部署 IMU（手腕、前额）、磁力计、气压计、温度传感器、光谱仪、热成像、RGB-LiDAR、立体麦克风等可穿戴设备，外加 3 台 ZED X AI 立体相机提供外中心 RGBD 视角，合计 282 个原始通道。这些模态携带的是互补信息——IMU 抓运动动力学、视觉抓空间上下文、音频抓工具使用声、LiDAR 提供距离——融合后才可能完整刻画一个动作。这种冗余还有一层实用价值：当视觉因遮挡或隐私限制不可用时，惯性/音频模态可以作为替代继续支撑识别。

3. 人工 + LLM 混合标注管线：用 LLM 当"结构化翻译器"把 37 小时叙述变成可训练标签

纯人工逐帧标注 37 小时多模态数据成本高到不现实，但只靠自动标注又保证不了质量，所以两个场景用了不同策略并互相校准。Scenario (a) 由人工在最佳外中心视角上用 verb-object-tool 方案手动标注，且支持多标签（如"边走边搬"同时成立），保证精确的 ground truth；Scenario (b) 则由外部观察者实时口头叙述动作，经 Whisper large-v3 转录后，送进两阶段 LLM 管线——先用 DeepSeek-R1 从自然语言里提取动作类，再用 GPT-4o 生成结构化硬标签。这里 LLM 扮演的是"把自然语言叙述翻译成训练标签"的角色，而不是凭空生成内容。为了确认这套自动标签靠谱，作者做了双向一致性检验（结构化标签 → 描述 → 再还原结构化），实测 Scenario (a) Macro F1 = 0.715、Scenario (b) METEOR = 0.531，说明 LLM 标签质量足以支撑下游训练。

三个基准的训练策略¶

数据集本身不训练，但为了证明这批数据可用，作者在三个任务上各搭了一套基线：

HAR 分类：每种模态先各自用专属编码器独立训练——视频用 ViT、IMU 用 DeepConvLSTM、音频用 EnCodec 接时序分类器——再用一个 late-fusion transformer 把单模态特征晚融合，分 12 类动作，按被试划分训练/测试集以检验跨人泛化。
开放词表描述：采用 OV-HAR 思路，让模态专用编码器直接回归叙述文本的句子嵌入，再通过 Vec2Text 做嵌入检索解码生成描述，整条链路不依赖大语言模型。
跨模态对齐：受 ImageBind 启发，用多模态对比学习（InfoNCE loss）把视频、IMU、音频、语言一起拉进共享嵌入空间，从而支持跨模态检索。

实验关键数据¶

主实验¶

表1：HAR 分类 Macro F1（↑）

模态	Scenario (a) No Null	Scenario (a) Null	Scenario (b) No Null	Scenario (b) Null
Inertial (I)	0.834	0.811	0.750	0.674
Acoustic (A)	0.489	0.469	0.425	0.432
Vision (V)	0.757	0.729	0.705	0.655
I + A	0.803	0.782	0.744	0.666
A + V	0.739	0.714	0.695	0.646
I + V	0.882	0.851	0.773	0.685
I + A + V	0.859	0.831	0.763	0.676

表2：跨模态对齐 Recall 与 Top-1 准确率

模态组合	Scenario (a) R@1	R@5	Top-1	Scenario (b) R@1	R@5	Top-1
I + T	0.324	0.655	0.481	0.312	0.642	0.468
A + T	0.241	0.583	0.342	0.227	0.567	0.329
V + T	0.437	0.768	0.556	0.421	0.751	0.541
I + A + T	0.347	0.679	0.495	0.334	0.663	0.479
A + V + T	0.412	0.740	0.533	0.395	0.723	0.517
I + V + T	0.485	0.803	0.587	0.467	0.787	0.570
I + A + V + T	0.470	0.795	0.579	0.453	0.779	0.563

消融实验¶

开放词表描述的 Cosine Similarity 结果进一步验证模态互补性： - I + V 最优：Scenario (a) 0.561、Scenario (b) 0.655，始终超过三模态融合(I+A+V = 0.547 / 0.647) - Acoustic 单独最弱：Scenario (a) 仅 0.361，远低于 Inertial 的 0.518 和 Vision 的 0.479 - 加入 Acoustic 收益有限：I+A (0.512) 略低于单独 I (0.518)，说明音频在当前设置下甚至可能引入噪声 - 去除 Null 类后所有指标均有提升，表明空活动段是分类中的主要困难来源

关键发现¶

Inertial + Vision 是黄金组合：在 HAR、描述、对齐三个任务中均一致地取得最佳性能，表明运动动力学和视觉空间信息高度互补
三模态融合反而不如双模态：I+A+V 在多数指标上低于 I+V，说明噪声较大的音频模态在 late fusion 中可能稀释有效信号
Ad-hoc 场景普遍优于 Procedural 场景：自行车组装的 HAR F1 (0.882) 远高于 3D 打印机 (0.773)，因后者涉及更多不熟悉的小部件操作和认知挑战
音频模态表现有限但非无用：独立性能差主要因为数据在实验台而非真实工厂采集，缺乏真实工业噪声（机器振动等）；在融合中仍有边际贡献

亮点与洞察¶

规模与覆盖最全：8 种模态、282 通道、37+ 小时、36 名参与者，是已知最大的工业多模态 HAR 数据集
生态效度高：序贯协作组装设计（后一位从前一位处继续）真实反映产线交接场景
标注方法创新：人工标注 + LLM 两阶段管线 + 双向一致性检验，平衡了标注成本与质量
多标签动作支持：独特的 verb-object-tool 方案允许重叠标注（如边走边搬运），更贴近真实工业场景
三个互补基准：HAR + 描述 + 对齐的组合全面评估数据集的多方面价值

局限与展望¶

参与者多样性有限：以右利手工程师为主（72%工程师、86%右利手），人口统计泛化性受限
音频模态效果弱：实验室环境缺乏真实工业噪声，音频信号在实际工厂中的表现仍待验证
标注覆盖不完全：当前标注仅利用了部分数据集潜力，多视角录制还可支持物体、交互、姿态等更丰富的标注
传感器配置跨场景不完全一致：两个场景的可穿戴设备放置有差异，虽然关键模态（手腕 IMU、胸部 LiDAR、立体麦克风）一致，但增加了跨场景比较难度
基准方法较为基础：HAR 用 ViT + DeepConvLSTM 的 late fusion，未探索更先进的早期融合或注意力融合策略

评分¶

⭐⭐⭐⭐ 高质量的工业多模态数据集贡献，模态覆盖和场景设计均为同领域最全面，三个验证基准系统化程度高；主要不足是音频模态实用性待验证且基准方法偏基础，作为 dataset paper 整体贡献突出。