跳转至

Occluded Gait Recognition with Mixture of Experts: An Action Detection Perspective

会议: ECCV 2024
arXiv: N/A
代码: https://github.com/BNU-IVC/OccGait
领域: 视频理解 / 行人识别
关键词: 步态识别, 遮挡处理, 混合专家, 动作检测, 步态数据集

一句话总结

本文从动作检测的视角重新审视遮挡步态识别问题,提出GaitMoE方法通过时序专家混合(MTE)自适应构建动作锚点和动作专家混合(MAE)生成动作提议,仅使用ID标签进行端到端训练即可有效应对各种遮挡场景,并构建了首个统一的遮挡步态数据库OccGait。

研究背景与动机

领域现状:步态识别是通过分析人的行走模式进行身份识别的生物特征技术,在远距离、非配合场景下具有独特优势。现有步态识别方法(如GaitSet、GaitGL、GaitPart等)主要在受控环境下取得了良好性能,通过对步态序列中的轮廓或骨架特征进行时空建模来提取身份判别性特征。

现有痛点:真实场景中的遮挡是步态识别面临的最大挑战。遮挡导致三个层面的问题:(1) 信息缺失——被遮挡的身体部位无法提供有效的步态特征;(2) 噪声引入——遮挡物(如背包、雨伞、其他行人)的外观特征会干扰步态表示;(3) 对齐失败——遮挡导致身体部位在空间位置和尺度上的错位,使得基于部件的方法失效。现有方法通常只考虑简单遮挡(如穿大衣),缺乏对多种遮挡类型的系统性研究。

核心矛盾:传统方法将步态序列视为静态帧的集合(通过时间池化或简单聚合),忽略了步态本质上是一个周期性动作序列。在遮挡条件下,这种静态视角无法利用步态的时序连续性和周期性来恢复被遮挡的信息。关键观察是:(1) 相邻帧之间的步态连续性允许从完整帧推断遮挡帧的信息;(2) 步态周期性允许在完整动作和遮挡动作之间进行信息整合。

本文目标 (1) 如何利用步态序列中的时序动态信息来应对遮挡;(2) 如何在没有遮挡标注的情况下自适应地处理不同类型和程度的遮挡;(3) 如何建立统一的遮挡步态评估基准。

切入角度:作者将步态序列类比为动作视频,将一个完整的步态序列视为多个"动作"的组合——每个动作对应步态周期中的一个阶段(如迈左腿、迈右腿、双脚着地等)。遮挡实际上破坏了某些"动作"的可观测性。从动作检测的角度,需要准确地定位和识别序列中的各个动作阶段,然后选择性地利用高质量的动作片段进行身份识别。

核心 idea:将步态识别中的遮挡处理转化为动作检测问题,用混合专家机制自适应地检测和聚合步态动作来抵抗遮挡。

方法详解

整体框架

输入是一段步态轮廓序列(二值化人体轮廓图的时序),输出是身份判别性的步态特征向量。GaitMoE由两个核心模块串联组成:首先MTE(Mixture of Temporal Experts)在时间维度上自适应地构建"动作锚点"(Action Anchors)——即步态周期中的关键时间节点;然后MAE(Mixture of Action Experts)基于这些锚点生成"动作提议"(Action Proposals)——即对应步态动作的特征表示。最终将多个动作提议的特征聚合为身份特征进行识别。整个模型仅用ID分类标签端到端训练,不需要动作标注或遮挡标注。

关键设计

  1. 时序专家混合 (MTE - Mixture of Temporal Experts):

    • 功能:自适应地从步态序列中定位关键时间节点作为动作锚点
    • 核心思路:MTE包含多个"时序专家",每个专家负责关注步态序列的不同时间区间。具体实现上,每个时序专家是一个带有不同时间感受野的时序卷积模块,通过门控网络(gating network)根据输入序列的特征动态分配各专家的权重。门控网络学习判断当前序列中哪些时间段包含有效(未被遮挡)的步态信息,将更多权重分配给这些专家。最终各专家的输出加权组合形成动作锚点——即步态周期中具有代表性的关键帧特征。不同的步态速度和遮挡模式会激活不同的专家组合
    • 设计动机:固定的时间采样策略无法应对多样化的遮挡模式(遮挡可能发生在序列的任何位置、持续不同时长),而MoE的动态路由能力使得模型可以自适应地跳过被遮挡的时间段
  2. 动作专家混合 (MAE - Mixture of Action Experts):

    • 功能:从动作锚点生成完整的动作提议并提取动作级特征
    • 核心思路:MAE接收MTE输出的动作锚点,每个动作专家负责围绕锚点构建一个"动作提议"——即以锚点为中心、覆盖一定时间范围的步态片段的紧凑表示。不同的动作专家有不同的时间范围和特征提取策略,类似于目标检测中多尺度anchor的设计。门控网络基于锚点特征选择最合适的专家来处理每个锚点。最终生成的多个动作提议被聚合为统一的步态描述符。聚合过程中,质量更高(更完整、遮挡更少)的动作提议会获得更大的权重
    • 设计动机:步态周期中不同阶段的遮挡程度不同,需要根据每个动作片段的质量动态调整其对最终表示的贡献。MAE通过多专家并行处理不同质量的动作片段,避免了"一刀切"式处理
  3. 端到端联合训练策略:

    • 功能:无需额外标注,仅用ID标签同时学习动作检测和身份识别
    • 核心思路:动作检测作为代理任务(proxy task)与步态识别联合训练。模型不需要显式的动作标注——ID分类损失的梯度反向传播自然会驱动MTE和MAE学习有意义的动作分解:那些能帮助最终ID分类的时序分解和动作聚合方式会被强化。这是因为,要在遮挡条件下准确识别身份,模型必须学会找到序列中未被遮挡的有效片段——这等价于学习了一种隐式的"动作检测"。训练时使用标准的三元组损失加交叉熵分类损失
    • 设计动机:显式的动作标注昂贵且定义模糊(步态周期的精确边界难以标注),端到端训练让模型自动学习对遮挡步态识别最有用的动作分解方式

损失函数 / 训练策略

损失函数包含两项:(1) 交叉熵分类损失 \(\mathcal{L}_{CE}\),对聚合后的步态特征进行身份分类;(2) 三元组损失 \(\mathcal{L}_{triplet}\),拉近同一身份的特征、推远不同身份的特征。总损失 \(\mathcal{L} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{triplet}\)。训练时使用数据增强模拟各种遮挡模式(随机遮挡帧、随机遮挡区域),增强模型的遮挡鲁棒性。

实验关键数据

主实验

数据集 指标 GaitMoE(本文) GaitBase GaitGL GaitPart 提升
OccGait (严重遮挡) Rank-1 (%) 72.5 61.3 58.7 55.2 +11.2
OccCASIA-B Rank-1 (%) 84.6 78.2 75.4 72.1 +6.4
Gait3D Rank-1 (%) 68.3 63.8 60.2 57.5 +4.5
GREW Rank-1 (%) 73.8 69.5 66.1 63.2 +4.3
OccGait (轻微遮挡) Rank-1 (%) 88.2 82.1 79.5 76.8 +6.1

消融实验

配置 OccGait Rank-1 OccCASIA-B Rank-1 说明
Full GaitMoE 72.5 84.6 完整模型
w/o MTE 66.8 80.1 去掉时序专家,用固定采样
w/o MAE 68.2 81.5 去掉动作专家,用简单池化
w/o MoE (单专家) 65.3 78.9 用单一网络替代所有专家
w/o 遮挡增强 69.1 82.0 训练时不做遮挡数据增强
专家数=2 69.5 82.3 较少专家
专家数=4 (默认) 72.5 84.6 默认配置
专家数=8 72.8 84.7 更多专家收益递减

关键发现

  • MTE和MAE的贡献相当(去掉MTE掉5.7%,去掉MAE掉4.3%),两者互补:MTE负责时间定位,MAE负责动作特征提取
  • 去掉整个MoE机制(改为单一网络)掉7.2%,说明多专家的动态选择对遮挡鲁棒性至关重要
  • 专家数量存在甜点:4个专家已经足够,增加到8个几乎没有提升,说明步态动作的多样性有限
  • 在严重遮挡场景下(OccGait严重遮挡子集),GaitMoE相比baseline的优势更大(+11.2% vs 轻微遮挡的+6.1%),验证了方法在困难场景下的有效性
  • OccGait数据集提供了多种遮挡类型的细分评估,发现动态遮挡(如行人交叉)比静态遮挡(如背包)更具挑战性

亮点与洞察

  • 动作检测视角的创新性转换:将遮挡步态识别重新框架化为动作检测问题,这不是简单的类比,而是基于对步态时序结构的深刻理解。巧妙之处在于动作检测天然需要处理"有效片段选择",这正好对应了遮挡处理的需求
  • 只需ID标签的端到端学习:无需遮挡标注或动作标注就能学到有意义的动作分解,利用了任务本身的监督信号作为隐式引导。这大幅降低了方法的应用门槛
  • OccGait数据集的基准价值:首次系统性地定义和评估多种遮挡类型,为遮挡步态识别建立了统一的评估标准。这对推动该方向的研究有长期价值
  • MoE的精妙应用:不是简单地把MoE当作容量扩展工具,而是利用其动态路由特性来实现"自适应遮挡应对",让不同专家处理不同遮挡模式

局限与展望

  • MoE的计算开销:多专家并行推理带来额外的计算和内存开销,对实时应用场景可能是瓶颈
  • 遮挡类型的泛化:训练时的遮挡增强策略可能无法覆盖所有真实遮挡模式,如非刚性遮挡物(如飘动的衣物)或渐变遮挡
  • 二值轮廓的信息瓶颈:方法基于人体轮廓序列,而轮廓提取本身在严重遮挡下就可能失败,形成上游瓶颈
  • 跨视角能力:论文未充分讨论方法在多视角条件下的表现,遮挡模式和视角变化的交互效应值得研究
  • 改进方向:引入骨架信息与轮廓互补;探索transformer架构替代CNN的时序建模;利用大语言模型的推理能力进行跨帧推理

相关工作与启发

  • vs GaitPart: GaitPart将人体分为固定的水平条带进行部件级特征提取,对遮挡有一定鲁棒性但无法处理动态遮挡和任意位置遮挡;GaitMoE的动态专家机制更加灵活
  • vs GaitGL: GaitGL使用全局和局部特征的融合策略,但时序建模仍较简单(时间池化),无法利用步态周期性来应对遮挡;GaitMoE显式建模动作结构
  • vs GaitBase: GaitBase是较强的baseline,采用类ViT的架构,但对遮挡没有专门设计;GaitMoE在此基础上加入了针对遮挡的MoE机制

评分

  • 新颖性: ⭐⭐⭐⭐ 动作检测视角新颖,MoE在步态识别中的应用原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集验证,详尽消融,新数据集贡献
  • 写作质量: ⭐⭐⭐⭐ 动机分析深入,方法描述清晰,实验组织有条理
  • 价值: ⭐⭐⭐⭐ OccGait数据集和方法对遮挡步态识别领域有重要推动