DarkShake-DVS: Event-based Human Action Recognition under Low-light and Shaking Camera Conditions¶

会议: CVPR 2026
论文: CVF Open Access
代码: 承诺开源（论文标注 [Code]，待确认仓库地址）
领域: 视频理解
关键词: 事件相机, 动作识别, IMU运动补偿, 关键帧采样, Swin Transformer

一句话总结¶

针对"低光 + 手持 6-DoF 抖动"这一真实但被长期忽视的动作识别场景，本文先用 IMU 角速度驱动一套自适应运动补偿（AIMC）把抖动造成的事件流畸变矫正掉，再用迭代贪心采样（IGS）挑出最有信息量的关键帧，最后用四阶段混合 Swin Transformer（HSTS）做识别，并配套发布了首个低光 + 强抖动 + 同步 IMU 的事件动作数据集 DarkShake-DVS（18,041 段、62 类），在三个基准上均超过 SOTA。

研究背景与动机¶

领域现状：人体动作识别（HAR）的主流方法几乎都建立在"光照充足 + 相机静止"的理想假设上，用 RGB 视频喂给 3D 卷积 / Transformer / Swin 类骨干。

现有痛点：真实部署（夜间监控、手持设备、无人机）同时违反这两条假设——低光把信噪比压垮，6-DoF 自由相机运动又引入运动模糊，二者叠加会同时破坏空间外观和时间连续性。RGB 传感器在这种条件下几乎拍不到可用信息（论文 Fig.1(b) 给出 RGB 同位置准确率仅 2.24%）。

核心矛盾：事件相机本来很适合这种场景——它有微秒级时间分辨率和高动态范围，低光下依然敏感。但现有事件 HAR 方法在"低光 + 抖动"组合下仍然崩，根因有两条：一是没有数据集同时覆盖低光、自我运动、同步 IMU，无法评测；二是现有方法几乎不做显式运动补偿，而 IMU 辅助补偿在 HAR 里基本是空白。

本文目标：补齐这两块——造一个真正困难的基准，再设计一条"先稳像、后采样、再识别"的鲁棒识别管线。

切入角度：DAVIS 事件相机自带 IMU，能给出角速度和线加速度，正好是估计并抵消自我运动的天然线索；而事件流的微秒级时间戳又让逐时刻补偿成为可能。

核心 idea：用 IMU 角速度的频域特性自适应地切分时间窗、再用非线性 warping 把旋转畸变映射回去补偿事件坐标，把"脏"的事件流先洗干净，再交给采样 + 识别网络——即 Event–IMU Stabilized HAR（EIS-HAR）。

方法详解¶

整体框架¶

EIS-HAR 是一条三段串行的管线：原始事件流 + 同步 IMU 进来，先经 AIMC（自适应 IMU 运动补偿） 把抖动造成的旋转畸变矫正、聚合成清晰的补偿事件帧；补偿后帧序列数量很多且高度冗余，于是用 IGS（迭代贪心采样） 按综合得分 + 动态抑制挑出一小撮关键帧；最后这些关键帧送入 HSTS（混合时空 Swin Transformer） 的四阶段架构，联合建模长程结构与局部时空线索，池化后投影到动作类别。数据侧另有 DarkShake-DVS 基准 支撑训练与评测。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["事件流 ε + 同步 IMU"] --> B["AIMC 自适应运动补偿<br/>IMU角速度分组 + 非线性warping<br/>→ 补偿事件帧"]
    B --> C["IGS 迭代贪心采样<br/>综合得分 + 动态抑制<br/>→ K 个关键帧"]
    C --> D["HSTS 四阶段混合Swin<br/>Refinement + Hybrid Block"]
    D --> E["池化投影 → 动作类别 y"]

关键设计¶

1. AIMC：用 IMU 角速度频域特性自适应切窗，把旋转畸变 warping 回去

痛点直接对准"抖动让事件流位置漂移"。事件流记作 \(\varepsilon \in \mathbb{R}^{W\times H\times T}=\{e_1,\dots,e_N\}\)，每个事件 \(e_i=\{x_i,y_i,t_i,p_i\}\) 含像素坐标、微秒时间戳和极性。IMU 给出相机系角速度 \(\omega_c = R_{ci}\,\omega_i\)（\(R_{ci}\) 是 IMU 到相机的外参旋转）。补偿的核心是对角速度积分得到三轴旋转角 \(\phi,\theta,\psi\)，再建立映射 \(\varphi:\mathbb{R}^3\to\mathbb{R}^3\) 把原坐标转成补偿坐标：\(x'_t = [R(x_t-c_o)-T]+c_o\)，其中 \(c_o\) 是像平面中心，\(R\) 是 z 轴旋转构成的 2D 旋转矩阵，\(T\) 是 x/y 轴旋转引起的等效平移。关键的非线性项来自入射角几何（以 y 轴旋转为例）：\(\alpha=\tan^{-1}(x\cdot w/f)\)、\(\beta\approx\alpha-\theta\)，位移量 \(\Delta l = x-\rho\tan\beta\)（\(\rho=f/w\)），于是 \(T=(x_t-c_o)-\rho\tan\beta\)。这一步解决了"大入射角下相同旋转角对应的位移并不相同"的差分位移问题。

但作者发现一个工程坑：相邻事件帧的微秒间隔让补偿值只有 \(10^{-6}\) 量级，而像素坐标是整型存储，取整直接把位移抹成 0——补偿在实现层面"物理失效"。为此他们提出基于角速度频域特性的自适应分组：先按角速度符号（极性）分正负区，再在每个单调区内以局部极值为切分点，最后按累积角位移中位数定组；每组的时间边界用首尾 IMU 时间戳并与事件流同步。再叠一个 IMU 时间感知的动态缩放因子，把相邻事件间隔 \(\Delta t_{event}\) 对齐到 IMU 采样间隔 \(\Delta t_{imu}\)，缩放因子按

\[\gamma_{group}=\gamma_{min}+\frac{\gamma_{max}-\gamma_{min}}{a\cdot N_{imu}+b}\]

随每组 IMU 采样数 \(N_{imu}\) 自适应变化（\(a,b\) 为调节系数，\(\gamma_{min},\gamma_{max}\) 为缩放界）。这就把固定缩放因子在动态角速度下的失配问题解决了，让补偿粒度随角速度动态变化——也正是它比"靠优化求解"的传统运动补偿快得多的原因（70ms vs 优化法 210–300ms）。

2. IGS：综合得分 + 动态抑制的迭代贪心选帧，替代均匀采样

补偿后帧序列总数高度可变、长样本极其冗余，而传统均匀采样会漏掉稀疏但关键的瞬间。IGS 给每个候选帧 \(i\) 算一个综合得分：

\[S_{comb}(i)=w_{rel}\hat S_{rel}(i)+w_{q}\hat S_{qual}(i)+w_{u}\hat S_{uni}(i)+w_{d}\hat S_{div}(i)\]

其中 \(\hat S_{rel}\)（与动作的相关性）、\(\hat S_{qual}\)（帧质量）代表帧的内在价值，\(\hat S_{uni}\)（时间均匀性）、\(\hat S_{div}\)（视觉多样性）代表动态抑制。算法迭代地建关键帧集：第一轮只看内在价值（\(\hat S_{rel},\hat S_{qual}\)）选最高分帧；一旦选中就激活动态抑制，对剩余帧重算 \(\hat S_{uni},\hat S_{div}\)——与已选帧视觉冗余或时间扎堆的帧综合得分被压低，再从被抑制后的分布里选下一个最高分帧。这样既保证选到的帧信息密度高，又强制它们在时间和外观上分散，避免连续相似帧堆在一起。

3. HSTS：四阶段混合 Swin，全局注意力与局部时空卷积并行

\(K\) 个关键帧 \(X\in\mathbb{R}^{C\times K\times H\times W}\) 先被切成不重叠 3D patch 并由 3D 卷积投影：\(P_{emb}=E_{patch}(X)\)，随后进入四个阶段，每阶段含一个 patch merging、一个宏观 Refinement Block 和两个微观 Hybrid Block。Refinement Block 用来抵消 patch merging 带来的语义漂移：并行用轻量 2D / 1D 深度可分离卷积施加空间一致性与时间连续性先验，\(P_{sp}=C^S_i(P_{in})\)、\(P_{tp}=C^T_i(P_{in})\)，融合为 \(P_r=P_{sp}+P_{tp}\)。Hybrid Block 是核心，设三条并行路径：\(P_A=\mathcal{A}_{Swin}(P_r)\)（Swin 注意力建全局相关）、\(P_{LS}=L^S_i(P_r)\)（局部空间，稳特征）、\(P_{LT}=L^T_i(P_r)\)（局部时间，抑噪），用可学习标量加权融合 \(P_{out}=w_A P_A+w_{LS}P_{LS}+w_{LT}P_{LT}\)。最后归一化 + 全局平均池化 + 投影头出 logits：\(y=H(P_{avg}(N(P_{out})))\)，训练用交叉熵。这套"全局注意力 + 局部卷积"并行混合的设计，是为同时抓住动作的长程结构和事件帧里的局部时空细节——单纯 Swin 注意力对局部噪声不够稳，单纯卷积又缺长程建模。

4. DarkShake-DVS：首个低光 + 强 6-DoF 抖动 + 同步 IMU 的事件 HAR 基准

数据是本文与方法并列的核心贡献。用 DAVIS-346（346×260）在弱光真实场景手持采集，采集者故意引入 6-DoF 运动模拟真实抖动，同步记录加速度计 + 陀螺仪 IMU。覆盖室内外（办公室、操场、厨房、卧室），多视角（前后左右 + 四对角 + 上下俯仰），并含手/脚/物体遮挡。共 62 类（30 类单人 + 32 类双人协作，如劈柴、跳舞、做饭、心肺复苏），15 名表演者、18,041 段，按 6:3:1 划分训练/验证/测试。难度分级很巧：用陀螺仪平均角速度作为客观抖动强度判据，把数据分成低/中/高抖动三个子集（30%/40%/30%），消除主观判断、给鲁棒性评测提供连续的运动强度谱。

损失函数 / 训练策略¶

隐层维度 96，Adam 优化器（weight decay 2e-2），学习率初始 5e-4 配 CosineAnnealingLR（最小 1e-5）；2×NVIDIA 4090，250 epoch，batch size 20；分类用交叉熵。

实验关键数据¶

主实验¶

三个基准（HARDVS、DailyDVS-200、DarkShake-DVS）上 EIS-HAR 全面领先。

数据集	指标	本文 (Ours)	之前最强	提升
HARDVS	acc top-1	53.21	Swin-T 51.91 / ESTF 51.22	+1.30
DailyDVS-200	acc top-1	51.99	Evmamba 49.65	+2.34
DarkShake-DVS	acc (w/ AIMC)	91.35	Swin-T 88.86	+2.49

在 DarkShake-DVS 上，本文模型仅 34.0M 参数却拿到最高分；且把 AIMC 当作即插即用的预处理接到别的骨干上，几乎所有方法都涨点（如 SlowFast 83.91→87.25、Spikformer 80.17→85.77），唯独 Mamba/SSM 系（VMamba、Vision Mamba、VideoMamba）反而很差，作者推测 SSM 对相机抖动特别敏感。

消融实验¶

DarkShake-DVS 上逐模块消融（完整模型 91.35）：

配置	acc	说明
Full (Ours)	91.35	AIMC + IGS + Re + Hi 全开
w/o AIMC	88.61	去运动补偿，掉 2.74
w/o IGS	85.76	IGS 换均匀采样，掉 5.59（最致命）
w/o Re	89.43	去 Refinement Block，掉 1.92
w/o Hi	87.36	去 Hybrid Block 的空间/时间路径，掉 3.99

补偿效率对比（单线程 AMD EPYC 7B12）：本文 70ms 完成整段补偿，而优化法光流 [11] 需 210ms、4-DOF [29] 需 300ms（每步 10ms × 30+ 步），且本文像素-事件密度（yaw/pitch/roll 3.74/2.45/2.13）更高。

关键发现¶

IGS 贡献最大：换成均匀采样掉 5.59 个点，远超去掉补偿（2.74）或去掉混合块（3.99）——说明"挑对帧"比"算法骨干"更关键，均匀采样会漏掉稀疏关键瞬间或塞进一堆相似冗余帧。
运动补偿是必要预处理：t-SNE 可视化显示去掉 AIMC 时多类特征纠缠（红框），加上后类间可分性明显提升；但作者诚实指出，抖动幅度过大的少数类即便补偿后仍难区分，存在特征塌缩。
SSM 在抖动下反常：Mamba 系是少数加 AIMC 不涨甚至掉点的模型，提示状态空间模型对相机自我运动的鲁棒性可能存在结构性短板。

亮点与洞察¶

把"整型取整导致补偿失效"这个工程坑写进方法：很多运动补偿论文不会暴露这种实现细节，本文直接点出微秒间隔补偿值 \(10^{-6}\) 被整型 round 抹零，并用频域分组 + 动态缩放因子绕过——这是真正落地过才会发现的问题。
抖动强度用陀螺仪角速度客观分级：把数据集难度做成可量化的低/中/高三档，比拍脑袋打标签更可信，也给后续工作提供了标准化的鲁棒性评测轴。
AIMC 可即插即用：它是独立预处理模块，能接到任意现有骨干上普遍涨点，迁移价值高——任何事件 HAR 工作只要有同步 IMU 都能复用。

局限与展望¶

依赖同步 IMU 与近似假设：方法把深度近似为常数（相机无测深、且假设物-相机距离大致一致），在距离剧烈变化的场景下补偿模型可能失准。
极端抖动仍难救：作者自己承认部分高抖动类别补偿后特征仍塌缩、无法区分，说明纯旋转补偿对平移性大畸变能力有限。
缩放因子的 \(a,b,\gamma_{min},\gamma_{max}\) 等超参细节放在补充材料，正文未给敏感性分析，复现时需自行调参（⚠️ 具体取值以原文/补充材料为准）。
多数对比与消融集中在 DarkShake-DVS 自建集上，跨域泛化（如真实无人机平台）尚未充分验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首个低光+6-DoF+IMU 事件 HAR 基准，加上自适应 IMU 补偿这条少有人走的路线，问题设定新颖
实验充分度: ⭐⭐⭐⭐ 三数据集 + 完整模块消融 + 补偿质量/效率对比 + t-SNE 可视化，但部分超参细节藏在补充材料
写作质量: ⭐⭐⭐⭐ 动机清晰、公式完整，实现坑点交代诚实，少数符号略密
价值: ⭐⭐⭐⭐ 数据集 + 可即插即用的 AIMC 对事件 HAR 社区有实际推动价值