Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras¶
会议: ICCV 2025
arXiv: 2503.17262
代码: GitHub
领域: 视频理解
关键词: 事件相机, 光流估计, 图像亮度重建, 无监督学习, 联合估计
一句话总结¶
提出首个基于单一网络的无监督学习框架,从事件相机数据中联合估计光流和图像亮度,核心是新推导的事件光度误差(PhE)与对比度最大化(CMax)的互补损失函数。
研究背景与动机¶
事件相机是新型仿生视觉传感器,具有高时间分辨率、极高动态范围(HDR)、低功耗和低运动模糊等优势。其输出是异步的像素级亮度变化流而非传统帧图像,需要全新算法来处理。
核心观察:在恒定光照条件下,事件相机中运动与外观天然耦合 —— 事件由移动的亮度模式触发。因此两个基本视觉量(光流 = 运动,亮度 = 外观)本质上是同源的:要么同时存在并被记录,要么都不存在。
然而现有方法几乎将这两个任务完全分开处理: - 光流估计:EV-FlowNet、E-RAFT 等,单独训练 - 亮度重建:E2VID 等,单独训练 - 少数联合方法要么局限于纯旋转运动,要么需要两个独立网络级联
这导致了两个问题:(1) 未能利用运动与外观之间的内在协同关系,(2) 两个独立模型级联推理速度慢、误差累积。
本文动机:设计一个统一的无监督框架,用一个网络同时输出光流和亮度图像,并通过新导出的损失函数充分利用两者的协同关系。
方法详解¶
整体框架¶
模型采用经典的 U-Net 架构,输入为 15 通道的事件体素网格(voxel grid),输出 3 通道(2 通道光流 + 1 通道亮度)。训练时每步输入两个连续的事件数据样本,分别预测各自的光流和亮度,同时通过时间一致性损失建立二者关联。推理时仅需输入一个事件体素网格即可同时输出光流和亮度。
关键设计¶
- 事件光度误差 (Event-based Photometric Error, PhE)
从事件生成模型 (EGM) 出发:\(\Delta L = L(\mathbf{x}_k, t_k) - L(\mathbf{x}_k, t_k - \Delta t_k) = p_k C\)
将事件 \(e_k\) 及其前驱事件 warp 到参考时间 \(t_{\text{ref}}\) 后,定义逐事件的光度误差:
$\epsilon_k = (L(\mathbf{x}'_k) - L(\mathbf{x}'_{k-1})) - p_k C$
关键性质:每个 PhE 项同时约束约 8 个亮度像素和 1 个光流像素,打开了联合估计的大门。总 PhE 损失为所有事件残差的平均绝对值:
$\mathcal{L}_{\text{PhE}}(L, F) = \frac{1}{N_e} \sum_{k=1}^{N_e} |\epsilon_k|$
PhE 没有事件塌缩问题,更关注外观(亮度)约束。
- 对比度最大化 (Contrast Maximization, CMax)
基于 warp 后事件图像(IWE)的梯度锐度:
$\mathcal{L}_{\text{CMax}}(F) = 1 \Big/ \left(\frac{1}{|\Omega|}\int_\Omega \|\nabla \text{IWE}(\mathbf{x})\|_1 \, d\mathbf{x}\right)$
CMax 的唯一可优化变量是光流,更关注运动参数。PhE 与 CMax 形成互补:前者侧重外观,后者侧重运动。
- 时间一致性损失 (Temporal Consistency, TC)
联合估计的关键优势:利用预测的光流 \(F_{i \to i+1}\) 将亮度 \(L_i\) warp 到 \(t_{i+1}\),与另一样本直接预测的 \(L_{i+1}\) 比较:
$\mathcal{L}_{\text{TC}} = \frac{1}{|\Omega|}\int_\Omega |L_{i+1}(\mathbf{x}) - \mathcal{W}(\mathbf{x}; L_i, F_{i \to i+1})| \, d\mathbf{x}$
TC 损失同时约束光流和亮度的时间连贯性,是联合估计相比独立估计的核心优势来源。
损失函数 / 训练策略¶
总损失为五项加权和:
其中 \(\mathcal{L}_{\text{FTV}}\) 和 \(\mathcal{L}_{\text{ITV}}\) 分别是光流和亮度的全变差(TV)正则化。权重设置为 \(\lambda_1=30, \lambda_2=1, \lambda_3=10, \lambda_4=0.001, \lambda_5=1\)。
训练细节:仅在 DSEC 训练集上训练 130 epochs,AdamW 优化器,4 张 RTX A6000,batch size 24。CMax 参考时间随机设置以减少事件塌缩风险,PhE 参考时间固定为样本末尾。
实验关键数据¶
主实验¶
光流估计 — DSEC 测试集(整体)
| 方法 | 类型 | EPE↓ | AE↓ | %Out↓ | 推理时间(ms) |
|---|---|---|---|---|---|
| E-RAFT | 监督 | 0.788 | 10.56 | 2.684 | 46.3 |
| IDNet | 监督 | 0.719 | 2.723 | 2.036 | - |
| MotionPriorCM | 无监督 | 3.2 | 8.53 | 15.21 | 17.9 |
| BTEB | 无监督 | 3.86 | - | 31.45 | - |
| EV-FlowNet | 无监督 | 3.86 | - | 31.45 | - |
| Ours | 无监督 | 1.781 | 6.439 | 11.241 | 15.1 |
在无监督方法中,本方法将 EPE 降低约 20%,AE 降低约 25%,同时推理时间最短。
消融实验¶
| 配置 | EPE (光流) | SSIM (亮度) | 说明 |
|---|---|---|---|
| 完整模型 | 1.781 | 最优 | PhE + CMax + TV + TC |
| 无 PhE | 性能下降 | 亮度估计严重退化 | PhE 提供关键亮度约束 |
| 无 CMax | 光流精度显著下降 | - | CMax 提供核心运动约束 |
| 无 TC | 时序不一致 | SSIM 明显下降 | TC 是联合估计的核心优势 |
| 无 TV 正则 | 光流噪声增大 | 边界模糊 | 平滑性正则对无事件区域至关重要 |
关键发现¶
- PhE 与 CMax 互补:PhE 侧重亮度约束,CMax 侧重运动约束,两者缺一不可。
- TC 损失对亮度质量的提升尤为显著——这是联合估计相比独立估计的核心优势。
- 模型仅在 DSEC 上训练,但在 BS-ERGB、HDR、ECD 等不同相机和场景上泛化良好,展现了跨域泛化能力。
- 在 HDR 场景中,本方法的亮度重建优于某些监督方法(如 E2VID),因为无监督训练避免了合成数据的 sim-to-real 差距。
亮点与洞察¶
- "运动与外观天然耦合"这一观察是全文的出发点,PhE 的推导从事件生成模型出发,数学上自然地建立了光流与亮度的联合约束,非常优雅。
- 单网络双输出——推理只需一次前向传播即可同时得到光流和亮度,推理时间短于任何单个任务的 SOTA。
- PhE 不存在事件塌缩问题,这是对 CMax 框架的重要补充。
- TC 损失的设计精妙:用预测的光流 warp 前一时刻的亮度,与直接预测的后一时刻亮度比较,形成自监督信号。
局限与展望¶
- 亮度重建在全参考指标(MSE、SSIM)上仍落后于最先进的监督方法(如 E2VID、HyperE2VID)。
- 对比度阈值 \(C\) 固定为 0.2,实际事件相机的 \(C\) 值因设备而异。
- U-Net 架构相对简单,采用更先进的骨干(如 Transformer-based)可能进一步提升性能。
- 目前仅评估了 2D 光流,未扩展到场景流或深度估计。
相关工作与启发¶
- Bardow et al. (2016) 的 SOFIE 是最早的联合方法但仅限旋转运动;BTEB (2021) 需两个独立网络级联。
- CMax 框架(Gallego et al.)是事件视觉的核心范式,本文将其与 PhE 结合是重要突破。
- 启发:事件相机数据中的"运动-外观耦合"原则可推广至其他传感器融合问题。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个单网络无监督联合光流+亮度估计方法,PhE 推导优雅
- 实验充分度: ⭐⭐⭐⭐ 在多个数据集上全面评估了光流和亮度,消融充分
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,实验组织良好
- 价值: ⭐⭐⭐⭐ 为事件视觉社区提供了新的联合估计范式