跳转至

From Contrast to Consistency: Rethinking Event-based Continuous-Time Optical Flow Estimation

会议: CVPR 2026
arXiv: 2605.25570
代码: 待确认
领域: 视频理解 / 事件相机 / 光流估计
关键词: 事件相机, 连续时间光流, 时空结构一致性, 自监督, 课程学习

一句话总结

针对事件相机连续时间光流缺乏密集真值、而对比度最大化(CM)又只追求"对齐到一点"忽略轨迹连续性的问题,本文提出时空结构一致性(STSC) 自监督范式,把事件看成时空流形上的采样而非待对齐的散点,配合双向多尺度网络和课程引导的混合监督训练,在 DSEC-Flow / MVSEC 上同时刷新标准光流和高时间分辨率(HTR)光流的 SOTA(DSEC EPE 0.663,相对 BFlow 降 11.6%)。

研究背景与动机

领域现状:事件相机以微秒级延迟、高动态范围异步记录亮度变化,天然适合做高时间分辨率(HTR)的连续时间光流。当前主流是两条路:一是 RAFT 系的监督学习(E-RAFT、TMA、IDNet 等),靠事件 voxel 网格 + 相关体迭代细化;二是自监督的对比度最大化(Contrast Maximization, CM),通过让"warp 后事件图像(Image of Warped Events, IWE)"更锐利来反推运动。

现有痛点:连续时间光流的根本瓶颈是缺乏时序密集的真值标注——真实数据集只有稀疏的轨迹端点(LTR-GT),监督学习无法充分利用事件的时间精度。而 CM 自监督的核心目标是"把所有事件 warp 到同一参考时刻、让 IWE 尽量锐利",这个目标只关心终点对齐、完全丢掉了运动轨迹的时间连续性和结构连贯性:复杂/非线性运动下,事件被强行压扁到一帧,轨迹被扭曲,还容易陷入"投影坍缩(Projection Collapse)"。即便像 BFlow 用 Bézier 曲线显式参数化整条轨迹,在真实数据上也只有稀疏端点约束,中间轨迹缺乏先验、物理上不可信。

核心矛盾:CM 把事件当成"无序的、待对齐的散点",对齐目标(锐利 IWE)和"物理真实的连续运动场"之间存在错位——锐利不等于轨迹正确。

切入角度与核心 idea:作者观察到,同一物理表面触发的事件在运动中天然保持局部结构、构成一个时序稳定的时空流形。于是换个视角:不再把事件当散点对齐,而是把它们当作内在结构化时空流形上的采样。据此提出时空结构一致性(STSC),从两个互补角度约束学习——局部结构稳定 + 轨迹连续,引导网络重建真实运动场而非只优化端点对齐。

方法详解

整体框架

STSC-Flow 的输入是一段事件流(转成 voxel 网格),输出是连续时间光流。整条管线分两块:自监督目标(STSC) 提供"密集运动先验",网络架构(Bi²ME + BRU) 负责把多尺度、双向时序的运动特征抽出来并细化,二者由课程引导的锚定混合训练缝合——训练初期靠稀疏真值锚定运动尺度,后期逐步切换到 STSC 自监督。

STSC 的关键载体是体积化 warp 事件(Volumetric Warped Events, VWE):传统 CM 把所有事件 warp 到单一参考时刻(IWE,丢掉时间维),VWE 则把每个时间 bin 对齐到共同参考中心、保留 bin 内的相对时间结构,得到一个共享参考系下的 3D 时空体。在这个体上施加两条自监督损失:局部结构一致性 \(\mathcal{L}_{\mathrm{LSC}}\)(同一空间位置在不同相对时间相上应保持结构稳定)和轨迹一致性 \(\mathcal{L}_{\mathrm{TC}}\)(不同源 bin 应沿一致运动轨迹)。

网络侧:voxel 网格先经 Bi²ME 双尺度双向编码器抽运动特征 → BRU 双向细化模块(内含两个反向遍历的 SAU)做前向/后向时序累积 → 聚合双向状态得到最终连续光流。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["事件流 → voxel 网格"] --> B["Bi²ME 双尺度<br/>双向运动编码器"]
    B --> C["BRU 双向细化<br/>前向+后向 SAU 累积"]
    C --> D["连续时间光流预测"]
    D -->|稀疏真值锚定| E["端点损失 L_flow"]
    D -->|VWE 体积化 warp| F["STSC 自监督<br/>L_LSC + L_TC"]
    E --> G["课程引导混合训练<br/>监督→自监督渐变"]
    F --> G

关键设计

1. 时空结构一致性 STSC:用流形先验替代"锐利 IWE"目标

这是全文的根基,直接针对 CM 只追求端点对齐、丢掉轨迹连续性的痛点。作者先构造 VWE:给定参考时刻 \(t_0\),每个 bin 中心 \(c_b\) 的时移为 \(\Delta_b = t_0 - c_b\),bin 内事件保留相对时间 \(\xi_i = t_i - c_b\),得到 \(\mathrm{VWE}_b(\mathbf{x},\xi)=\sum_{i}\sigma_i\,\kappa_s(\mathbf{x}-\mathcal{W}_{t_i\to t_i+\Delta_b}(\mathbf{x}_i))\,\kappa_t(\xi-\xi_i)\),对所有 bin 求和得完整体 VWE。和单时刻 warp 不同,它同时保留了 跨 bin 对齐bin 内时间微结构

在 VWE 上施加两条互补约束。局部结构一致性 \(\mathcal{L}_{\mathrm{LSC}}\):先对每个相对时间 \(\xi\) 用核 \(w_\xi\) 聚合邻域得 \(\mathcal{V}(\mathbf{x},\xi)\),再取所有相对时间相的均值结构 \(\overline{\mathcal{V}}(\mathbf{x})=\frac{1}{K}\sum_k \mathcal{V}(\mathbf{x},\xi_k)\),然后惩罚每个相位对均值的偏离 \(\mathcal{L}_{\mathrm{LSC}}=\frac{1}{K}\sum_k\sum_{\mathbf{x}}\|\mathcal{V}(\mathbf{x},\xi_k)-\overline{\mathcal{V}}(\mathbf{x})\|_2^2\)——逼着对齐后的事件体在时间轴上保持稳定局部结构,而不是因运动补偿不准而忽明忽暗。轨迹一致性 \(\mathcal{L}_{\mathrm{TC}}\):对每个归一化 bin 体算时空梯度场 \(\mathcal{G}_b=\nabla_{(\mathbf{x},\xi)}\mathrm{norm}(\mathrm{VWE}_b)\),再最小化梯度场跨源 bin 的方差 \(\mathcal{L}_{\mathrm{TC}}=\frac{1}{K}\sum_k\sum_{\mathbf{x}}\mathrm{Var}_b(\mathcal{G}_b(\mathbf{x},\xi_k))\)——逼着相邻时刻的事件沿平滑一致的轨迹运动。两条损失合起来等于给中间轨迹补上了 CM 缺失的密集物理先验,所以在更高采样率下轨迹反而更稳(见 Table 5)

2. Bi²ME 双尺度双向运动编码器:把运动锚定到时间边界

针对运动在空间上异质(既有全局大位移又有细小结构)的问题,Bi²ME 用双分辨率分支:低分辨率 \(\{F_L^t\}\) 抓全局运动上下文,高分辨率 \(\{F_H^t\}\) 保细节结构。它把运动双向锚定到时间窗的首尾边界,构造前向/后向相关体 \(C_f^t = F_L^1 (F_L^t)^\top/\sqrt{D}\)\(C_b^t = F_L^t (F_L^B)^\top/\sqrt{D}\)\(F_L^1, F_L^B\) 是首/末 bin 特征)。同时在高分辨率特征上做运动感知差分(MADiff)\(M_f^t = F_H^t - F_H^1\)\(M_b^t = F_H^t - F_H^B\),增强对细结构的敏感度(这正是 LSC 所需的)。相关体、差分特征与原特征流融合,输出双向运动增强特征序列喂给细化模块

3. BRU 双向细化 + SAU 跨尺度交织:用二阶中心差分换无偏时序特征

单向递归更新只相当于一阶差分,对遮挡和加速度不鲁棒。作者把"结合过去与未来 = 二阶中心差分近似"作为理论依据(推导在补充材料),让 BRU 用两个反向遍历的 SAU 做对称前向(\(t{=}1{\to}B\))/后向(\(t{=}B{\to}1\))累积,末步融合双向隐状态,得到同时利用过去和未来证据的无偏估计。每个 SAU(Scale Alternating Unit) 是双分支递归结构:1/8 分辨率的全局记忆单元 GMU + 1/4 分辨率的细节细化单元 DRU,再用 Weaving Gate 自适应混合两支信息——\(g_L^t = \sigma(\mathrm{Conv}_{3\times3}([h_L^{t-1}, \tilde{h}_H^{t-1}, x_L^t]))\)\(h_L^{\mathrm{mix}} = g_L^t \odot \tilde{h}_H^{t-1} + (1-g_L^t)\odot h_L^{t-1}\),让粗尺度时序运动和细尺度空间细节交替耦合,兼顾空间精度与时间一致性

4. 锚定式课程引导混合训练:从监督点约束平滑过渡到自监督流形正则

虽然 STSC 理论上能纯自监督学连续光流,但从零直接优化常不稳定、易坍缩。作者用稀疏真值做"初始化锚",按课程学习渐变:监督权重 \(\lambda_{flow}(e)=\max(0, 1-e/E_c)\) 随 epoch \(e\) 线性衰减(\(E_c\) 是课程长度),自监督权重 \(\lambda_{LSC}(e)=\lambda_{TC}(e)=(1-\lambda_{flow}(e))/2\) 相应上升,总目标 \(\mathcal{L}=\lambda_{flow}\mathcal{L}_{flow}+\lambda_{LSC}\mathcal{L}_{LSC}+\lambda_{TC}\mathcal{L}_{TC}\)。早期靠真值(多尺度端点 \(\ell_1\) 损失 \(\mathcal{L}_{flow}=\sum_{j=1}^2\gamma_j\|\mathbf{u}^{gt}-\mathbf{u}^j\|_1\)\(\gamma_1{=}0.25,\gamma_2{=}0.75\))立住运动尺度和全局结构,后期逐渐交给 STSC 利用密集时间一致性线索。这样实现"10 Hz 监督训练、理论上无界推理时间分辨率"

损失函数 / 训练策略

总损失为三项加权和(公式 16),权重由课程进度 \(e/E_c\) 控制。监督端点损失偏重细尺度(\(\gamma_2{=}0.75\))。优化器 Adam + One-Cycle,峰值学习率 \(1.3\times10^{-4}\);DSEC-Flow 训 200 epoch(batch 2,100 ms 窗分 \(B{=}15\) bin),MVSEC 训 30 epoch(batch 4,dt=1 用 \(B{=}5\)、dt=4 用 \(B{=}15\));连续运动用二次 Bézier 轨迹(控制点参数化)建模,每样本 4 次迭代更新;单卡 RTX 4090。

实验关键数据

主实验

DSEC-Flow(HTR 标记表示高时间分辨率方法):

方法 EPE↓ 3PE↓ 2PE↓ 1PE↓ AE↓ FWL↑ HTR
BFlow(前best HTR) 0.750 2.44 4.41 11.90 2.68 1.98
ResFlow 0.754 2.50 4.24 11.22 2.73 2.14
IDNet(前best LTR) 0.719 2.04 3.50 10.07 2.72 1.97
EDCFlow 0.720 2.10 3.60 10.00 2.65
Ours 0.663 1.60 2.67 7.94 2.53 2.18
  • EPE 0.663,比前 best LTR(IDNet 0.719)相对降 7.8%,比 HTR 最强 BFlow(0.750)相对降 11.6%。
  • 鲁棒性指标提升更大:3PE 比 IDNet 降 21.6%、比 BFlow 降 34.4%;2PE 比 IDNet 降 23.7%、比 BFlow 降 39.5%。
  • HTR 专用的 FWL 2.18,超过前 best HTR 方法 ResFlow(2.14)。

MVSEC(两种时间间隔):

方法 dt=1 EPE↓ dt=1 %Out↓ dt=4 EPE↓ dt=4 %Out↓
EDCFlow(前best) 0.23 0.00 0.67 0.85
TMA 0.25 0.07 0.70 1.08
Ours 0.22 0.00 0.62 0.78

稀疏事件条件(dt=4)下 EPE/%Out 比 EDCFlow 相对改善 7.5%/8.2%;稠密条件(dt=1)EPE 最低且 %Out 持平最佳。

消融实验

架构 + STSC 逐组件叠加(DSEC-Flow,IDNet backbone 起步):

配置 EPE↓ 3PE↓ 1PE↓ FWL↑
Baseline 0.728 2.11 10.03 1.97
+ Bi²ME 0.703 1.92 9.15 1.97
+ Bi²ME + SAU 0.688 1.73 8.65 1.99
+ Bi²ME + SAU + BRU 0.672 1.62 8.22 2.04
+ 全部(含 STSC) 0.663 1.60 7.94 2.18

SAU 设计对比(Table 4):单尺度 Concat+GRU 0.687 / 双尺度并行 GRU 0.684 / SAU(含跨尺度交互)0.672 EPE——跨尺度交织优于简单拼接或独立分支。

STSC 对 HTR 轨迹质量的影响(Table 5,不同采样率下 FWL↑):

方法 10 Hz 50 Hz 100 Hz 150 Hz
BFlow 2.05 2.02 2.00 1.98
Ours (w/o STSC) 2.04 2.01 1.99 1.99
Ours (STSC) 2.07 2.14 2.17 2.18

关键发现

  • STSC 是 HTR 质量的关键:没有 STSC 时 FWL 随采样率升高而退化(甚至略降),加上 STSC 后 FWL 随分辨率单调上升(2.07→2.18),而 BFlow 反向下降(2.05→1.98)——说明 STSC 真正约束了中间轨迹的物理真实性,采样越密优势越明显。
  • 架构贡献递进:Bi²ME 单独把 EPE 从 0.728 降到 0.703(−3.4%、3PE −9%),SAU 再降到 0.688,BRU 再到 0.672;最后 STSC 把 EPE 收到 0.663 并把 FWL 从 2.04 拉到 2.18,说明架构主要降 EPE、STSC 主要提轨迹质量。
  • BRU 的双向累积在遮挡/边界区贡献最大,定性图(Fig. 5)显示加 BRU 后运动边界更锐利连贯。

亮点与洞察

  • 视角转换是真正的"啊哈"点:把事件从"待对齐的无序散点"重新解读为"结构化时空流形上的采样",由此 CM 的"锐利 IWE"目标被替换成"流形结构一致性",一句话点破了 CM 范式的根本缺陷(对齐≠轨迹正确)。
  • VWE 的设计很巧:传统 IWE 把所有事件压到一帧丢掉时间维,VWE 只对齐 bin 中心、保留 bin 内相对时间,得到 3D 时空体——这是后续两条一致性损失能成立的前提,思路可迁移到任何"需要保留时序微结构的事件聚合"任务。
  • 课程引导把"监督锚定"和"自监督流形正则"无缝缝合:用线性衰减的真值权重避免纯自监督从零训练的坍缩,是稀疏标注场景下很实用的工程范式。
  • 二阶中心差分的类比很有解释力:把双向递归累积解释成比单向(一阶差分)更无偏的二阶近似,给"为什么要双向"提供了理论说法而非纯启发式。

局限与展望

  • VWE / STSC 的计算开销:在 3D 时空体上算邻域聚合、跨 bin 梯度方差,相比单帧 IWE 应该更重,论文未报告训练/推理的显存与速度代价,难判断实时性。
  • 依赖稀疏真值锚定:课程训练前期仍需 GT 立住运动尺度,并非完全无监督;在完全没有任何标注的新传感器/场景上能否启动,存疑。
  • 轨迹用二次 Bézier 建模:对高度非线性或多次变向的复杂运动,二次曲线的表达力可能不足,作者也把"更强运动先验"列为未来方向。
  • 评测集中在 DSEC/MVSEC 两个驾驶向数据集:在更剧烈、更稀疏的非驾驶场景(如快速机械、微观运动)上的泛化未充分验证。

相关工作与启发

  • vs CM 系(MultiCM / TamingCM / Motion-prior CM): 它们最大化 IWE 锐利度做自监督,只关心端点对齐、忽略时间连续性,复杂运动下轨迹扭曲且易投影坍缩;本文用 STSC 在保留时序结构的 VWE 上约束局部结构 + 轨迹一致,提供 CM 缺失的密集运动先验。
  • vs BFlow(显式轨迹参数化): BFlow 用 Bézier 曲线显式建模整条轨迹,但真实数据上只有稀疏端点约束、中间轨迹无先验,FWL 随采样率下降;本文同样用 Bézier 建模运动,但补上 STSC 自监督,FWL 随采样率单调上升,HTR 轨迹更可信。
  • vs RAFT 系监督方法(E-RAFT / TMA / IDNet / EDCFlow): 它们是 LTR(长时分辨率)端点监督的强 baseline,但受限于稀疏真值、不直接建模连续轨迹;本文以 IDNet backbone 为消融起点,叠加 Bi²ME/SAU/BRU 架构与 STSC,在标准 EPE 和 HTR FWL 上同时超过它们。
  • vs 累积/残差隐式监督(EVA-Flow / ResFlow): 它们用稀疏 GT 隐式监督 HTR 流,但优化目标含糊、不保证中间轨迹的物理真实;STSC 用显式的结构 + 轨迹一致性把"物理可信"写进损失。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把事件从"待对齐散点"重解读为"时空流形采样"、用 STSC 替代 CM 的锐利目标,是范式级的视角创新。
  • 实验充分度: ⭐⭐⭐⭐ 两个主流 benchmark + 多尺度 FWL 分析 + 逐组件消融都到位,但缺计算开销报告和更多样场景泛化。
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰、公式完整,VWE/STSC 概念解释到位;部分模块(SAU/BRU 内部)依赖补充材料。
  • 价值: ⭐⭐⭐⭐⭐ 同时刷新标准与 HTR 光流 SOTA,且 STSC 思路对整个事件视觉的连续时间建模有普适启发。