Time-Specialized Event-Image Alignment for Blur-to-Video Decomposition¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ZhijingS/TSANet （有）
领域: 图像恢复 / 事件相机 / 运动去模糊
关键词: 模糊分解, 事件相机, 时间对齐, 视频重建, 注意力

一句话总结¶

TSANet 用事件相机辅助，把一张运动模糊图像「展开」成高帧率清晰视频——核心是先把事件特征和图像特征都「时间专门化」对齐到任意查询时刻 $t$，再做轻量融合，在 GoPro / HighREV / EBD 三个数据集上一致超过此前 SOTA。

研究背景与动机¶

领域现状：单图去模糊（blur → 一张清晰图）已经研究得很充分，近年的研究方向升级到了更难的「模糊分解」（blur decomposition）：从一张运动模糊图像里恢复出一段时间连续的清晰视频序列 $S_t = \phi(B, E, t)$，其中 $t\in[0,1]$ 标记曝光窗口内的归一化时刻。

现有痛点：模糊分解本质是病态问题——不同的运动轨迹在曝光时间内积分后会得到同一张模糊图（论文用「手-球」玩具例子说明：手上球下、双上、双下、手下球上四种运动平均后模糊图完全一样），这就是运动歧义（motion ambiguity）。纯图像方法（靠时序一致性损失、多帧输入或卷帘快门线索）在大幅复杂运动下会崩，因为关键的时序信息已经被模糊不可逆地抹掉了。

核心矛盾：事件相机以微秒级时间分辨率异步记录像素亮度变化，恰好保存了那段「丢失的运动轨迹」，是消解歧义的天然钥匙。但已有的事件方法没有把这把钥匙用好：基于物理模型的方法（如 EDI）对真实事件噪声敏感；两阶段管线（先去模糊再插帧）会误差累积；学习型方法（如 EVDI、E-CIR）把整段曝光的事件当成一个整体运动描述子，缺少把特征显式对齐到任意查询时刻 $t$ 的机制——EVDI 只在输入预处理时按 $t$ 生成不同事件表示，密集视频生成时既低效、又无法在网络内部动态对齐特征。

核心 idea：作者提出「时间专门化对齐（Time-Specialized Alignment）」原则——在融合两个模态之前，必须先各自把特征对齐到目标时刻 $t$：让事件特征聚焦到 $t$ 附近的瞬时运动，让图像特征 warp 到 $t$ 对应的空间位形。两者在任意 $t$ 显式对齐后再融合，才能重建出高质量、时序连贯的清晰视频。

方法详解¶

整体框架¶

输入是一张模糊图 $B$ 和曝光期间采集的事件 $E$，输出是任意查询时刻 $t$ 的清晰帧 $S_t$（遍历多个 $t$ 即得高帧率视频）。整条管线分四步：双分支编码 → 事件时间专门化（RTEA）→ 图像时间专门化（TDW）→ 门控融合（EGGF）→ 解码。

事件先转成 event voxel（体素）和 event timesurface（时间面）两种表示。事件分支用 Conv + Swin Transformer 块从 voxel 里抽整段曝光的时空运动动态；图像分支用 SFHBlock 抽全局纹理特征。这两路抽出的都是「时间无关的全局特征」，真正的关键在后续的时间专门化阶段：RTEA 把事件运动特征聚合到瞬时 $t$，TDW 用 timesurface 把图像特征几何变换到 $t$ 对应的空间位形，最后 EGGF 轻量融合两者送入解码器重建 $S_t$。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：模糊图 B + 事件 E + 查询时刻 t"] --> B["双分支编码<br/>事件 voxel→Swin / 图像→SFHBlock"]
    B --> C["相对时间编码注意力 RTEA<br/>事件特征聚合到瞬时 t"]
    B --> D["时间面动态形变 TDW<br/>图像特征 warp 到 t 的空间位形"]
    C --> E["事件引导门控融合 EGGF<br/>运动门控调制纹理 + 残差"]
    D --> E
    E --> F["解码器 → 清晰帧 S_t"]

关键设计¶

1. 相对时间编码注意力 RTEA：把事件特征「聚焦」到查询时刻附近

痛点直接对准「事件被当整体描述子、对齐靠预处理低效」这件事。RTEA 不再为每个 $t$ 重新生成事件表示，而是在网络内部对一串事件特征图 $F_E\in\mathbb{R}^{N\times C\times H\times W}$（$N$ 个时间 bin）按它们到查询时刻 $t$ 的相对时间距离动态重加权。它先用标准 query-key 注意力算内容相关性：把 $F_E$ 空间平均池化得 $\hat F_E\in\mathbb{R}^{N\times C}$ 投影成 key $K$，把 $t$ 过 Fourier 位置编码 + MLP 得 query $q$，内容注意力 logits $W = K\cdot q$。

真正的核心是注入相对时间先验偏置 $T_\text{bias}$：先算每个事件帧索引 $n$ 到目标时刻的归一化相对距离

\[d_n = \frac{n - p}{N-1}, \quad p = t\times(N-1)\]

再把 $d_n$ 和 $d_n^2$ 过 MLP 生成偏置，加到内容 logits 上做 softmax，最后对 $F_E$ 加权求和得到时间专门化运动特征 $F_E^t$：

\[T_\text{bias} = \text{MLP}([d_n, d_n^2]),\quad \eta = \text{Softmax}(W + T_\text{bias}),\quad F_E^t = \eta\cdot F_E\]

为什么有效：$T_\text{bias}$ 显式编码「离 $t$ 越近的事件帧越该被关注」这一物理先验，让模型像一个「自适应时间聚焦镜头」只盯住 $t$ 邻域的瞬时运动；没有它时，模型会平均掉整段曝光、恢复出带运动拖影的过平滑图。RTEA 还在全局尺度和窗口尺度各跑一遍，用可学习权重 $\alpha$ 自适应融合全局/局部运动。

2. 时间面动态形变 TDW：把「时间平均」的图像纹理 warp 回瞬时位形

这个设计针对的痛点是：模糊图抽出的纹理特征是整段曝光的时间平均，和任意时刻 $t$ 的真实场景位置存在系统性的空间错位——直接拿去和瞬时运动特征融合就会对不齐。TDW 利用 event timesurface 来做几何对齐：timesurface 在每个像素记录「最近一次事件的时间戳」，这张图隐式刻画了运动轨迹，正好携带预测形变场所需的局部运动先验。

机制上，TDW 把 timesurface $TS$ 过卷积块抽运动模式，并用 Scale & Shift 让它以 $t$ 为条件：$t$ 嵌入后经 MLP 生成逐通道缩放/平移参数 $\gamma,\beta$，调制 timesurface 特征得到时间条件运动表示 $M^t$；再用一个卷积头把 $M^t$ 映射成 2 通道形变场 $K_t\in\mathbb{R}^{2\times H\times W}$（逐像素位移 $(\Delta x, \Delta y)$），对图像特征做可微双线性采样 warp：

\[\gamma,\beta = \text{MLP}(\text{Embed}(t)),\quad M^t = \gamma\cdot\text{ConvBlock}(TS) + \beta$$ $$K_t = \text{Conv}(M^t),\quad F_B^t = \text{Warp}(F_B, K_t)\]

为什么有效：消融里把 warp 引导从 timesurface 换成事件 voxel 特征（EDW 变体）会掉 0.49dB，说明 timesurface 这种「任务对齐」的事件表示比原始 voxel 更能精准指导形变——它直接编码了运动历史轨迹，而 voxel 还混着冗余的时空信息。

3. 事件引导门控融合 EGGF：用运动「点亮」该补细节的纹理区域

由于前两步已经把跨模态时空对齐这个最难的活干完了，融合阶段就不必再上昂贵的 cross-attention transformer，作者用一个轻量门控模块即可。它先用 TDW 产出的稠密运动表示 $M^t$ 对事件特征 $F_E^t$ 做 scale & shift 增强得 $\hat F_E^t$，再过卷积 + ReLU 生成空间门控图 $G$，让 $G$ 逐元素去缩放图像特征 $F_B^t$、并加残差：

\[\gamma_m, \beta_m = \text{Chunk}(\text{ReLU}(\text{Conv}(M^t))),\quad \hat F_E^t = \gamma_m\cdot F_E^t + \beta_m$$ $$G = \text{ReLU}(\text{Conv}(\hat F_E^t)),\quad F_\text{fused} = G\odot F_B^t + F_B^t\]

为什么有效：门控图 $G$ 来自运动特征，于是「哪里运动剧烈就强调哪里的纹理细节」，残差又保证只注入事件引导的细节、不覆盖底层纹理。消融显示 EGGF 比 concat / add / cross-attn 都好（最高 +0.53dB），同时比第二好的 cross-attn 还省 0.54G FLOPs——这正是「前面对齐做扎实了，融合就能简单」的直接体现。

实验关键数据¶

主实验¶

统一在三个数据集（合成事件 GoPro、真实事件 HighREV 与作者新采的 EBD）上重训所有对比方法，模糊图由平均 11 帧连续清晰帧合成，「×5」表示一张模糊图分解成 5 帧。

数据集（×5）	指标	TSANet（本文）	最强事件基线	提升
GoPro	PSNR	28.40	EvEnhancer 27.76	+0.64dB
HighREV	PSNR	36.84	EvEnhancer 35.78	+1.06dB
EBD	PSNR	29.02	REFID 27.84	+1.94dB（论文正文记 +1.4dB）
HighREV	SSIM	0.974	EBFI 0.957	+0.017

相比依赖多张模糊输入的纯图像方法，本文在三个集上分别至少领先 1.14 / 4.6 / 3.4 dB，说明曝光期间的事件确实比多张模糊帧更可靠地刻画了底层运动。参数量 6.3M，比多数事件基线更小。长视频（×9，一张图分解成 9 帧）下同样领先：HighREV 36.81 vs EvEnhancer 35.59，EBD 28.99 vs REFID 27.57。

消融实验（HighREV）¶

配置	RTEA	Warp 引导	融合	PSNR	FLOPs(G)
Case 1（baseline）	-	-	EGGF	33.92	94.12
Case 2	✓	-	EGGF	35.42	101.67
Case 3	✓	EDW（event voxel 引导）	EGGF	36.35	108.76
Case 4	✓	TDW	Concat	36.31	115.96
Case 5	✓	TDW	Add	36.33	106.31
Case 6	✓	TDW	Cross attn.	36.79	108.45
Ours	✓	TDW	EGGF	36.84	107.91

关键发现¶

RTEA 贡献最大：从 Case 1→2 单加 RTEA 就涨 1.5dB / +0.007 SSIM，是「充分利用事件」的基石；去掉它会恢复出带运动拖影的过平滑图。
timesurface 比 event voxel 更适合引导形变：TDW（timesurface 引导）比 EDW（voxel 引导）再涨 0.49dB，印证「用任务对齐的事件表示」很关键。
对齐做扎实后融合可以很轻：EGGF 比 cross-attn 还高 0.05dB 且省 0.54G FLOPs，比 concat/add 高 0.5dB 左右，说明复杂融合模块在对齐充分时是冗余的。
时空切片可视化显示本文运动轨迹平滑连续，而 REFID/EvEnhancer 出现断裂、抖动的轨迹。

亮点与洞察¶

「先对齐、再融合」的解耦哲学很干净：把模糊分解的难点拆成「事件聚焦到 $t$ + 图像 warp 到 $t$」两个可显式建模的子问题，融合反而成了最简单的一步——这种「把难度前移到对齐」的思路可迁移到任何多模态时序对齐任务。
相对时间距离当注意力偏置：用 $[d_n, d_n^2]$ 过 MLP 注入「越近越重要」的物理先验，比为每个 $t$ 重生成表示（EVDI）高效得多，是处理「连续查询时刻」的轻量好 trick。
timesurface 当形变引导：把「每像素最近事件时间戳」这种现成事件表示直接当作运动先验去预测 warp field，比从 voxel 估计形变更准——提示事件表示的选择本身就是一种归纳偏置。
配套真实数据集 EBD：用 DVSync 事件相机硬件级对齐采集 29 段彩色视频 / 25,608 帧 + 真实事件，填补了模态良好对齐的真实事件去模糊数据空白。

局限与展望¶

模糊图全部由「平均 11 帧清晰帧」合成，并非真实相机长曝光模糊；真实运动模糊的非线性、卷帘效应可能与合成有 gap，论文未在真实拍摄的模糊图上评测。
方法对事件质量有隐性依赖：timesurface 在事件稀疏/高噪声区域（弱纹理、低光、极快运动导致事件饱和）能否提供可靠 warp 先验，论文未做压力测试。
RTEA 假设运动可由「相对时间距离」线性加权聚合，对曝光内有方向反转、加减速的复杂运动是否仍准确，缺少针对性分析。
形变场 $K_t$ 是 2D 像素位移，遇到遮挡/视差变化（一个像素在不同 $t$ 该来自不同深度层）时单层 warp 可能力不从心，可考虑多层/遮挡感知 warp。

评分¶

新颖性: ⭐⭐⭐⭐ 「时间专门化对齐」原则 + RTEA/TDW 两个对齐模块组合清晰，相对时间偏置与 timesurface 形变引导都是有针对性的小创新，但属于已有事件去模糊范式内的精致改进。
实验充分度: ⭐⭐⭐⭐ 三数据集 + 合成/真实事件 + ×5/×9 长视频 + 逐模块消融 + 形变场/注意力可视化，相当完整；缺真实长曝光模糊评测。
写作质量: ⭐⭐⭐⭐ 动机用手-球例子讲得直观，公式与模块职责交代清楚，框架图清晰。
价值: ⭐⭐⭐⭐ SOTA + 开源代码 + 新真实数据集 EBD，对事件辅助模糊分解社区有实用价值。