Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://tmcDeblur.github.io/ （项目页）
领域: 图像恢复 / 运动去模糊
关键词: 运动去模糊, 互补视觉传感器, 时空差分, 递归精修, 跨模态注意力融合

一句话总结¶

针对 RGB 单帧去模糊本质病态、事件相机又会饱和且边缘/运动纠缠的问题，本文用天眸（Tianmouc）互补视觉传感器在单次 RGB 曝光内同步采到的高帧率空间差分（SD，编码结构边缘）与时间差分（TD，编码运动），设计了递归多分支网络 STGDNet 把 SD/TD 逐时序注入 RGB 特征空间做去模糊，并配套一套 DMD 数据制造管线生成真实对齐训练对，在合成 CVS 数据集和 100+ 真实极端运动场景上都取得 SOTA。

研究背景与动机¶

领域现状：运动模糊源于曝光期间场景快速变化，把曝光内丰富的运动轨迹「积分」压扁进一张 RGB 帧。传统去模糊从核估计走到深度编码-解码网络、多尺度递归、注意力机制，但都只能从单张/多张模糊 RGB 里隐式地反推运动。

现有痛点：纯 RGB 去模糊在极端运动下高度病态——大幅非线性运动把结构和颜色在曝光内混在一起，而 RGB 模态本身缺乏足够的结构线索和运动线索来刻画曝光内动态。为了引入额外线索，近期工作转向高时间分辨率的类脑视觉传感器（事件相机、脉冲相机），但事件相机有三重硬伤：(1) 信号质量上有不应期假阴性、触发阈值不恒定、快速运动下事件率饱和；(2) 模态上事件把边缘特征和运动线索两类信息纠缠在一起，需要后续算法专门解耦；(3) 硬件上事件相机与 RGB 的时空对齐通常要分光镜等复杂光路标定。

核心矛盾：要补 RGB 缺失的运动/结构线索，就得引入高时间分辨率模态；但事件模态本身既会饱和、又把边缘和运动搅在一起、还难与 RGB 物理对齐——补线索的代价是引入新的噪声和纠缠。

本文目标：找一种在传感层就把边缘与运动解耦、且天然与 RGB 时空对齐、不饱和的高时间分辨率模态来引导 RGB 去模糊，并解决随之而来的 RGB 曝光时长不定、差分信号稀疏无色、多模态域差等工程难题。

切入角度：作者改用互补视觉传感器 CVS（天眸 Tianmouc）——它有两条协同视觉通路：认知通路输出 30 FPS RGB 帧，行动通路以 757–10,000 FPS 输出空间差分 SD（编码结构）和时间差分 TD（编码帧间运动）。由于固定帧率 + 固定多比特精度，CVS 读出带宽有界、不饱和；SD/TD 用极短曝光采集本身无运动模糊；二者分别编码空间结构和曝光内时间动态，在传感层就把边缘与运动解耦，并与 RGB 做到硬件级时空对齐。

核心 idea：用 CVS 同步采到的 SD（中点结构帧）+ TD（运动序列）作为显式时空先验，通过一个递归网络把它们逐时序注入 RGB 特征空间、逐步残差精修，从而在极端运动下恢复清晰、色彩一致的图像。

方法详解¶

整体框架¶

STGDNet 是一个编码-解码框架，输入是一张模糊 RGB 帧 \(B\)、一帧中点空间差分 \(SD_{\lfloor (N-1)/2 \rfloor}\)、以及曝光内全部 \(N{-}1\) 帧时间差分 \(\{TD_i\}\)，输出一张清晰去模糊图 \(D\)。这里 \(N\) 由 RGB 曝光时长 \(t_{RGB}\) 与差分采样间隔 \(\tau_{diff}\) 决定：\(N = \lceil t_{RGB}/\tau_{diff} \rceil\)（实验中 \(\tau_{diff}=1320\,\mu s\)，对应 757 FPS、±7 bit），所以曝光越长、TD 帧越多，网络必须自适应可变长度序列。SD 只取最靠近曝光中点的那一帧，是为了让恢复图与一张物理采到的结构快照做显式对齐（论文也指出可训练对齐到任意 SD 索引）。

整体数据流是：SD/TD 各自经独立编码器抽特征 → 进入时序递归精修模块 TRRM，TRRM 在每个递归步 \(i\) 取一帧 \(TD_i\)、配合 SD 特征，通过跨模态互补融合 CCF 注入注意力，产出中间残差图，再由监督注意力模块 SAM 用模糊 RGB 做空间门控后反馈给下一步 → 递归走完全部 TD 后，最后的残差图经一次卷积，与原始模糊帧相加得到清晰图 \(D = B + \mathrm{Conv}_{out}(R_{N-1})\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["模糊RGB B + 中点SD<br/>+ TD序列 {TDᵢ}"] --> B["SD/TD 双编码器<br/>抽结构边缘 / 运动特征"]
    B --> C["TRRM 时序递归精修<br/>逐帧 TDᵢ 进编码-解码"]
    C --> D["CCF 跨模态级联融合<br/>先注入TD运动 再注入SD结构"]
    D --> E["SAM 监督注意力门控<br/>用B生成空间注意力 修正残差"]
    E -->|反馈下一步 i+1| C
    E -->|走完全部 N-1 帧 TD| F["残差相加<br/>D = B + Conv(R)"]
    F --> G["清晰去模糊图 D"]

关键设计¶

1. CCF 跨模态级联互补融合：把无色的运动/结构差分注入有色的 RGB 特征

SD/TD 只编码亮度差分、没有颜色，且与 RGB 存在域差，直接 concat 难以让网络分清「哪部分该补运动、哪部分该补结构」。CCF 嵌在 TRRM 每个编码阶段，用两级级联交叉注意力显式分工：第一级以当前编码特征为 Query、以 TD 特征为 Key/Value 做注意力，得到「运动增强」的中间表示 \(\tilde F^{j,i} = \mathrm{softmax}\!\big((Q^{j,i}_{enc})(K^{j,i}_{TD})^\top/\sqrt{d_k}\big)V^{j,i}_{TD} + F^{j,i}_{enc}\)；第二级再以 \(\tilde F^{j,i}\) 为 Query、以 SD 特征为 Key/Value，得到同时含运动和结构的 \(F^{j,i}_{CCF} = \mathrm{softmax}\!\big((\tilde Q^{j,i})(K^{j}_{SD})^\top/\sqrt{d_k}\big)V^{j}_{SD} + \tilde F^{j,i}\)。所有 \(Q/K/V\) 都是 \(1{\times}1\) 卷积投影。先 TD（运动）后 SD（结构）的顺序，正好对应「先把运动轨迹补回来、再用结构边缘把纹理钉清晰」的去模糊逻辑；多尺度都嵌 CCF，实现分层时空特征聚合。消融里去掉 CCF（换成直接 concat + 两层卷积）掉 0.44 dB PSNR。

2. TRRM 时序递归精修：用可变长度递归吃下不定曝光时长的 TD 序列

曝光越长模糊越重、TD 帧数 \(N\) 越多，固定结构的网络无法适配。TRRM 把去模糊拆成沿 TD 时序的递归逐步精修：每个递归步 \(i\) 取一帧 \(TD_i\) 与 SD 特征，经一组层次化编码-解码块（编码阶段做 CCF 时空融合、解码阶段带 skip 连接恢复纹理）输出中间残差图 \(R_i\)，再喂回去做下一步 \(R_{i+1} = \mathrm{TRRM}(R'_i, B_{enc}, F_{TD_i}, F_{SD})\)，其中 \(B_{enc}\) 是模糊帧 \(B\) 过一次 \(3{\times}3\) 卷积的浅特征。这种递归天然适配任意 \(N\)，且让运动信息逐帧累积、逐步把模糊推干净，而不是一次前向硬猜整段运动。消融里把 TRRM 换成单次前向掉 0.67 dB PSNR、运动边界明显变糊。

3. SAM 监督注意力门控：用模糊帧定位「哪里还糊」来约束残差反馈

递归反馈若不加约束，误差会在迭代间累积。SAM 在每步把中间残差 \(R_i\) 投回 RGB 域、与模糊帧 \(B\) 对齐后生成空间注意力图 \(A = \sigma(C_3(C_2(R_i)+B))\)，再用它门控残差 \(R'_i = R_i + C_1(R_i)\odot A\)（\(C_1\!-\!C_3\) 为卷积层，\(\sigma\) 为 sigmoid）。这个门把注意力强化在与模糊区域相关的特征上，让每一步递归的修正都聚焦在「真正还糊的地方」，而非全图无差别叠加，从而稳住递归精修不发散。

4. DMD 数据制造管线：把现成高帧率 RGB 视频转成像素级对齐的真实 CVS 训练对

只在合成数据上训练的去模糊网络往往难泛化到真实场景。作者借鉴视觉芯片表征方法，用数字微镜器件 DMD 配光路把 SportsSloMo 的清晰帧逐帧投射到 CVS 传感器上（每 \(\tau_{diff}=1320\,\mu s\) 投一帧），让 CVS 的时空差分通路真实地产出 SD 和 TD；同时把 RGB 曝光时长配成 6600/9240/11880/14520 µs 四档（对应 \(N=5,7,9,11\) 帧叠加），得到不同模糊程度的真实模糊 RGB；ground-truth 则是整段曝光只投一张固定清晰图、让 CVS 采到真实清晰响应。硬件级触发保证 DMD 与传感器时间同步、固定光学件保证像素级空间对齐，因此训练对天然带噪声/非线性等非理想因素。最终得到 SportsSloMo-CVS：98,569 训练对、1,928 验证、1,820 测试。正是这套管线让模型无需微调就能泛化到 100+ 真实场景。

损失函数 / 训练策略¶

直接优化基于 PSNR 的损失 \(L_{PSNR} = -\lambda_{psnr}\cdot 10\log_{10}\big(1/(\mathrm{MSE}+\epsilon)\big)\)，\(\lambda_{psnr}=0.5\)。全部参数从零训练，AdamW（lr \(2\times10^{-4}\)、weight decay \(1\times10^{-4}\)、\(\beta=[0.9,0.99]\)），余弦退火到 \(1\times10^{-7}\)，4×RTX 4090 训练 10 epoch。

实验关键数据¶

主实验¶

在 SportsSloMo-CVS 上跨四档曝光（\(N=5,7,9,11\)，模糊递增）对比 RGB 方法（Restormer / Turtle，* 表示把 SD/TD concat 进 RGB 输入）、CVS 扩散方法 CBRDM、事件方法（EFNet / STCNet / ELEDNet，用 TD/SD 替代事件输入）。所有方法在同数据集同样训 10 epoch。本文在四档曝光下 PSNR/SSIM 全部最高，且参数仅 13.9 M：

方法	N=5 PSNR	N=11 PSNR	N=11 SSIM	Params(M)↓
Restormer（纯RGB）	34.99	31.35	0.9186	26.1
Restormer*（+SD/TD）	39.51	38.32	0.9732	26.1
Turtle*	39.37	37.73	0.9713	59.1
STCNet（事件）	40.07	37.79	0.9723	16.4
ELEDNet（事件）	39.51	38.36	0.9743	12.8
EFNet（事件）	41.29	39.37	0.9847	8.5
CBRDM（CVS扩散）	31.48	30.70	0.9307	166.2
STGDNet（本文）	41.88	40.12	0.9874	13.9

可见：纯 RGB 方法掉点最严重；把 SD/TD 喂进 RGB 方法（*）能大幅回血（Restormer 在 N=11 从 31.35→38.32），印证 CVS 差分信号的价值；扩散方法 CBRDM 参数 166 M 却最差，还有结构/颜色失真。本文以最接近最小的体量拿下最高指标。

消融实验¶

在 N=11 测试集上拆解模态与组件：

SD	TD	CCF	TRRM	PSNR↑	SSIM↑	说明
×	×	×	×	31.06	0.9429	仅 RGB
✓	×	✓	×	37.70	0.9811	+SD：+6.64 dB
×	✓	✓	×	39.01	0.9842	+TD：+7.95 dB
✓	✓	×	×	39.01	0.9841	去 CCF（直接 concat）
✓	✓	✓	×	39.45	0.9855	去 TRRM（单次前向）
✓	✓	✓	✓	40.12	0.9874	完整模型

关键发现¶

模态贡献：相比纯 RGB，单加 SD 涨 6.64 dB、单加 TD 涨 7.95 dB，两者合并涨 8.39 dB（SSIM +4.52%）——TD（运动）单独比 SD（结构）更关键，二者强互补。
组件贡献：去掉 TRRM（换单次前向）掉 0.67 dB、运动边界变糊；去掉 CCF（换 concat+两层卷积）掉 0.44 dB——递归精修比融合方式影响更大。
真实泛化：训练只用四档离散曝光，但在真实数据上能泛化到连续曝光时长；与 RGB-事件混合相机 DAVIS 对比，事件方法在快速运动下因事件率饱和丢信息、出现伪影/串色，本文色彩保真和结构细节更好。
性能边界：用可控转盘 benchmark（转速 × 曝光时长二维平面）刻画出一条「清晰重建区 vs 串色崩溃区」的分界，为 CVS 去模糊的能力上限给出可量化标尺。

亮点与洞察¶

把「解耦」从算法搬到传感层：事件方法要花专门模块解耦边缘和运动，CVS 直接用 SD/TD 两条通路在硬件上就分好了，还顺带解决了与 RGB 的时空对齐——这是「换传感器消掉一类算法难题」的典型范例。
CCF 的先 TD 后 SD 顺序很有讲究：把级联注意力的两级分别绑到「先补运动、再钉结构」，让融合顺序对应去模糊的物理直觉，而非无序堆注意力。
递归适配可变曝光：用沿 TD 时序的递归天然吃下不定长度序列，把「曝光时长不定」这个工程麻烦转成了递归步数，思路可迁移到任何「输入帧数随采集条件变化」的多帧任务。
DMD 数据制造管线可复用：用投影 + 硬件触发把现成 RGB 视频转成任意新型传感器的真实对齐数据，对所有「新传感器缺数据集」的研究都有借鉴价值。

局限与展望¶

强依赖 CVS（天眸）这一特定硬件，方法本身不通用到普通相机；传感器普及度决定落地面。
训练用 DMD 投影合成 SportsSloMo-CVS，虽含非理想因素，但仍是投影域数据，与真实自然光照采集仍可能有域差（⚠️ 论文以无需微调的真实泛化结果间接论证，未给真实采集的定量 PSNR）。
性能边界分析显示存在「转速×曝光」的崩溃区，即极端快速运动下仍会串色失败，能力有上限。
SD 只用中点单帧做结构对齐，可能浪费了 SD 序列里的其余结构信息；论文提到可对齐任意索引但未深入挖掘多 SD 帧联合的潜力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统利用 CVS 的 SD/TD 双差分做 RGB 去模糊，把边缘/运动解耦从算法挪到传感层
实验充分度: ⭐⭐⭐⭐ 合成跨四档曝光 + 100+ 真实场景 + 转盘性能边界，但真实采集缺定量 GT 对比
写作质量: ⭐⭐⭐⭐ 动机推导（事件三重硬伤 → CVS）清晰，方法各模块交代到位
价值: ⭐⭐⭐⭐ 配套真实对齐数据集与 benchmark，为新型传感器去模糊任务铺了基础设施