DetectSCI: Toward Object-Guided ROI Reconstruction for High-Resolution Video Snapshot Compressive Imaging¶

会议: CVPR 2026
论文: CVF Open Access
代码: 暂未开源（论文称 Code will be released）
领域: 图像恢复 / 视频快照压缩成像
关键词: 快照压缩成像, ROI重建, 目标检测, Mamba, 频域注意力

一句话总结¶

针对高分辨率视频快照压缩成像（SCI）"全帧重建太耗显存、背景占大头却没信息"的痛点，DetectSCI 提出直接在编码测量上做目标检测、再按检测框只重建感兴趣区域（ROI）的工作流，其检测器用权重共享的 Mamba-Implicit 模块抗时空混叠、用 Frequency Mamba 找回被压制的高频细节，在 SportsMOT 改造的 SCI 数据集上拿到 80.9 AP，超过最好的 CNN 检测器 ≥2.8 AP、最好的 Transformer 检测器 ≥4.1 AP。

研究背景与动机¶

领域现状：视频快照压缩成像（SCI）是高速相机的低成本替代方案——CACTI 系统用一组随机掩膜对连续 \(B\) 帧做光学调制，再由一台低速 2D 相机把它们积分成一张 2D 测量。要看回高速视频，就得跑重建算法把这张测量解码回 \(B\) 帧。

现有痛点：随着帧分辨率升高，重建整段视频在算力和显存上都极其昂贵，作者在 Figure 1 里直接标注全帧重建会 OOM（Out Of Memory）。更尴尬的是，大量算力浪费在恢复信息量极低的背景上：在体育场景里运动员才是主体，却只占很小一块像素，剩下的看台、球场全是无用功。

核心矛盾：重建是"逐像素无差别恢复"，而场景的"信息密度"是高度不均匀的——计算预算被均摊到了不该花钱的地方。一个自然的想法是"只重建重要区域"，但要做到这点，必须先知道哪里重要，也就是要在 SCI 测量上做目标检测。

本文目标：(1) 让检测器能直接吃 SCI 测量、准确定位目标；(2) 基于检测框做用户可选的 ROI 重建，把算力只花在主体上。

切入角度：难点在于"直接在测量上检测"几乎不可行。常规 CNN 假设相邻像素局部平稳，但掩膜调制会把同一空间位置、不同时刻的像素融合进一个测量像素里；目标一旦运动，某帧属于目标的像素在下一帧可能属于背景，这些语义相异的像素被编码曝光强行混在一起，造成严重的时空混叠，目标与背景的对比度被大幅削弱。作者进一步指出这种退化是频率偏置的：静态区的低频分量相互加强，运动目标的高频细节因时间错位而部分相消——编码曝光相当于一个时间低通滤波器，专门压制轮廓、边界这些对定位最关键的高频结构。

核心 idea：与其先重建再检测，不如先在测量上检测、再按需重建 ROI；而要让检测在混叠的测量上站得住，就用 Mamba-Implicit 编码器抗空间退化、用 Frequency Mamba 把被低通掉的高频找回来。

方法详解¶

整体框架¶

DetectSCI 的检测器是一个端到端的 encoder–decoder（DETR 风格）。输入是单张 SCI 测量 \(Y\)，输出是目标框，随后用现成重建器（论文用 EfficientSCI）只对选中的框做 ROI 重建。中间流程是：预处理归一化 → ResNet-50 抽多尺度特征 → 由权重共享 Mamba-Implicit 模块（MIM）+ fusion 块组成的编码器逐级精炼特征 → Frequency Mamba（FM）做频率感知的 query 选择 → DETR 解码器出分类与定位。两个真正的创新点是 MIM（对抗时空混叠造成的空间特征退化）和 FM（对抗频率偏置造成的高频丢失），其余都是标准脚手架。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["SCI 测量 Y"] --> B["预处理 + ResNet50<br/>取最后三层特征"]
    B --> C["Mamba-Implicit 模块<br/>MSM 抗混叠 + INR 补细节<br/>(权重共享 + fusion)"]
    C --> D["Frequency Mamba<br/>DCT 分频 → MFCA 重加权<br/>→ Mix Attention 融合"]
    D --> E["DETR 解码器<br/>分类 + 定位"]
    E -->|按检测框选 ROI| F["ROI 重建<br/>(EfficientSCI)"]

CACTI 的成像模型给整套方法定了基调。原始灰度视频 \(\{X_t\}_{t=1}^B\) 被掩膜 \(\{M_t\}_{t=1}^B\) 调制后积分成测量：

\[Y = \sum_{t=1}^{B} X_t \odot M_t + G\]

其中 \(\odot\) 是逐元素乘、\(G\) 是噪声。向量化后记 \(y=\mathrm{vec}(Y)\)，把每个掩膜写成对角矩阵 \(D_t=\mathrm{Diag}(\mathrm{vec}(M_t))\) 并拼成感知矩阵 \(H=[D_1,\dots,D_B]\)，于是 \(y = Hx + g\)。这个"多帧塞进一张图"的求和正是时空混叠的根源，也是后面两个模块要补救的对象。预处理则做一次掩膜归一化得到增强图 \(\overline{Y} = Y \oslash \sum_{t=1}^{B} M_t\)（\(\oslash\) 为逐元素除），缓解掩膜调制带来的强度不均，再喂给 ResNet-50。

关键设计¶

1. Mamba-Implicit 模块（MIM）：用多尺度 Mamba + 隐式表示对抗时空混叠

MIM 是编码器的核心单元，专门解决"测量像素混叠导致空间特征退化、目标边界模糊"的痛点。它由两块串联组成。前半是 Multi-Scale Spatial Mamba（MSM）：对每层 backbone 特征 \(\hat{S}_i\) 先做一段 PWConv-GeLU-PWConv（PGP），再并联三个不同膨胀率的深度可分离膨胀卷积（\(\mathrm{DWD}_7/\mathrm{DWD}_{13}/\mathrm{DWD}_{19}\)）拼接，得到 \(Z_2 = \mathrm{Concat}[\mathrm{DWD}_7(Z_1),\mathrm{DWD}_{13}(Z_1),\mathrm{DWD}_{19}(Z_1)]\)，再过一段 PGP。动机很具体：单一尺度的特征不足以抹平 SCI 的层内退化，而逐级增大的感受野能让网络在同一特征阶段感知不同大小的目标。之后用 2D Selective Scan（SS2D） 沿四个空间方向做双向状态扫描，以线性复杂度替代 Transformer 的二次注意力做全局上下文传播；最后接一个 depth-wise FFN（双 DW 卷积 + 通道注意力门控）重加权通道，公式为 \(Z_i = S_i + (Z_6 \odot Z_7)\)，\(Z_7=\sigma(\mathrm{PWConv}(Z_6))\)，把残差与门控融合输出。

后半是 隐式神经表示（INR）块：MSM 之后特征仍是离散网格，难以表达被混叠抹掉的亚像素细节。INR 把特征当作"坐标→值"的连续场来重建。它先做潜在投影 \(Z_8 = \mathrm{SiLU}(\mathrm{BN}(\mathrm{PWConv}(Z_i)))\)，对每个特征点的 2D 坐标 \((x,y)\in[-1,1]^2\) 用傅里叶基编码出多频位置线索 \(\Phi(x,y) = [\sin(\omega_1 x),\dots,\cos(\omega_m y)]\)，其中频率 \(\omega_j = T^{-\frac{j-1}{m-1}}\) 由温度 \(T\) 控制（实现取 \(m=64,\,T=10000\)）。把 \(\Phi\) 与展平的 \(Z_8\) 拼接成 \(\hat{E}_i\)，再用一个轻量 MLP 学到连续映射 \(f=\mathrm{MLP}(\hat{E}_i)\) 并 reshape 回 \(E_i\)。连续函数表示突破了离散网格的限制、重新引入亚像素变化，从而填补"压缩测量"与"底层连续场景"之间的特征鸿沟。值得注意的是 MIM 在多层之间权重共享（见消融，这是精度/效率的折中），多个 \(E_i\) 最后经 fusion 块合并为 \(E\)。

2. Frequency Mamba（FM）：用频域分解 + 重加权找回被低通掉的高频细节

FM 针对的痛点是 SCI 的频率偏置——编码曝光像时间低通滤波器，把运动相关的高频（轮廓、边界）选择性压掉。FM 在 query 选择前对编码特征做频域"纠偏"，分三步。第一步 Multi-Frequency Channel Attention（MFCA）：用离散余弦变换把特征投到三组频带 \(\{F_1,F_2,F_3\}=\mathrm{DCT}(E)\)（低/中/高频），再用 Tri-Pooling Unit（TPU） 把三个频带的全局平均、最大、最小池化结果分别相加再汇总：\(F = F_\mathrm{avg}+F_\mathrm{max}+F_\mathrm{min}\)，其中每一项都跨三个频带求和聚合互补信息。聚合后过 PWConv+Sigmoid 生成通道重加权系数去调制原特征 \(O_1 = \sigma(\mathrm{PWConv}(F)) \otimes E\)——这一步自适应谱滤波专门抬高被压制的高频、同时保住低频的结构稳定性。

但 MFCA 只在通道内独立操作、缺少跨通道全局交互，于是第二步再用 SS2D 做通道维全局建模 \(O_2=\mathrm{SS2D}(\mathrm{BN}(O_1))\)，扫描合并块里的可学习转移矩阵沿通道混合激活，既做通道上下文对齐、又充当 MFCA 与下游之间的"全局频率信息载体"。第三步 Mix Attention 用双分支做非线性增强：Spatial Attention（SA）分支用 PGP 生成空间重加权掩膜 \(O_\mathrm{SA}=O_3 \otimes \sigma(\hat{O}_\mathrm{SA})\) 提取位置相关特征；Frequency-Gated Attention（FGA）分支用一条门控路 \(O_\mathrm{G}=\sigma(\mathrm{PWConv}(G_\mathrm{avg}(O_3)))\) 抑制噪声激活、一条 \(O_\mathrm{A}=\mathrm{DW3}(\mathrm{PWConv}(O_3))\) 提取频率增强线索，相乘得 \(O_\mathrm{FGA}=O_\mathrm{G}\otimes O_\mathrm{A}\)。两分支拼接后再过 PGP 降维并与 \(O_2\) 残差相加。作者用散点图（Figure 3）验证：用 FM 训练的特征在 IoU 与分类分都 >0.5 的高质量区域比不用 FM 密集 92.7%，说明 FM 确实选出了更可判别、定位更准的 query。

损失函数 / 训练策略¶

检测头沿用 DETR 风格的集合预测，初始 object query 数固定 300。所有检测器统一在 4 张 RTX 4090 上训练，带 per-epoch 验证和 patience=20 的早停。Transformer 系（含本文）用 AdamW，base lr=1e-4、backbone lr=1e-5、weight decay=5e-5，输入分辨率 (720,1280)，共享 ImageNet 预训练的 ResNet-50；CNN 系（YOLO）输入 (720,720)。INR 取 \(m=64,\,T=10000\)。

实验关键数据¶

数据集是作者基于 SportsMOT（240 段篮球/足球/排球视频，平均 485 帧、720p）用 CACTI 系统按压缩比 8 自建的 SCI 检测集：把同一 person ID 在连续 8 帧的框做时间并集（\(\{x,y\}\) 取最小、\(\{w,h\}\) 取最大）得到包络框、过滤掉非 person 或可见度 <0.25 的实例、转成 COCO 格式按 7:1.5:1.5 划分。

主实验¶

所有 Transformer 检测器统一用 ResNet-50 backbone、同训练设置公平对比（节选最强对手）：

类别	模型	AP	AP50	AP75	GFLOPs	Params(M)
CNN	YOLOv10-X（最佳权衡）	78.1	94.3	87.5	196.4	51.7
CNN	YOLOv8-X	77.9	94.9	87.3	296.4	68.2
Transformer	DINO	72.6	95.9	83.2	313.2	46.7
Transformer	RT-DETR（baseline）	76.8	95.0	86.9	266.3	50.3
Transformer	MS-DETR（最强对手）	75.8	92.6	87.3	321.8	53.7
本文	DetectSCI	80.9	98.5	93.1	268.1	53.1

DetectSCI 以 80.9 AP 领先：超 YOLOv10-X 约 +2.8、超最强 Transformer MS-DETR +5.1、超 baseline RT-DETR +4.1；在更严的定位阈值上优势更明显（AP75 达 93.1，比 YOLOv10-X 高约 6.4%）。效率上 268.1 GFLOPs / 53.1M 参数，比 YOLOv12-X 轻 10%、比 YOLOv8-X 少 22% 参数；相对 RT-DETR 反而少 4.2M 参数、GFLOPs 仅高 0.7%。

消融实验¶

MIM 各组件（baseline 为 RT-DETR 76.8 AP）：

变体	设置	AP	GFLOPs	Params(M)	说明
A1	仅 INR	79.5	192.0	51.2	单用 INR 已 +2.7
A2	仅 MSM	79.6	263.9	60.4	单用 MSM +2.8，复杂度主要来自它
A3	单尺度 MIM	79.9	257.8	52.6	INR+单尺度 MSM 互补
A4	独立多尺度 MIM	82.5	268.1	61.2	精度最高但参数最大
A5	权重共享 MIM（本文）	80.9	268.1	53.1	80.9 vs 82.5 但省 8.1M 参数

FM 各频带（B1 为去掉 FM）：

变体	设置	AP	说明
B1	No FM	78.4	基准
B2	仅低频	78.8	+0.4，低频贡献最小
B3	仅中频	79.6	+1.2
B4	仅高频	80.1	+1.7，单频带最佳
B5	FM（TPU 融合三频）	80.9	比单高频再 +0.8，三频互补

关键发现¶

MSM 与 INR 各自独立有效、且互补：A1/A2 单用任一都 +约3 AP，A3–A5 显示组合后更强；MSM 贡献了大部分算力开销，所以才设计权重共享。
权重共享是精度/效率的工程取舍：独立多尺度（A4）能到 82.5 AP，但权重共享（A5）只掉 1.6 AP 却省下 8.1M 参数（61.2M→53.1M），作者选了后者。
频率证据支持 SCI"高频被低通"的判断：高频单频带（B4 +1.7）远比低频（B2 +0.4）有用，与"编码曝光压制高频"的分析一致；TPU 三频融合再 +0.8 说明频带互补。
检测质量直接转化为定位收益：AP75 的领先（93.1）比 AP50 更突出，说明 FM 选出的高质量 query 主要改善了精定位。

亮点与洞察¶

"先检测后重建"是范式级的重排：把 SCI 从"无差别全帧重建"改成"任务驱动的 ROI 重建"，让算力跟着信息密度走。这个 detection→reconstruction 的解耦思路可迁移到任何"重建昂贵但只关心局部"的成像任务（医学动态成像、遥感等）。
直面 SCI 的两类退化、对症下药：空间混叠用 MIM（多尺度感受野 + INR 连续场补亚像素），频率偏置用 FM（DCT 分频 + 自适应重加权），两个模块各打一个病灶，而不是堆一个大网络硬抗。
INR 用作"特征去网格化"很巧：把离散特征当连续场重采样来补回被混叠抹掉的亚像素细节，是把 NeRF/VideoINR 那套坐标-MLP 思想迁到检测特征增强上的一个可复用 trick。
散点图量化 query 质量：用 IoU×分类分双高占比（+92.7%）直接证明"FM 让被选 query 更可判别"，比单看 AP 更能说明模块到底改了什么。

局限与展望¶

ROI 重建器是外接的、非端到端：检测与重建解耦，重建直接用现成 EfficientSCI，全流程"端到端联合优化检测+重建"留给未来；检测误检/漏检会直接传导到重建结果（作者未量化这部分误差传播）。
数据集和类别单一：仅在自建的 SportsMOT-SCI（压缩比 8、只保留 person 类、720p 体育场景）上验证，真实 CACTI 硬件采集、其他场景/类别/压缩比下的泛化未知。⚠️ 文中 MSM 缩写在不同位置出现 Multi-Scale Spatial Mamba 与 Mamba-Implicit 的混用（如 3.1 节写 "weight-sharing Mamba-Implicit Modules (MSM)"），以原文 Figure 2 与 3.3 节定义为准。
效率收益的"账"算在 ROI 重建侧：主表里检测器本身 GFLOPs 并不比对手低多少，真正省显存/算力的是"只重建 ROI 不重建全帧"，论文用 Figure 1/4 定性展示但缺少 ROI vs 全帧重建的端到端显存/时间定量对比。
改进思路：把检测置信度作为重建预算分配信号（高置信框给更多算力）、或让检测与重建共享 backbone 做联合训练，可能进一步省算力并减少误差传播。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个"直接在 SCI 测量上检测、再做 ROI 重建"的框架，范式重排有想象空间。
实验充分度: ⭐⭐⭐⭐ 与 CNN/Transformer 两大系对比充分、MIM/FM 双消融到位，但缺 ROI vs 全帧重建的端到端显存/时间定量对比、数据集单一。
写作质量: ⭐⭐⭐⭐ 动机与频率分析清晰，但缩写（MSM/MIM）有混用、部分公式排版需对照图理解。
价值: ⭐⭐⭐⭐ 把感知与重建耦合、面向资源受限的智能快照成像，思路对高分辨率 SCI 落地有实际意义。