Single Pixel Image Classification using an Ultrafast Digital Light Projector¶

会议: CVPR 2026
arXiv: 2603.12036
代码: 数据集公开
领域: 自动驾驶
关键词: 单像素成像, 图像分类, microLED, 极限学习机, 压缩感知

一句话总结¶

利用 microLED-on-CMOS 数字光投影器实现超快单像素成像（SPI），结合低复杂度机器学习模型（ELM 和 DNN），在完全跳过图像重建的情况下以 1.2 kHz 帧率实现了 MNIST 手写数字 >90% 的分类准确率。

领域现状: 机器视觉是自动驾驶等领域的核心技术，但传统数字相机在高速场景下的带宽成为瓶颈。单像素成像（SPI）通过单点检测器+结构化光照模式可以大幅降低硬件复杂度，但受限于DMD的机械刷新速率（约 10⁴ fps）。

现有痛点: DMD 刷新速度有限导致 SPI 图像生成率仅 ~10² Hz，与普通 CMOS 相机相当；压缩感知（CS）虽能减少所需模式数但会牺牲图像质量；现有 SPI 分类工作大多停留在仿真阶段。

核心矛盾: 高速实时图像分类需要快速编码，但传统光调制器（DMD）的切换速度不足；同时需要在极有限的采样下保持足够的分类精度。

本文目标 在真实光学实验中实现 kHz 级别的单像素图像分类，跳过图像重建直接从时间序列进行分类。

切入角度: 采用 microLED-on-CMOS 数字光投影器替代 DMD，将模式切换速度提升约 100 倍，结合极简 ML 模型实现实时高速分类。

核心 idea: 用 microLED 阵列以 330,000 fps 投射 Hadamard 模式，通过单像素检测器采集时间序列，直接在时域进分类而无需重建图像。

系统由三个环节组成：(1) microLED 投影器以超高帧率投射 12×12 Hadamard 模式序列到目标物体上；(2) 单像素光电检测器（SiPM）采集每个模式与目标叠加后的光强信号，形成时间序列；(3) 低复杂度 ML 模型直接对时间序列进行分类，完全跳过图像重建步骤。

microLED-on-CMOS 投影器: 128×128 像素阵列，像素尺寸 30×30 μm²，支持 MHz 级全局快门模式切换。实验中以 330,000 fps 投射 12×12 Hadamard 模式（Had12，共 144 对正负模式，288 个模式帧），每幅图像编码时间 <1 ms。
Hadamard 结构化照明: 采用 Hadamard 正交基作为照明模式。由于 LED 无法表示负值，每个 Hadamard 模式拆分为正/负两帧，取差值作为测量值。模式按空间频率排序，低频模式（Cat1，前 44 个）捕获粗略结构，高频模式（Cat2，后 244 个）捕获精细细节。
ELM（极限学习机）模型: 单隐层神经网络，输入权重随机固定不训练，仅通过岭回归一步求解输出权重 β = (H⊤H + αI)⁻¹H⊤T。推理时间 31 μs/digit，支持多分类和 one-vs-all 二分类（用于异常检测）。
DNN 深度网络模型: 三隐层前馈网络，使用 ReLU 激活 + Adam 优化器 + softmax 输出，输入维度 286。推理时间 73 μs/digit，精度更高但速度较慢。

方法	模式集	有效带宽	分类精度	推理时间/图
ELM (1000 neurons)	Had12 全集	1.2 kHz	87.37%	31 μs
DNN	Had12 全集	1.2 kHz	>90%	73 μs
DNN	Had12 前 1/2	2.4 kHz	~86%	73 μs
DNN	Had12 前 1/4	4.8 kHz	~78%	73 μs
数值仿真 DNN	二值化 MNIST	-	97.50%	-
数值仿真 ELM	二值化 MNIST	-	93.32%	-

子集策略	1/2 模式	1/4 模式	1/8 模式	1/16 模式
前 n 个（低频优先）	~86%	~78%	~67%	~55%
后 n 个（高频优先）	~78%	~65%	~52%	~42%
随机选取	~82%	~73%	~61%	~50%