Single Pixel Image Classification using an Ultrafast Digital Light Projector¶

会议: ICLR 2026
arXiv: 2603.12036
代码: 无
领域: 自动驾驶
关键词: 单像素成像, 图像分类, microLED, Hadamard 模式, 极限学习机

一句话总结¶

本文利用 microLED-on-CMOS 超高速数字光投影仪实现单像素成像（SPI），结合低复杂度机器学习模型（ELM 和 DNN）实现亚毫秒级图像编码和 kHz 帧率的图像分类，在 MNIST 数据集上达到 90%+ 准确率，并在二分类场景中实现 >99% 的 AUC。

研究背景与动机¶

领域现状：机器视觉是嵌入在自动驾驶等自主代理中的成熟技术，但传统数字相机的操作带宽正成为瓶颈。事件相机虽然在动态场景中数据量更少，但受限于可见光和近红外波段。
现有痛点：
- 传统 SPI 系统使用 DMD（数字微镜器件）生成图案，受限于机械切换速度（约 \(10^4\) fps），整体成像速率与普通 CMOS 相机相当（\(\lesssim 10^2\) Hz）
- 现有 SPIC 工作多为仿真或低速实验，缺乏真正的超高速光学实验验证
- 图像重建步骤增加了延迟和计算复杂度
核心矛盾：SPI 需要投射大量图案序列来采集信息，但投影速度是带宽瓶颈；压缩感知可减少图案数量但会牺牲分类精度。
本文要解决什么：实验验证基于超快 microLED 投影的单像素图像分类系统，在不重建图像的前提下直接对光检测时间序列进行分类。
切入角度：利用 microLED 阵列比 DMD 快约 100 倍的切换速度，完全绕过图像重建，直接在时空变换后的数据上进行分类。
核心 idea：将图像分类问题从空间域转变为时空域——每张图像被编码为光强度时间序列，直接用低复杂度 ML 模型分类。

方法详解¶

整体框架¶

Hadamard 模式序列 → microLED 投影仪高速投射 → 在 DMD 上显示待分类图像 → 单像素检测器采集光强叠加信号 → 实时示波器记录时间序列 → ML 模型直接分类（无需重建）。

关键设计¶

超快单像素成像系统：
- 核心硬件：128×128 microLED-on-CMOS 阵列，30×30 μm² 像素、50 μm pitch，支持 MHz 级帧刷新
- 投射 12×12 Hadamard 模式集（Had12），全局快门模式下 330,000 fps
- 图像重建公式：\(I_{(x,y),M} = \frac{1}{M}\sum_{m=1}^{M} S_m P_{(x,y),m}\)，其中 \(S_m\) 是每对互补 Hadamard 模式的检测信号差值
- DMD 显示二值化 MNIST 图像（1024×768 分辨率）
- 单像素检测器（Onsemi SiPM）采集光强，1 GHz 带宽示波器记录
- 设计动机：microLED 的 MHz 级切换速度突破了 DMD 的机械限制，使真正的 kHz 级 SPI 成为可能
极限学习机（ELM）分类器：
- 单隐含层神经网络，输入权重随机初始化并固定
- 隐含层输出：\(H = f(XW_{\text{in}} + b)\)，使用 ReLU 激活
- 输出权重通过 Ridge 回归一步求解：\(\beta = (H^\top H + \alpha I)^{-1} H^\top T\)
- 多分类用 \(\hat{y} = \max(Y)\)，二分类用阈值 0.5
- 正则化参数 \(\alpha = 1.0\)
- 设计动机：ELM 训练极快（避免迭代优化），推理仅需 31 μs/图像，适合超高速场景
深度神经网络（DNN）分类器：
- 前馈 DNN：输入层（286 维）→ 三个递减宽度隐含层 + ReLU → softmax 输出
- Adam 优化器，稀疏分类交叉熵损失，300 epochs 训练
- 推理时间 73 μs/图像
- 设计动机：作为更复杂模型与 ELM 对比，探索精度-速度权衡
Hadamard 模式子集优化策略：
- 发现低序号（低空间频率）Hadamard 模式携带更多分类信息
- 使用前 1/4 模式即可保持 ≃78% 分类准确率
- Cat1（前 44 个模式）仅沿单一空间轴变化，捕获粗糙特征
- Cat2（第 45-288 个模式）沿两个空间方向变化，捕获精细特征
- 设计动机：减少投射模式数量可成倍提高有效带宽

损失函数 / 训练策略¶

ELM：Ridge 回归闭式解，\(\alpha = 1.0\)，无迭代训练
DNN：Adam 优化器，稀疏分类交叉熵损失，300 epochs
数据：MNIST 数据集（60K 训练，10K 测试），先二值化再缩放至 DMD 全表面

实验关键数据¶

主实验¶

方法/配置	准确率(%)	推理速度	备注
DNN + 完整 Had12 (实验)	>90	73 μs/图像	1.2 kfps 帧率
ELM + 完整 Had12 (实验)	87.37	31 μs/图像	2× 快于 DNN
DNN + 二值化 MNIST (仿真)	97.50	-	理论上限
ELM + 二值化 MNIST (仿真)	93.32	-	ELM 上限
ELM 二分类 (one-vs-all)	AUC >99%	-	异常检测

消融实验¶

配置	分类准确率(%)	说明
完整 Had12 (DNN)	>90	全部 144 模式
前 1/2 Had12	~86	精度轻微下降
前 1/4 Had12	~78	可接受精度，带宽 ×4
前 1/8 Had12	~68	精度显著下降
后 1/2 Had12	~75	高频模式信息量较少
随机 1/2 Had12	~82	介于前/后之间
σ=0.1 高斯噪声	>95	噪声影响小
σ=0.5 高斯噪声	>95	仍可收敛
σ=1.0 高斯噪声	~85	显著下降+波动

关键发现¶

分类精度下降的主因不是等效信噪比降低，而是压缩感知导致的空间信息损失
低空间频率 Hadamard 模式对分类贡献最大，高频模式信息量较少
ELM 虽然精度低于 DNN，但推理速度是 DNN 的 2 倍，适合极端实时场景
减少模式数量时 DNN 出现更长的梯度消失阶段，这与压缩输入的特性有关
二分类场景下 AUC 接近 1.0，适用于快速变化场景中的异常检测

亮点与洞察¶

首次实验性地在 kHz 帧率下验证了单像素图像分类，突破了传统成像速度限制
完全绕过图像重建的设计极大简化了系统、降低了延迟
ELM 模型的极简设计契合超高速场景的需求（训练快、推理快、开销低）
对 Hadamard 模式子集的频率特性分析提供了实用的压缩策略指导
噪声与压缩感知的对比实验提供了有价值的理论洞察

局限性 / 可改进方向¶

仅在 MNIST 数据集上验证，该数据集相对简单，与真实机器视觉场景差距较大
12×12 的 Hadamard 模式分辨率较低，限制了对复杂图像的分辨能力
目前 FPGA 板卡的存储深度限制了模式集大小
检测端使用的 SiPM 和示波器难以小型化和集成化
未探索更复杂的 ML 模型（如 CNN）和更大规模数据集上的表现
从 MNIST 到自动驾驶实际场景的迁移尚需大量工作

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐