CVPR2025 自动驾驶 single pixel imaging image classification microLED Hadamard patterns extreme learning machine compressed sensing

Single Pixel Image Classification using an Ultrafast Digital Light Projector¶

会议: CVPR2025
arXiv: 2603.12036
代码: 数据公开（链接见论文）
领域: 自动驾驶
关键词: single pixel imaging, image classification, microLED, Hadamard patterns, extreme learning machine, compressed sensing

一句话总结¶

利用 microLED-on-CMOS 超快数字光投影器实现基于单像素成像（SPI）的 MNIST 图像分类，在 1.2 kfps 帧率下达到 >90% 分类精度，完全绕过图像重建直接从时序光信号分类。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：1. 机器视觉对高速图像分类的需求日益增长，但传统数码相机的操作带宽成为瓶颈 2. 单像素成像（SPI）仅需单点检测器和结构化照明序列即可成像，在高速和非常规波段（非硅基探测器范围）具有独特优势 3. DMD（数字微镜器件）受机械切换限制，模式切换速率仅约 10⁴ fps；microLED 阵列可实现比 DMD 快约 100 倍的模式生成 4. 现有 SPIC（单像素图像分类）工作多为仿真或低速实验，缺乏真正的超高速自由空间光学实验验证 5. 直接从时空变换的光信号分类（绕过图像重建）可大幅降低检测端硬件复杂度 6. 二值分类场景（one-vs-all）类似异常检测，具有工业应用潜力

方法详解¶

整体框架¶

SPI 分类框架包含三个阶段：(1) microLED 投影器将 Hadamard 模式序列投射到目标物体上；(2) 单像素光探测器采集叠加光强的时间序列；(3) 低复杂度 ML 模型直接从时间序列分类，无需重建图像。

关键设计¶

1. 光学系统 - microLED-on-CMOS 投影器：128×128 像素阵列，30×30 μm² 像素，50 μm pitch，MHz 级全局快门帧切换 - 12×12 Hadamard 模式集（Had12），共 144 个模式（288 个二值帧，含正/负互补对） - 投影帧率 330,000 fps → 单图像编码 <1ms → 有效分类帧率 1.2 kfps - DMD 显示二值化 MNIST 数字，SiPM 单像素探测器采集

2. Extreme Learning Machine (ELM) - 单隐层神经网络，输入权重随机初始化且固定 - 输出权重通过 ridge regression 一步求解：\(\beta = (H^\top H + \alpha I)^{-1} H^\top T\) - 隐层使用 ReLU 激活，正则化参数 \(\alpha = 1.0\) - 推理时间 31 μs/digit（比 DNN 快 2 倍）

3. Deep Neural Network (DNN) - 前馈全连接网络：输入层(286) → 三个递减隐层 → softmax 输出 - Adam 优化器 + sparse categorical cross-entropy 损失 - 使用 TensorFlow/Keras 实现，300 epochs 训练 - 推理时间 73 μs/digit

4. Hadamard 模式子集分析 - 将 Had12 按空间频率分为 Cat1（低频，仅单轴变化，前 44 个）和 Cat2（高频，双轴变化） - 使用前 1/4 低频模式仍可保持 ~78% 分类精度，有效提升带宽 - 低序号模式（低空间频率）包含更多分类有用信息

损失函数¶

ELM：ridge regression（L2 正则化最小二乘）
DNN：sparse categorical cross-entropy + Adam 优化

实验关键数据¶

主实验结果¶

模型	精度	帧率	推理时间/digit
ELM (1000 neurons)	87.37%	1.2 kfps	31 μs
DNN (full Had12)	>90%	1.2 kfps	73 μs
数值仿真 DNN (binarized)	97.50%	-	-
数值仿真 ELM (binarized)	93.32%	-	-

Hadamard 子集压缩分析¶

Had12 比例	策略	DNN 精度	等效带宽
1 (全部)	-	>90%	1.2 kHz
1/2 first	前半	~87%	2.4 kHz
1/4 first	前 1/4	~78%	4.8 kHz
1/2 last	后半	~75%	2.4 kHz

二值分类（One-vs-All）¶

ELM 二值分类精度 >99%，所有类别 AUC 接近 1.0
类似异常检测场景的实用基础

噪声鲁棒性¶

高斯噪声 σ=0.1 和 0.5 仍可达 95% 以上
σ=1.0 时精度显著下降且波动大
性能下降主因是空间信息缺失而非等效信噪比降低

亮点与洞察¶

前所未有的速度：首次在自由空间光学实验中实现 1.2 kfps 的 SPI 分类，比 DMD 系统快两个数量级
重建分离：完全绕过图像重建，从光电时间序列直接分类，大幅降低计算和硬件开销
频率选择策略：揭示 Hadamard 模式的有序层级结构，低频模式对分类贡献最大，可指导压缩感知策略
ELM 极简高效：单隐层+ridge regression 的 ELM 推理仅 31 μs，适合资源受限的实时系统
噪声 vs 信息缺失：实验证明压缩感知下的精度损失源于结构化信息丢失而非噪声

局限与展望¶

仅在 MNIST 二值化数字上验证，远未达到自然图像分类复杂度
12×12 Hadamard 分辨率极低，受 FPGA 板内存深度限制
DMD 作为物体显示器（非真实场景），与实际机器视觉部署存在差距
未讨论多目标、运动目标等实际场景的适用性
分类任务简单（10 类），复杂任务下 ELM 可能力不从心

评分¶

新颖性: ⭐⭐⭐⭐ (首次超高速 SPI 分类实验)
实验充分度: ⭐⭐⭐ (仅 MNIST，无复杂场景)
写作质量: ⭐⭐⭐⭐ (实验描述详尽，分析深入)
价值: ⭐⭐⭐ (方向新颖但应用场景有限)