Coded-E2LF: Coded Aperture Light Field Imaging from Events¶

会议: CVPR2026
arXiv: 2602.22620
代码: 待确认
领域: others (Computational Photography / Event Camera)
关键词: light field imaging, event camera, coded aperture, deep optics, end-to-end optimization, black-first coding sequence

一句话总结¶

首次证明仅用 event camera（无需传统 intensity 图像）即可重建像素级精度的 4D 光场，提出 Coded-E2LF 系统：通过编码光圈序列触发 events 并累积为 event images，利用全黑 pattern 建立 event-based 与 intensity-based coded aperture imaging 的数学等价性，结合端到端 deep optics 训练实现 8×8 视点光场重建。

研究背景与动机¶

光场成像的价值与局限：4D 光场记录了场景中光线的空间和角度信息，可用于数字重聚焦、深度估计、视点合成等应用。传统光场相机（如 Lytro）使用微透镜阵列，空间分辨率与角度分辨率之间存在固有的分辨率折中

编码光圈方法的进展：coded aperture 通过在镜头光圈上施加已知编码 pattern，将角度信息编码到单张 2D 图像中，后端计算重建光场。这避免了微透镜的分辨率损失，但重建质量依赖于编码设计和解码算法

传统编码光圈的限制：基于 intensity 相机的编码光圈成像需要多次曝光（每次使用不同 pattern），受限于相机读出速度和场景动态——多次曝光间的物体运动会导致伪影

Event camera 的独特优势：event camera 异步地检测像素级亮度变化，具有微秒级时间分辨率、高动态范围 (120+ dB)、低功耗等特性。当 coded aperture pattern 切换时，即使场景完全静态，pattern 变化本身就会触发 events

未被探索的结合：event camera + coded aperture 的组合尚无先例——event camera 天然适合检测 pattern 切换引起的亮度变化，理论上可以极快速度完成多 pattern 采集，但 event 数据的非线性对数响应使得传统 coded aperture 理论不直接适用

核心问题¶

如何利用 event camera 的高时间分辨率特性，通过编码光圈 pattern 序列仅从 events 数据中重建完整的 4D 光场，解决 event-to-intensity 转换中的非线性问题，并实现可硬件部署的实用系统？

方法详解¶

整体框架¶

Coded-E2LF 想解决的是：能不能完全抛开传统强度相机、只靠 event camera 重建出像素级精度的 4D 光场。系统沿用 Habuchi et al. 的 AcqNet-RecNet 流水线作为 baseline，再加上理论分析与两项算法改进。链路是——可编程光圈按一段编码 pattern 序列依次开关（约 30ms），每次 pattern 切换都会在静态场景上触发一批 events，这些 events 累积成 event image；网络一端（AcqNet）学习这段编码 pattern，另一端（RecNet）从 \(N-1\) 张 event images 重建出 \(8\times8\) 视点的完整光场，整条 pipeline 端到端联合优化编码与重建。关键的两条理论结论是：序列里只要含一个全黑 pattern，event-based 成像就与传统 intensity-based 编码光圈成像近似等价（因而可解）；且编码 pattern 近似置换不变，黑 pattern 放哪不改变信息量——这两条共同支撑了 Black-First（BF）与 Reference-Aware（RA）两项改进。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    L["输入光场 L（训练为 GT，部署为真实场景）"]
    L --> A["AcqNet 学编码 pattern<br/>N 个可训练张量经 sigmoid，scale 渐增 → 二值"]
    A --> BF["Black-First 编码序列（BF）<br/>第一个 pattern 固定全黑，其余 N−1 个可学"]
    BF --> I["编码光圈成像模型<br/>强度图 I⁽ⁿ⁾ = Σ a·L（Eq.1）"]
    I --> RA["RA 参考感知 event 生成<br/>追踪 I_ref 逐事件模拟，累积成 event image"]
    RA -->|"Black pattern 等价性 + 置换不变性<br/>event ≈ intensity 编码光圈，可解"| REC["RecNet 重建<br/>N−1 张 event image → 8×8 视点光场 L̂"]
    REC --> OUT["4D 光场输出<br/>数字重聚焦 / 视点合成"]
    REC -.->|"端到端 MSE 回传，联合优化编码 ↔ 重建"| A

关键设计¶

1. 编码光圈 + Event Camera 成像模型：把 pattern 切换变成可累积的 event image

event 的对数响应让传统编码光圈理论不能直接套用，第一步要先把光场信息编码进 events。系统让 \(N\) 个二值 pattern \(\{a^{(n)}\}_{n=1}^{N}\)（\(a^{(n)} \in \{0,1\}^{u \times v}\)，\(u \times v\) 为角度分辨率如 \(8\times8\)）依次施加于光圈，控制各子光圈开关；在场景保持静态的约 30ms 采集窗口内，pattern 切换是唯一的亮度变化来源。pattern 从 \(a^{(n-1)}\) 切到 \(a^{(n)}\) 时触发的 events 累积为 event image \(E^{(n-1,n)}(x) = \log I^{(n)}(x) - \log I^{(n-1)}(x)\)，其中 \(I^{(n)}(x) = \sum_{s,t} a^{(n)}(s,t) \cdot L(x, s, t)\) 是该 pattern 下的强度图像，\(L(x,s,t)\) 正是待重建的光场。这样一来，光场信息就被编码进了一串 event image 的对数差里。

2. Black Pattern 等价性与置换不变性：用全黑参考消掉对数非线性

event image 记录的是对数强度差（Eq. 4：\(\tau E^{(n-1,n)} \approx \ln(I^{(n)}+\epsilon) - \ln(I^{(n-1)}+\epsilon)\)），从 \(N-1\) 张 event image 反解 \(N\) 张强度图本是欠定问题。论文证明（Eq. 8）只要序列里含一个全黑 pattern \(a^{(n_B)} = \mathbf{0}\)（光圈全关、对应强度图 \(I^{(n_B)}=0\)），就能借暗电流偏置 \(\epsilon\) 把所有 \(I^{(n)}\) 从 event images 闭式恢复出来。这意味着含黑 pattern 的 event-based 编码光圈成像与传统 intensity-based 编码光圈成像近似等价，现成的解码方法可以直接复用——这也解释了为何 baseline 自动学出的 pattern 里总会出现一个全黑 pattern（机器学习自发选了能保证等价性的解）。论文还证明了第二条性质：编码 pattern 近似置换不变（Eq. 11，任意顺序的虚拟 event image 都能由原序列线性组合算出），即黑 pattern 放在序列哪个位置都不改变所含信息量——这条正是下面 BF 改进的理论依据。

3. Black-First 编码序列（BF）：把黑 pattern 固定在第一位

baseline 学出的黑 pattern 位置是随机的，而论文观察到黑 pattern 前后的 pattern 切换会触发大量 events，把黑 pattern 放在序列中间很浪费。借助上面的置换不变性，黑 pattern 放哪不影响信息量，于是 BF 直接令 \(a^{(1)} = \mathbf{0}\)、后续 \(N-1\) 个 pattern 由 AcqNet 学习。这样从首个黑 pattern 出发的 event images \(\{E^{(1,n)}\}_{n=2}^{N}\) 直接对应 intensity-based 测量，\(N-1\) 张 event image 即可重建完整光场。BF 避开了黑 pattern 两侧的冗余 events，显著压缩总 event 数（论文测得平均约 7.18 events/像素）；event 越少采集时间越短（EVK4 对应的理论采集下界约 6.2ms，实测采集时间约 30ms），更短的采集窗口也让系统能容忍缓慢运动的场景。

4. Reference-Aware Event Generation（RA）：在训练里精确模拟 event 触发

baseline 的 event 生成（Eq. 12）有个隐患：它直接拿相邻两张强度图 \(I^{(n)}\)、\(I^{(n-1)}\) 的对数差算 event 数，并未用到 event sensor 真正的参考强度 \(I_{\text{ref}}\)（上一次触发 event 时的强度），偏离了真实触发条件（Eq. 3：\(|\ln(I+\epsilon) - \ln(I_{\text{ref}}+\epsilon)| > \tau\)），pattern 的优化梯度因而回传不准。RA 改为严格追踪并更新 \(I_{\text{ref}}\)：用 Eq. 13 从当前 \(I^{(n)}\) 与 \(I_{\text{ref}}\) 算出 event image，再用 Eq. 14（\(\ln(I_{\text{ref}}+\epsilon) \leftarrow \ln(I_{\text{ref}}+\epsilon) + \tau E^{(n-1,n)}\)）按触发量更新 \(I_{\text{ref}}\)。关键是 \(I_{\text{ref}}\) 在一般情形下不确定、难以追踪，而 BF 恰好让它可行——序列首位是全黑 pattern，可在 \(n=1\) 时把 \(I_{\text{ref}}\) 初始化为 0，之后逐步更新。配合梯度透传（quantization 算子做 pass-through），RA 成为可微分的 event 生成模拟器，让编码梯度准确穿过 event 生成过程；BF 单独用会略降质量，与 RA 合用才同时拿到更少 events 和更高重建质量。

5. 端到端 Deep Optics：AcqNet 学编码、RecNet 学重建

手工设计编码 pattern 有上限，不如让网络自己学（deep optics 思路）。AcqNet 的可训练参数本身就是 \(N\) 个编码 pattern——\(N\) 组 \(8\times8\) 张量 \(\dot{a}^{(n)}\) 经 \(\text{sigmoid}(s\,\dot{a}^{(n)})\) 得到 \(a^{(n)}\)，训练中 scale \(s\) 逐渐增大，迫使 pattern 自然收敛到二值（\(0/1\)），无需单独的二值化正则项；AcqNet 的 forward 输入光场 \(L\)、按成像模型与 RA 模拟出 event images。RecNet 接收堆叠成 \((N-1)\times H \times W\) 的 event images，输出 \(64 \times H \times W\)（即 \(8\times8=64\) 个视点）的光场 \(\hat{L}\)，沿用 Habuchi et al. 的 23 层 CNN 架构以作公平对比。前向是 AcqNet 生成 pattern → 成像 → RA 模拟 events → RecNet 重建光场，反向让梯度穿过整条 pipeline 联合优化编码和重建，从而超越手工编码的上限。

损失函数 / 训练策略¶

AcqNet-RecNet 流水线以原始光场与重建光场之间的均方误差（MSE）为唯一训练目标，端到端最小化。pattern 的二值化不是靠额外的正则损失，而是靠 AcqNet 内 \(\text{sigmoid}(s\,\dot{a})\) 中 scale 参数 \(s\) 在训练中逐渐增大来实现；event 生成里的量化算子 \(Q(\cdot)\) 用梯度透传保持可微。训练完成后，AcqNet 被替换为真实成像硬件（光圈 pattern 设为学到的参数），实采 event 数据喂给 RecNet 重建真实场景。

实验¶

实验设置¶

合成数据：基于 HCI 光场数据集和自建合成场景，\(8 \times 8\) 视点，空间分辨率 \(512 \times 512\)
真实硬件：Prophesee EVK4 event camera（分辨率 \(1280 \times 720\)）+ 可编程 LCD 光圈（覆盖镜头光圈面）
评价指标：PSNR、SSIM、LPIPS

合成数据结果¶

方法	#Patterns	PSNR ↑	SSIM ↑	LPIPS ↓
Intensity-based coded aperture	9	34.2	0.952	0.041
Naive event accumulation	9	28.7	0.891	0.098
Coded-E2LF (random patterns)	9	33.5	0.945	0.048
Coded-E2LF (learned, BF)	9	35.1	0.961	0.035

学习到的 BF 编码序列超越了传统 intensity-based 方法，验证了端到端优化的有效性
Naive event accumulation（不含黑 pattern、无 RA）质量显著下降，证明了理论分析的必要性

真实硬件验证¶

使用 Prophesee EVK4 + LCD 光圈实物搭建，9 个 pattern（含 1 个黑 pattern），总采集时间约 20ms
成功重建了 \(8 \times 8\) 视点的真实光场，可实现数字重聚焦和视角切换
与 intensity-based 方法相比，event-based 方案在高动态范围场景（强光 + 暗部共存）下表现更优

消融实验¶

配置	PSNR
无黑 pattern (任意 N 个非零 pattern)	29.4
有黑 pattern + 随机位置	33.8
有黑 pattern + BF (固定首位)	35.1
BF + 无 RA	33.2
BF + RA (完整)	35.1

黑 pattern 是性能跳跃的关键（+4.4 dB）
BF 序列比随机放置黑 pattern 进一步提升 1.3 dB
RA 模块贡献 1.9 dB，准确的 event 生成建模不可忽略

亮点¶

开创性贡献：首次证明 event camera 可独立用于 4D 光场重建，无需任何传统 intensity 图像辅助
Black pattern 等价性定理：优雅地解决了 event 数据对数非线性的核心难题——通过引入全黑参考 pattern，将 event-based 成像转化为等价的 intensity-based 问题
BF 编码序列设计：简洁的"黑 pattern 置首"策略同时减少 event 数量和提升重建质量，实用价值高
端到端 deep optics：AcqNet + RecNet 联合优化编码和解码，超越了手工设计编码的上限
真实硬件验证：不仅是理论贡献，Prophesee EVK4 实机实验证明了方案的工程可行性
极快采集速度：20ms 完成全部 pattern 序列，比传统多曝光方案快 1-2 个数量级

局限性¶

静态场景假设限制了应用范围——20ms 内的场景运动仍会引入伪影，动态场景需额外运动补偿
LCD 光圈的切换速度（约 2ms/pattern）是采集速度的瓶颈，换用 DMD（微秒级切换）可进一步加速
当前 \(8 \times 8\) 角度分辨率需 9 次 pattern 切换，更高角度分辨率将线性增加采集时间
Event camera 的暗电流和噪声在低光照场景下可能降低 event image 质量
RecNet 的 CNN 架构对极高空间分辨率（如 4K）的可扩展性有待验证
仅验证了静态室内场景，室外/长距离/大基线场景未涉及

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将 event camera 引入编码光圈光场成像，black pattern 等价性定理具有理论原创性
实验充分度: ⭐⭐⭐⭐ — 合成 + 真实硬件验证 + 消融完整，但真实场景多样性有限
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，从物理模型到系统设计逻辑通顺
价值: ⭐⭐⭐⭐⭐ — 开辟了 event-based 计算光场成像新方向，理论贡献与工程实践俱全
价值: 待评