Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation¶

元信息¶

会议: ICCV 2025
arXiv: 2509.15224
代码: bartn8/depthanyevent
领域: 3D Vision / 事件相机深度估计
关键词: Event Camera, Monocular Depth Estimation, Cross-Modal Distillation, Vision Foundation Model, Recurrent Architecture

一句话总结¶

提出跨模态蒸馏范式，利用图像域的视觉基础模型（Depth Anything v2）生成伪标签来训练事件相机深度估计网络，并设计了基于 VFM 的循环架构 DepthAnyEvent-R，在无需昂贵深度标注的情况下实现了事件相机单目深度估计的 SOTA 性能。

研究背景与动机¶

事件相机优势：事件相机以微秒级时间分辨率捕获亮度变化，具有高动态范围，特别适合高速运动和光照剧变场景（自动驾驶、无人机、机器人等）
核心瓶颈：事件数据缺乏大规模带密集深度标注的数据集，标注成本极高，严重制约了基于学习的深度估计方法
VFM 的启发：图像域的视觉基础模型（如 Depth Anything v2）通过海量数据预训练实现了强大的深度估计能力，但事件域缺乏等效大规模数据集
关键观察：DAVIS 相机可以同时输出对齐的 RGB 帧和事件流，这为跨模态知识转移提供了天然条件

方法详解¶

整体框架¶

论文提出两大贡献： 1. 跨模态蒸馏范式：用预训练 VFM 作为教师模型处理 RGB 帧生成伪深度标签 \(\mathbf{D}^*\)，监督事件域学生模型（如 E2Depth、EReFormer） 2. VFM 事件域适配：将 DAv2 直接微调到事件域（DepthAnyEvent），或扩展为循环架构（DepthAnyEvent-R）

跨模态蒸馏¶

教师模型：DAv2 ViT-Large，先在 EventScape 上微调 10K 步
学生模型：任意事件深度估计网络
对齐条件：帧与事件在空间和时间上对齐（DAVIS 相机天然满足）
训练损失：

\[\mathcal{L} = \mathcal{L}_{si} + \lambda \mathcal{L}_{reg}\]

其中尺度不变损失：

\[\mathcal{L}_{si}(\hat{\mathbf{D}}, \hat{\mathbf{D}}^*) = \frac{1}{2|\mathbf{M}|} \sum_{(x,y) \in \mathbf{M}} (\hat{\mathbf{D}} - \hat{\mathbf{D}}^*)^2\]

尺度和偏移通过最小二乘法求解：\((s,t) = \arg\min_{s,t} \sum (\mathbf{sD}+t - \mathbf{D}^*)^2\)

梯度正则化项：

\[\mathcal{L}_{reg} = \sum_{k=1}^{K} \frac{1}{|\mathbf{M}_k|} \sum (|\nabla_x \mathbf{R}_k| + |\nabla_y \mathbf{R}_k|)\]

事件表示选择 — Tencode¶

为最小化修改预训练 VFM，选用 Tencode 表示，将事件编码为 RGB 图像：

\[\mathbf{E}(x_k, y_k) = \begin{cases} (1, \frac{t_d - t_k}{\Delta T}, 0) & \text{if } p_k = 1 \\ (0, \frac{t_d - t_k}{\Delta T}, 1) & \text{if } p_k = -1 \end{cases}\]

R/B 通道编码正/负极性，G 通道编码相对时间戳，同时保留空间和时间信息。

DepthAnyEvent（Vanilla VFM 适配）¶

直接用 Tencode 表示微调 DAv2 ViT-Small，无需架构修改。

DepthAnyEvent-R（循环 VFM 架构）¶

在 DAv2 编码器的多尺度特征图之后插入 ConvLSTM 模块，融合历史事件栈的时间信息：

编码器 \(\mathcal{G}\) 将 Tencode 图像分 patch → 多层 Transformer → 多尺度特征图 \(\mathbf{F}_s\)
每个尺度 \(s\)，ConvLSTM 模块 \(\mathcal{R}_s\) 接收 \(\mathbf{F}_s\) 和隐状态 \(\mathbf{H}_s^i\)，输出增强特征 \(\hat{\mathbf{F}}_s\) 和更新后的隐状态 \(\mathbf{H}_s^{i+1}\)
层级融合 → 解码器 \(\mathcal{D}\) → 最终深度图
解决静态场景下事件稀少导致的预测质量下降问题

实验关键数据¶

主实验：零样本泛化（仅在 EventScape 合成数据上训练）¶

模型	数据集	Abs Rel↓	RMSE↓	δ<1.25↑
E2Depth	MVSEC	0.527	7.894	0.363
EReFormer	MVSEC	0.518	8.423	0.361
DepthAnyEvent	MVSEC	0.466	7.824	0.408
DepthAnyEvent-R	MVSEC	0.469	8.064	0.428
E2Depth	DSEC	0.395	13.258	0.409
EReFormer	DSEC	0.297	11.608	0.524
DepthAnyEvent	DSEC	0.297	11.072	0.519
DepthAnyEvent-R	DSEC	0.276	10.942	0.555

消融实验：蒸馏 vs 全监督（MVSEC 微调后）¶

模型	监督方式	Abs Rel↓	RMSE↓	δ<1.25↑
E2Depth	Synth	0.527	7.894	0.363
E2Depth	Distilled	0.400	6.786	0.479
E2Depth	Supervised	0.420	7.268	0.432
DepthAnyEvent	Synth	0.466	7.824	0.408
DepthAnyEvent	Distilled	0.397	6.910	0.461
DepthAnyEvent	Supervised	0.373	6.627	0.471
DepthAnyEvent-R	Distilled	0.399	6.830	0.462
DepthAnyEvent-R	Supervised	0.365	6.465	0.489

关键发现¶

蒸馏 vs 全监督：在 E2Depth 上，蒸馏模型在多个指标上甚至超越全监督模型（RMSE 6.786 vs 7.268），说明 VFM 伪标签的密集性弥补了 LiDAR 标签的稀疏性
DSEC 数据集：DepthAnyEvent-R 蒸馏后 Abs Rel 0.226 vs 全监督 0.191，差距可控
Tencode vs Voxel Grid：消融实验 (C) vs (D) 显示 Tencode 优于 Voxel Grid
预训练重要性：无预训练 (E) 的 Abs Rel 0.446 远差于有预训练 (C) 的 0.365
混合supervisision (F)：同时用真值 + 蒸馏标签训练，部分指标最优

亮点与洞察¶

范式创新：首次系统性地将图像域 VFM 的知识蒸馏到事件域，巧妙利用 DAVIS 相机的天然对齐特性
实用价值：蒸馏方案完全避免了昂贵的深度标注，仅需对齐的 RGB+事件流即可训练
VFM 伪标签优于稀疏激光雷达：VFM 生成的密集伪标签在某些场景下更优，因为 LiDAR 标注本身是半稀疏的
循环架构设计合理：ConvLSTM 模块自然地将时序信息融入 VFM，提升静态场景和连续序列的深度估计质量

局限性¶

依赖 RGB 帧对齐：需要 DAVIS 相机或类似的帧-事件对齐设备，纯事件相机场景无法直接使用蒸馏
VFM 基座固定：仅实验了 DAv2 ViT-Small/Large，未探索更大模型或其他 VFM（如 Metric3D）
Tencode 信息损失：三通道 RGB 编码不可避免丢失精细时间信息
推理速度未充分讨论：DepthAnyEvent-R 的循环展开和 ConvLSTM 开销未详细分析

评分 ⭐⭐⭐⭐¶

方法简洁优雅，实验充分且贡献清晰。跨模态蒸馏的思路具有很好的通用性和实用价值，蒸馏效果接近甚至超越全监督，验证了 VFM 知识转移到事件域的可行性。循环架构设计自然合理。不足在于对更多 VFM 和事件表示的探索不够充分。