EA3D: Event-Augmented 3D Diffusion for Generalizable Novel View Synthesis¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=YwawhlWdtm
代码: 待确认
领域: 3D视觉 / 扩散模型
关键词: 事件相机, 新视角合成, 视频扩散, 可泛化, 代价体

一句话总结¶

EA3D 把事件相机的连续几何线索和稀疏 RGB 帧的外观线索，融合成视角相关的 3D 特征，再用一个 3D 感知的视频扩散模型（改造自 CogVideoX）解码成时序一致的新视角视频，从而在快速相机运动、大基线、跨场景设定下实现无需逐场景优化的可泛化新视角合成。

研究背景与动机¶

领域现状：新视角合成（NVS）目前主流靠 NeRF 和 3DGS，通过对单个场景做密集采样 + 逐场景优化，学出连续的辐射场或高斯表示，渲染质量很高。

现有痛点：这类方法在快速相机运动下会崩。一是快速运动让可用训练视角变少，重建欠约束，容易过拟合训练视角或收敛到平凡解；二是相邻帧间距大，违反了特征匹配赖以工作的平滑运动假设，导致 SfM 估出的相机位姿不可靠，进而拖垮整个优化。引入事件相机能缓解运动鲁棒性（事件流时序密集、低延迟、对快速运动和极端光照鲁棒），但现有「事件 + RGB」方法仍然是优化式的 3D 表示（E-NeRF、Event3DGS、EF-3DGS），换个新场景就要重新优化，没有泛化能力。

核心矛盾：泛化能力和事件几何先验，目前是「鱼与熊掌」。可泛化的 NVS 方法（从大规模多视角数据学先验）能跨场景，但只吃 RGB，在宽基线、快速运动下表现急剧退化；能用事件的方法又被逐场景优化锁死，跨不到新场景。

本文目标：做一个既能利用事件几何先验、又能跨场景泛化、还不用逐场景优化的 NVS 框架，支持沿任意（甚至和事件相机轨迹不对齐的）相机轨迹合成。

切入角度：作者注意到两种模态天然互补——事件流提供时序密集、抗遮挡的几何线索但缺颜色纹理，RGB 帧提供丰富外观但几何稀疏且在快速运动下不完整。如果能把两者在目标相机视锥内统一成一份「3D 感知特征」，就能把几何鲁棒性和外观真实感同时喂给一个生成式先验。

核心 idea：用一个可学习的「事件增强特征渲染器」把事件几何 + RGB 外观投影成目标视角的 3D 特征，再用一个条件视频扩散模型把这些 3D 特征解码成时序一致的新视角——把「逐场景优化的 3D 表示」换成「一次训练、到处泛化的生成式 3D 先验」。

方法详解¶

整体框架¶

EA3D 解决的是「给定稀疏 RGB 帧 + 中间这段连续事件流，沿一条新视角相机轨迹合成逼真且时序一致的新视角视频」。整条 pipeline 分两大件串联：先用 EA-Renderer（事件增强特征渲染器） 把两类输入投影成每个目标视锥的 3D 特征 \(\{F_{3D}\}_{i=1}^N\)，再用 3D 感知视频扩散模型 以这些 3D 特征为条件，迭代去噪解码出新视角序列 \(\{I_i\}_{i=1}^N\)。多视角的一般情形被自然拆解成若干「两视角子问题」：以两帧 \((I_{t_0}, I_{t_1})\) 和它们之间的事件流 \(E(t_0,t_1)\) 为例处理。

EA-Renderer 内部又分三阶段：外观特征提取（用现成 MVS 模型估位姿/深度，把 RGB 投影进各目标视锥得外观特征）、事件特征提取（自适应切片把事件流编码成抗遮挡几何特征）、特征融合（交叉注意力把无位姿的事件特征注入有位姿的外观特征）。融合后的 3D 特征替换掉 CogVideoX 原本的图像条件，作为 3D 条件指导扩散解码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：稀疏 RGB 帧<br/>+ 连续事件流"] --> B["外观特征提取<br/>MVS 估深度 → 投影进目标视锥"]
    A --> C["自适应事件切片<br/>短/长双切片 → 事件体素"]
    C --> D["事件几何特征<br/>抗遮挡结构编码"]
    B --> E["特征融合<br/>交叉注意力注入几何"]
    D --> E
    E --> F["3D 感知视频扩散<br/>CogVideoX 改造 + 重建损失"]
    F --> G["输出：时序一致新视角视频"]

关键设计¶

1. EA-Renderer 的外观特征提取：把 RGB 锚到每个目标视锥

事件流虽然几何鲁棒却完全没有颜色纹理，所以外观信息只能来自 RGB。作者用现成的多视角立体（MVS）模型先估出两帧 RGB 的相机参数和深度，然后把它们投影到新视角轨迹 \(\{T_i\}_{i=1}^N\) 上每个目标视锥，得到一串视图投影 \(\{P_i\}_{i=1}^N\)，再过外观编码器 \(E_{appr}\)：\(\{F_{appr}^i\}_{i=1}^N = E_{appr}(\{P_i\}_{i=1}^N)\)。这一步借鉴了代价体（cost volume）式 NVS 的思路——不是直接生成，而是先把已知观测「搬」到目标相机视锥里建立外观先验。但因为输入帧间基线大、互有遮挡，单靠外观特征拿不到完整几何，这正是下一步要补的窟窿。

2. 自适应事件切片：在非均匀事件流上稳定地抽几何

事件流是异步、非均匀的——同样一段时间，运动剧烈处事件密、静止处事件稀，固定时间切片会让有的体素塞爆、有的空荡荡，几何信号不稳。作者改用按事件数量自适应切片：把 \(E(t_0,t_1)\) 先切成 \(N\) 个时间段，每段构造两个时间重叠的切片——含 \(m\) 个事件的短切片保留短期场景信息，含 \(2m\) 个事件的长切片捕捉更长时序上下文；每个切片的时长动态拉伸直到攒够规定的事件数，从而保证体素密度。\(N\) 个短切片和 \(N\) 个长切片沿通道维拼起来，得到时序增强的事件体素 \(\{E_i\}_{i=1}^N\)，再过事件编码器 \(E_{event}\) 得 \(F_{event} = E_{event}(\{E_i\}_{i=1}^N)\)。消融显示去掉自适应切片会掉点（T&T 上 PSNR 23.50→22.96），说明「按量切片」比「按时切片」更能在快速运动下抽出干净几何。

3. 交叉注意力特征融合：让无位姿的事件几何对齐到有位姿的外观上

事件特征 \(F_{event}\) 编码了结构连续性和抗遮挡几何，但事件流的精确位姿和深度很难拿到，没法像 RGB 那样直接投影进目标视锥；而且它本身又缺外观。作者用一层交叉注意力来「软对齐」：对轨迹上每个有位姿的外观特征 \(F_{appr}^i\) 做 query，把整段事件特征 \(F_{event}\) 作 key/value，算出 \(\{F_{3D}\}_{i=1}^N = \{\mathrm{Attention}(Q(F_{appr}^i), K(F_{event}), V(F_{event}))\}_{i=1}^N\)。这样几何先验不需要显式位姿就能被注意力「挑」到合适的位置，最终的 \(F_{3D}\) 同时携带抗遮挡几何和外观，成为指导扩散的强 3D 先验。这一设计是「无位姿事件 + 有位姿外观」能拼起来的关键，消融里去掉几何特征（即去掉事件编码器和融合模块）在 2 视角设定下掉点最猛（T&T PSNR 23.50→18.87）。

4. 3D 感知视频扩散：把 3D 特征当条件，借 CogVideoX 保时序一致

要让多帧新视角彼此一致而不是各画各的，作者建模条件分布 \(I \sim p(I \mid F_{3D})\)，并用视频扩散模型（而非逐帧图像扩散）来强制 3D 一致性，底座选了 CogVideoX 的图生视频变体——它用带 3D 自注意力的 Diffusion Transformer，天生擅长时空连贯的图生视频。改造有两处巧思：一是把原来的图像条件特征直接替换成 EA-Renderer 渲出的 \(F_{3D}\)，并用新初始化的 patch embedding 把它和高斯噪声拼成 token 喂进 DiT；二是复用 CogVideoX 的时空 VAE 编码器当外观编码器 \(E_{appr}\)，既减小域差、又利用其时间压缩机制让外观特征数恰好降到 \(\frac{N}{4}\)，最终 \(F_{3D}\) 形状为 \(\frac{N}{4}\times\frac{H}{8}\times\frac{W}{8}\times C\)，正好对齐 DiT 输入。复用预训练底座也让训练只跑 12,000 步就能收敛。

损失函数 / 训练策略¶

端到端训练，扩散损失 + 重建损失等权相加。扩散损失沿用 CogVideoX 的噪声调度：\(L_{diffusion} = \mathbb{E}_{I,F_{3D},t,\epsilon}[\|\epsilon - \epsilon_\theta(I,t,F_{3D})\|_2^2]\)。为稳定训练、加速收敛，额外加一个重建损失，约束 EA-Renderer 渲出的 \(F_{3D}\) 逼近 VAE 编码器从真值新视角抽的特征 \(E_{appr}(I)\)：\(L_{recon} = \|F_{3D} - E_{appr}(I)\|_2^2\)。训练时联合优化事件编码器、特征融合模块、patch embedding 和 DiT 块；分辨率固定 \(384\times672\)，序列长 49 帧，事件切片量 \(m\) 在 \([1\times10^5, 3\times10^5]\) 均匀采样以增强对事件流波动的鲁棒性；batch size 8、8 张 80GB GPU、学习率 \(1\times10^{-5}\)。配套还构建了 Event-DL3DV 数据集：真实多视角序列（DL3DV）+ 随机对比度阈值模拟的事件流 + 逐视角深度图，用来支撑大规模训练和泛化。

实验关键数据¶

主实验¶

在 in-the-wild 场景（DL3DV 140 个不重叠测试场景 + Tanks-and-Temples 10 场景）和真实事件数据（DSEC 7 个静态序列）上，对比优化式基线（E-NeRF、Event3DGS）和 RGB-only 可泛化基线（ViewCrafter、NVS-Solver），评测 2/4/6 视角输入。注意：优化式基线沿事件相机轨迹合成、且事件由真值序列直接模拟（与真值对齐），而 EA3D 用的事件流刻意和真值新视角错位，是更难更通用的设定。

数据集	设定	指标	EA3D	最强基线
DL3DV	2 Views	PSNR ↑	22.82	19.10 (ViewCrafter)
T&T	2 Views	PSNR ↑	23.50	22.96 (E-NeRF)
DSEC(真实事件)	2 Views	PSNR ↑	24.89	18.71 (ViewCrafter)
DSEC(真实事件)	6 Views	PSNR ↑	26.87	23.25 (E-NeRF)

在最具挑战的 2 视角宽基线设定下优势最大；4/6 视角下也持平或更优。真实事件数据上全指标全设定领先，说明从「模拟事件训练」到「真实事件推理」迁移得不错。

消融实验¶

在 T&T 和 DSEC 真实事件上、2 视角设定下消融：

配置	T&T PSNR ↑	真实事件 PSNR ↑	说明
Full model	23.50	24.85	完整模型
w/o Geometry Feature	18.87	18.90	去事件编码器+融合，只喂外观，掉最狠
w/o Reconstruction Loss	20.39	19.82	去重建损失，收敛差、掉 3 分
w/o Adaptive Slicing	22.96	23.06	换固定时长切片，几何变脏

关键发现¶

几何特征贡献最大：去掉事件几何（只剩外观）在 2 视角宽基线下 T&T PSNR 从 23.50 暴跌到 18.87，证实快速运动/大基线下外观特征几乎没有可见重叠，必须靠事件补几何。
随视角范围增大，事件几何越发关键：把输入两帧间距拉到 1.5×~3×，全模型性能比「去几何」变体掉得慢得多——事件几何在外观重叠趋零时撑住了结构。
重建损失不只是锦上添花：去掉后掉约 3 分，说明用 VAE 真值特征对齐 \(F_{3D}\) 对稳定训练、加速收敛很重要。

亮点与洞察¶

「特征渲染 + 生成解码」的两段式很解耦：EA-Renderer 负责把多模态观测搬进目标视锥建立 3D 先验，扩散模型负责把先验「补全成照片」，前者管几何对齐、后者管真实感和时序一致，职责清晰、各自可换。
用交叉注意力绕开事件位姿难题：事件流位姿/深度难估是个老大难，作者不去硬估，而是让有位姿的外观当 query 去 attend 无位姿的事件几何，把对齐变成可学习的软匹配，这个 trick 可迁移到其它「一模态有位姿、一模态没有」的融合场景。
复用视频扩散底座的双重收益：把 CogVideoX 的 VAE 同时当外观编码器，既压缩了特征数对齐 DiT、又减小域差让 12k 步就收敛——「条件特征和底座特征同源」是省训练的实用经验。
测试设定故意更难还更强：EA3D 用错位事件流（不对齐真值），却在 2 视角下反超用对齐事件的优化式基线，说明它学到的是真·可泛化先验而非过拟合轨迹。

局限与展望¶

依赖现成 MVS 估外观位姿/深度：外观分支的位姿和深度来自现成 MVS 模型，MVS 在极端快速运动/低纹理下若失准，外观投影会带偏，论文未深入分析这一上游误差传播。
训练事件靠模拟：Event-DL3DV 的事件由 vid2e 配随机对比度阈值模拟，虽在 DSEC 真实事件上验证了迁移，但模拟-真实差距在更复杂光照/传感器下能否持续成立仍待观察。
分辨率与序列长度受限：固定 \(384\times672\)、49 帧，更高分辨率或更长轨迹的扩展性、显存代价（附录另有 runtime/memory 分析）是实际部署要考虑的。
改进方向：可探索把事件位姿估计也纳入端到端学习、或引入显式 3D 一致性约束进一步减少跨帧漂移。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个事件流 + 稀疏 RGB 的可泛化新视角合成框架，「特征渲染 + 视频扩散」组合 + 自适应切片 + 交叉注意力融合都很贴题。
实验充分度: ⭐⭐⭐⭐ in-the-wild + 真实事件双轨评测、2/4/6 视角、关键消融齐全；故意用错位事件的更难设定加分，但仍偏静态场景。
写作质量: ⭐⭐⭐⭐ 方法分件清晰、图表完整、消融对应明确，公式与符号自洽。
价值: ⭐⭐⭐⭐ 把事件 NVS 从「逐场景优化」推进到「可泛化生成先验」，并附 Event-DL3DV 基准，对快速运动/大基线场景有实用价值。