RayNova: Scale-Temporal Autoregressive World Modeling in Ray Space¶

会议: CVPR 2026
arXiv: 2602.20685
作者: Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu 等 (Applied Intuition, UC Berkeley)
代码: 项目页
领域: 3D视觉
关键词: 世界模型, 多视角视频生成, 自回归, Plücker光线, 自动驾驶

一句话总结¶

提出 RayNova，一种基于双因果（尺度+时间）自回归的几何无关多视角世界模型，利用相对 Plücker 光线位置编码实现统一的 4D 时空推理，在 nuScenes 上取得 SOTA 多视角视频生成效果。

背景与动机¶

世界基础模型 (WFM) 旨在模拟真实世界的物理演化。现有方法存在根本限制：

空间-时间解耦设计：空间用多视角邻接关系，时间用视频生成技术，分别处理，限制了对新相机配置和快速运动的适应性
强 3D 先验依赖：依赖点云/BEV 等显式 3D 表示，限制了在开放世界的泛化能力
固定相机配置绑定：多数方法假设固定的传感器布局和相邻关系

核心问题¶

如何在保持物理合理性的同时，以最小归纳偏置构建可泛化到任意相机配置和运动的世界模型？

方法详解¶

3.1 Next-Scale Prediction（基础）¶

基于视觉自回归模型，将每张图像量化为 \(K\) 个多尺度 token map \(X_{1:K}\)，从粗到细自回归生成：

\[p(X_1, \ldots, X_K) = \prod_{k=1}^K p(X_k | X_1, \ldots, X_{k-1})\]

3.2 双因果自回归¶

尺度因果性：同一帧的所有视图联合建模（因为它们描述同一 3D 空间），按尺度递进生成：

\[p(X_1^{1:V}, \ldots, X_K^{1:V}) = \prod_{k=1}^K p(X_k^{1:V} | X_1^{1:V}, \ldots, X_{k-1}^{1:V})\]

时间因果性：当前帧以所有历史帧的所有视图为条件，不假设同相机帧间的强依赖：

\[p(X_{1:K}^{1:V,1:T}) = \prod_{t=1}^T \prod_{k=1}^K p(X_k^{1:V,t} | X_{1:k-1}^{1:V,1:t})\]

3.3 各向同性时空表示¶

核心创新：基于相对 Plücker 光线的旋转位置编码 (RoPE)。

对每个 token，计算其 Plücker 光线 \(\mathbf{p}_k^{v,t} = (\mathbf{m}, \mathbf{d}, t) \in \mathbb{R}^7\)，其中 \(\mathbf{m} = \mathbf{o}^{v,t} \times \mathbf{d}_k^{v,t}\)。

将 RoPE 扩展到 7D 空间：

\[\mathbf{R} = \begin{bmatrix} \mathbf{R_m} & 0 & 0 \\ 0 & \mathbf{R_d} & 0 \\ 0 & 0 & \text{RoPE}_{d/4}(t) \end{bmatrix}\]

注意力分数基于 token 间的相对位置：

\[a_{i,j} = \mathbf{q}_i^T \mathbf{R}_\Delta^{i,j} \mathbf{k}_j, \quad \mathbf{R}_\Delta^{i,j} = \mathbf{R}_i^T \mathbf{R}_j\]

关键优势： - 对所有尺度/视图/帧各向同性，无特定相机配置假设 - 相对编码天然支持外推到训练分布之外

3.4 Transformer 架构¶

每个 block 包含三层注意力： 1. Image-wise self-attention：每张图独立处理，配合 2D Axial RoPE，保证图像真实性 2. Global self-attention：跨视图跨帧的统一注意力 + Plücker 光线 RoPE，保证时空一致性 3. Image-wise cross-attention：融合文本/3D bbox/HD map 等条件

条件处理：bbox 投影 8 个角点到图像空间编码 + T5 文本嵌入；地图采样 3D 点后投影 + PointNet 编码。

3.5 长视频递归训练¶

为解决长视频生成中的分布漂移，提出递归训练策略： - 逐帧前向/反向传播，梯度累积后统一更新 - 缓存 latent 特征（而非 KV）→ 节省 50% GPU 显存，保留 KV 投影层的梯度 - 在 visual token 输入中引入随机位翻转噪声模拟推理误差

实验关键数据¶

方法	分辨率	FID ↓	FVD ↓	吞吐量 ↑ (img/s)
MagicDrive	224×400	16.2	-	1.76
DriveDreamer	256×448	14.9	341	0.37
Panacea	256×512	17.0	139	0.67
RayNova	384×672	10.5	91	1.96

评估维度	方法	指标 (相对 Oracle)
目标条件 (StreamPETR)	Panacea	32.1 NDS (68%)
	RayNova	41.9 NDS (89%)
目标条件 (SparseFusion)	X-Drive	69.6 NDS (95%)
	RayNova	72.0 NDS (99%)
新视角合成 FID (shift 4m)	StreetGaussian	67.44
	RayNova	17.48

亮点¶

几何无关设计：不依赖点云/BEV/深度等 3D 先验，仅通过相对光线位置编码实现几何感知
双因果自回归：统一的尺度+时间因果框架，比解耦的空间-时间注意力更灵活
超强新视角泛化：零样本适配未见相机配置，4m 位移下 FID 仅 17.48 vs StreetGaussian 67.44
高效生成：1.96 img/s 吞吐量远超扩散模型 baseline（0.37-1.76）
异构数据兼容：可混合使用不同传感器配置/分辨率/帧率的训练数据

局限与展望¶

使用基于图像的 VAE，可能影响 FID/FVD 指标
训练数据量（~60小时）相比一些私有数据方法仍有限
递归训练需要更长的训练时间
地图条件的 3D 点投影缺乏高度信息
实验仅在驾驶场景验证，未验证室内等其他场景

与相关工作的对比¶

vs Panacea：Panacea 假设多帧同相机的强依赖关系，受限于特定相机配置；RayNova 完全解耦，FVD 91 vs 139
vs X-Drive：X-Drive 用点云作为 3D 先验，RayNova 无需任何 3D 表示
vs StreetGaussian/OmniRe：显式 3D 表示在大幅相机偏移下急剧退化（FID 67+），RayNova 保持稳健（17.48）
vs BEVWorld：BEV 表示绑定于特定高度平面，RayNova 的光线空间更通用

启发与关联¶

相对 Plücker 光线编码的设计思路可推广到其他需要几何感知的生成任务
双因果自回归为多模态/多分辨率生成提供了统一框架
递归训练解决分布漂移的方案对其他长序列生成任务有借鉴意义
与 VAR (Visual Autoregressive Model) 的结合值得关注

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 双因果自回归 + 相对光线位置编码是全新的设计范式
实验充分度: ⭐⭐⭐⭐ — 多维度评估（质量/条件/新视角/运动），但仅限驾驶场景
写作质量: ⭐⭐⭐⭐⭐ — 数学推导严密，图示优秀
价值: ⭐⭐⭐⭐⭐ — 开创了几何无关世界模型的新方向