Scaling View Synthesis Transformers (SVSM)¶

会议: CVPR 2026
arXiv: 2602.21341
代码: https://www.evn.kim/research/svsm
领域: 3D视觉 / 新视角合成 / 缩放定律
关键词: 新视角合成, 缩放定律, Transformer, encoder-decoder, 计算效率, PRoPE

一句话总结¶

首次为无几何先验的 NVS Transformer 建立缩放定律：提出有效批量大小假设（B_eff = B·V_T）揭示 encoder-decoder 被低估的根因，设计单向 encoder-decoder 架构 SVSM，在 RealEstate10K 上以不到一半训练 FLOPs 达到新 SOTA（30.01 PSNR），Pareto 前沿比 LVSM decoder-only 左移 3×。

研究背景与动机¶

NVS 缺少缩放分析：NLP（Chinchilla、Kaplan）和 2D 视觉（DiT）已有系统缩放定律，但 3D 视觉/NVS 领域完全空白——模型设计、训练配置缺乏计算最优的原则性指导

Decoder-only 架构冗余严重：LVSM decoder-only 渲染每张目标视图都要重新走完全部上下文 token，FLOPs 的 MLP 部分 ∝ V_T×(V_C+1)，注意力部分 ∝ V_T×(V_C+1)²，随目标视图数线性增长

Encoder-decoder 被不公平否定：LVSM 原文中 encoder-decoder 变体显著弱于 decoder-only，但本文发现根因是：(a) 使用了固定大小场景潜表示引入瓶颈，(b) 在不等计算预算下对比，并非架构本身劣势

目标视图与批量大小的交互效应未知：NVS 训练标准做法是每个场景重建多个目标视图，但增加 V_T vs 增加 B 对训练动态的影响从未被形式化分析

多视图（V_C>2）缩放是否保持：将 encoder-decoder 扩展到多视图时，场景表示瓶颈是否会导致缩放退化是开放问题

方法详解¶

整体框架¶

这篇论文想回答的不是「怎么把 NVS 渲染做得更准」，而是「在固定计算预算下，NVS Transformer 该怎么设计和训练才最划算」——这是 3D 视觉里此前空白的缩放定律问题。它的载体是一个单向 encoder-decoder 架构 SVSM：上下文图像 \(C=\{(I_i, g_i, K_i)\}\) 先过 Transformer Encoder 做双向自注意力，得到保留全部 patch token 的场景表示 \(z=E[C]\)（不压成固定瓶颈），再由 Cross-Attention Decoder 单向地从 \(z\) 中并行渲染 \(V_T\) 个目标视图 \(\tilde{I}=D[z, g_T, K_T]\)。一句话概括就是「编码一次、解码多次，目标视图之间互不交互但能并行」，而论文真正的贡献是用这套架构把 encoder-decoder 被低估的原因讲清楚，并给出计算最优的训练配方。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["上下文图像 C<br/>每张含图像 + 相机位姿 + 内参"] --> B["Transformer Encoder<br/>对所有上下文图像做双向自注意力"]
    B --> C["无瓶颈场景表示 z<br/>保留全部 patch token，不压成固定瓶颈"]
    C --> D["Cross-Attention Decoder<br/>各目标视图独立查询 z、共享 z 可并行解码"]
    D --> E["渲染 V_T 个目标视图"]
    P["PRoPE 投影旋转位置编码<br/>每层注意力前把 Q/K/V 变换到公共参考系"] -.->|注入每一层| B
    P -.->|注入每一层| D

关键设计¶

1. SVSM 架构：用无瓶颈的场景表示摊销多目标视图渲染

LVSM 的 decoder-only 每渲染一张目标视图都要重走全部上下文 token，FLOPs 随目标视图数线性涨；而 LVSM 此前的 enc-dec 变体之所以表现差，根因是把场景压成了固定数量的 learnable token，引入信息瓶颈。SVSM 的 Encoder 是标准 ViT，对所有上下文图像做双向自注意力后输出全部 patch token 当场景表示，Decoder 再用 cross-attention 从 \(z\) 里取信息、各目标视图独立解码但共享 \(z\) 可并行。计算上 \(\chi_\text{MLP}(\text{SVSM})\propto V_T+V_C\)、\(\chi_\text{Attn}(\text{SVSM})\propto V_C\times(V_T+V_C)\)，当 \(V_T\gg V_C\) 时降到 \(O(V_T)\)，远优于 LVSM 的 \(O(V_T\cdot V_C+V_T)\)。代价是 encoder 没法主动丢弃与目标无关的信息，同参数同步数时 SVSM 弱于 LVSM——但渲染省下的算力可以拿去加大模型和训练步数，于是在等计算预算下反而显著更优。

2. 有效批量大小假设：B 和 V_T 怎么拆不重要，乘积才重要

NVS 训练惯例是每个场景重建多个目标视图，但「增大 \(V_T\)」和「增大 \(B\)」对训练动态到底等不等价，此前无人形式化。本文提出有效批量大小 \(B_\text{eff}\equiv B\cdot V_T\)（\(B\) 为场景数、\(V_T\) 为每场景目标视图数），并在 DL3DV（\(V_C=8\)）和 RE10K（\(V_C=2\)）上固定 \(B_\text{eff}\) 换不同 \((B, V_T)\) 组合：最终 PSNR 只差 \(\pm0.1\sim0.2\)、损失曲线几乎重合。这个假设一举解释了两件事——对 LVSM，\(\chi\propto B\cdot V_T\cdot(V_C+1)=B_\text{eff}\cdot(V_C+1)\)，与拆分方式无关，调 \(V_T\) 省不了算力；对 SVSM，\(\chi\propto B\cdot(V_C+V_T)=B_\text{eff}+B\cdot V_C\)，于是减小 \(B\)、增大 \(V_T\) 就能在保持 \(B_\text{eff}\)（即保持性能）的同时压低总 FLOPs，这正是 enc-dec 效率优势的来源。也由此点破：LVSM 原文里 enc-dec 输给 decoder-only，是因为在等迭代次数而非等 FLOPs 下对比。

3. 立体（stereo）缩放定律：同性能只需 1/3 计算

在 \(V_C=2\) 的 RE10K 上（\(V_T=6\)、batch size=256、patch size=16），扫 7M~300M 参数 × 3-4 种训练样本数，总计算跨 \(10^3\) 量级（100 petaflops 到 100 exaflops），并用 \(1/\sqrt{L}\) 残差缩放（depth-μP）保证不同深度模型公平对比。结果在 log-log 图上两族 Pareto 前沿斜率相同，但 SVSM 整体左移 \(3\times\)——同性能只要 1/3 FLOPs。按 Chinchilla 方式对每个预算 \(\chi\) 拟合 \(N_\text{opt}\propto\chi^a\)、\(D_\text{opt}\propto\chi^b\)，SVSM 得 \(a=0.52, b=0.47\)（\(a\approx b\)，与 Chinchilla 一致，预算翻倍应 \(\sqrt{k}\) 给模型、\(\sqrt{k}\) 给数据），LVSM 则 \(a=0.65, b=0.33\) 更偏模型侧。最终 SVSM-416M（Pareto 最优）和 SVSM-740M（迭代匹配）在约 0.77 zflops（LVSM 一半）下双双超过 LVSM-171M。

4. 多视图缩放定律与 PRoPE：把位姿打进每一层救回缩放

直接把 SVSM 扩到 \(V_C=4\) 时，Pareto 前沿很快饱和、缩放行为消失，原因是 encoder-decoder 里固定流向的场景表示成了信息瓶颈、位姿信息在深层被丢。解法是投影旋转位置编码 PRoPE：每层注意力前把 Q/K/V 通过相机位姿变换到公共参考坐标系再做注意力，算完逆变换回各自坐标系，等于把位姿直接嵌进每一层而非只在初始嵌入。加上 PRoPE 后 SVSM 重新恢复理想缩放趋势，且 Pareto 前沿仍优于 LVSM+PRoPE。

5. 固定潜表示对照实验：瓶颈才是缩放的真凶

为了把「解码方向」和「是否有瓶颈」两个因素分开，作者在 Objaverse（\(V_C=8\)）上对比 SVSM-fixed（固定潜表示 + 单向解码）与 LVSM enc-dec（固定潜表示 + 双向解码）：两者缩放行为类似，SVSM-fixed 仍有 \(5\times\) 计算优势（前沿左移 \(5\times\)），但二者都明显差于无瓶颈设计。这说明限制缩放的主因不是解码器是否单向，而是固定大小的场景表示本身。

实验结果¶

表1：Stereo NVS (V_C=2) 最大模型¶

模型	参数量	训练FLOPs	PSNR↑	SSIM↑	LPIPS↓	FPS(V_C=4)
LVSM Enc-Dec	173M	2.53 zflops	28.58	0.893	0.114	52.9
LVSM Dec-Only	171M	1.60 zflops	29.67	0.906	0.098	19.5
SVSM (Iter-matched)	740M	0.74 zflops	29.80	0.907	0.098	42.7
SVSM (Pareto)	416M	0.77 zflops	30.01	0.910	0.096	61.8

表2：与显式几何方法对比（RealEstate10K）¶

方法	PSNR↑	SSIM↑	LPIPS↓
pixelNeRF	20.43	0.589	0.550
pixelSplat	26.09	0.863	0.136
MVSplat	26.39	0.869	0.128
GS-LRM	28.10	0.892	0.114
SVSM	30.01	0.910	0.096

表3：多视图 NVS (V_C>2)¶

模型	参数量	训练FLOPs	PSNR↑	LPIPS↓	FPS(V_C=4)	FPS(V_C=16)
LVSM+PRoPE	171M	43 eflops	26.19	0.145	104.7	23.8
SVSM (Iter)	711M	32 eflops	26.29	0.141	280.4	230.4
SVSM (Pareto)	400M	44 eflops	26.87	0.129	411.1	333

核心发现¶

3× 计算效率：SVSM Pareto 前沿与 LVSM 斜率相同但左移 3×——同性能只需 1/3 训练计算
Chinchilla 规律跨模态复现：SVSM 的 a≈0.52, b≈0.47 (a≈b) 与 NLP 发现一致——计算预算加倍应等分给模型和数据
B_eff 决定一切：有效批量大小 B·V_T 是决定最终性能的唯一因素，(B, V_T) 的具体拆分方式差异 ≤0.2 PSNR
PRoPE 解锁多视图缩放：无 PRoPE 时 SVSM 在 V_C>2 快速饱和；加 PRoPE 后恢复缩放且前沿仍优于 LVSM
固定潜表示是缩放瓶颈：无论解码器方向性如何，固定大小场景表示都严重限制缩放能力
推理速度：SVSM 在 V_C=4 时渲染速度达 LVSM 的 4×，外推到 V_C=16 达 14×

亮点与局限¶

亮点： - 有效批量大小假设概念简洁洞察深刻，一举解释了 enc-dec 被低估的根因并提供利用方法 - 首次在 3D 视觉领域建立 Chinchilla 式计算最优训练配方 - 10³ 量级 FLOPs 的系统扫描、3 个数据集、多种 V_C 设置，实验设计极其严谨

局限： - 训练数据受限：仅使用 RE10K、DL3DV 等小型带位姿数据集并重复采样，与标准 <1 epoch 缩放实践不同 - V_C 大时 encoder 二次复杂度使渲染速度低于 LVSM enc-dec（V_C=8 时） - 仅覆盖稀疏到中等视图场景，V_C≫16 时线性注意力模型可能更有优势 - 限于确定性渲染，未研究缩放定律对扩散模型式 NVS 的适用性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 有效批量大小假设 + NVS 缩放定律填补 3D 视觉空白
实验充分度: ⭐⭐⭐⭐⭐ 10³ FLOPs 系统分析、stereo+multiview+fixed latent 三场景全覆盖
写作质量: ⭐⭐⭐⭐⭐ Chinchilla 式严谨呈现，图表专业清晰
价值: ⭐⭐⭐⭐⭐ 计算最优训练配方 + 架构指导原则可直接迁移到其他 3D 视觉任务