Arbitrary-Scale 3D Gaussian Super-Resolution¶
会议: AAAI 2026
arXiv: 2508.16467
代码: https://github.com/huimin-zeng/Arbi-3DGSR
领域: 3D视觉 / 3D高斯溅射 / 超分辨率
关键词: 3DGS, arbitrary-scale super-resolution, scale-aware rendering, generative prior, progressive training
一句话总结¶
提出Arbi-3DGSR集成框架,通过尺度感知渲染、生成先验引导优化和渐进超分三个核心组件,首次实现单个3DGS模型支持任意(包括非整数)倍率的高分辨率渲染,在×5.7倍率下PSNR比3DGS提升6.59dB,且保持85 FPS实时速度。
研究背景与动机¶
领域现状:高分辨率新视角合成(HRNVS)要求从低分辨率稀疏视图重建3D模型并渲染HR视图。近年3DGS方法凭借显式点云表示实现了实时渲染加速,但现有3DGS超分方法(SuperGS、SRGS、GaussianSR等)只能处理固定整数倍率(如×2、×4),需要为不同倍率训练独立模型。
现有痛点:(1)固定倍率限制了灵活性,忽略了3D世界的内在连续性;(2)直接用vanilla 3DGS渲染任意倍率会产生混叠伪影,因为缺乏尺度感知能力;(3)在3DGS后级联2D超分器虽然可以支持任意倍率,但增加了框架复杂度且严重降低渲染效率(StableSR仅0.13 FPS)。
核心矛盾:任意倍率渲染需要同时解决三个相互关联的挑战——不同倍率下的抗锯齿渲染、无HR ground truth时的细节约束、以及跨尺度结构一致性——而现有方法最多只能处理其中一个。
本文目标 用单个3DGS模型实现任意倍率(包括1x到8x之间的非整数倍率如3.5x、5.7x)的高质量HR渲染,同时保持结构一致性和实时速度。
切入角度:作者观察到3DGS的高斯带宽和像素积分窗口都应随目标分辨率自适应调整——通过将scale factor注入渲染管线的两个关键环节(3D滤波和2D Mip滤波),可以实现抗锯齿的多尺度渲染。同时利用扩散模型的生成先验在latent space提供细节监督,避免显式HR supervision。
核心 idea:将scale factor作为一等公民注入3DGS渲染管线的3D滤波和2D Mip滤波中,配合生成先验的latent蒸馏和渐进式训练,单模型实现任意倍率超分。
方法详解¶
整体框架¶
输入是一组低分辨率视图,输出是任意目标倍率 \(s\) 的高分辨率渲染结果。框架包含三个核心组件:尺度感知渲染(训练和推理阶段都使用)使3DGS能根据目标分辨率自适应调整渲染行为;生成先验引导优化(训练阶段)利用StableSR的去噪过程为HR渲染提供细节监督;渐进超分(训练阶段)将训练分为多个阶段逐步提升目标倍率以维持跨尺度一致性。
关键设计¶
-
尺度感知渲染(Scale-Aware Rendering):
- 功能:使同一组高斯基元能够根据目标分辨率自适应调整渲染行为,避免不同倍率下的混叠和模糊
- 核心思路:分为3D和2D两级滤波。3D尺度感知平滑滤波将scale factor \(s\) 引入最大采样率计算 \(\hat{r}_i(s) = \max(\mathbb{I}_k(G_i^{3D}) \cdot f_k \cdot s_k / d_k)\),从而自适应约束高斯带宽。2D尺度感知Mip滤波将积分窗口大小设为 \(\varepsilon_k = \varepsilon / s_k\),使像素着色的积分窗口与实际像素面积匹配。作者通过1D逼近误差分析证明,固定窗口在不同尺度下积累误差,而自适应窗口始终保持低误差
- 设计动机:Mip-Splatting的原始滤波器使用固定参数,无法适应不同目标分辨率。高倍率渲染需要更窄的信号带宽和更小的积分窗口,低倍率则相反
-
生成先验引导优化(Generative Prior-Guided Optimization):
- 功能:在没有HR ground truth的情况下,利用预训练扩散模型(StableSR)提供纹理细节监督
- 核心思路:包含两个子模块。(a)Latent蒸馏采样(LDS Loss):对LR视图和当前SR渲染分别进行条件扩散过程,在latent space中计算异步时间步的噪声预测差异 \(\nabla_\theta \mathcal{L}_{LDS} = \mathbb{E}_{\hat{n}}[w(\hat{n}) \cdot (\epsilon_\phi(z_{SR}^{\hat{n}}) - \epsilon_\phi(z_{LR}^n)) \cdot \partial I_{SR}^t / \partial \theta]\),让SR latent逼近具有丰富结构信息的LR latent。与SDS Loss不同,LDS比较的是异步latent的噪声差异而非同一时间步,这提供了结构监督的同时容忍了生成先验带来的像素级不对齐。(b)正交参考细化:选择场景中相互接近正交的视图子集,对这些视图执行完整去噪得到HR参考图,施加像素级纹理损失 \(\mathcal{L}_{tex} = \mathbb{I}_{ortho} \cdot \|I_{SR}^t - I_{Ref}^t\|^2\)
- 设计动机:直接用生成HR参考做像素级监督会因为邻近视图的生成不一致性导致模糊和伪影。LDS在latent空间操作避免了像素级不对齐问题;正交视图策略确保参考图之间无重叠区域,避免冲突信息
-
渐进超分(Progressive Super-Resolving):
- 功能:将训练过程分为多个阶段逐步增大目标倍率,保证跨尺度结构一致性
- 核心思路:训练分为×2→×4→×8三个阶段。每个阶段从上一阶段的高斯基元初始化,随机从已有的倍率集合中采样进行训练。阶段间施加结构损失 \(\mathcal{L}_{str}\),将当前阶段HR渲染下采样后与上一阶段渲染结果对齐,使用MSE和D-SSIM的加权组合
- 设计动机:直接用随机倍率混合训练(w/o PSR)会导致优化不稳定,小倍率和大倍率的需求相互冲突。渐进策略确保模型先学好低倍率细节再逐步扩展
损失函数 / 训练策略¶
总损失为三项加权和:\(\mathcal{L} = \lambda_1 \mathcal{L}_{LDS} + \lambda_2 \mathcal{L}_{tex} + \lambda_3 \mathcal{L}_{str}\)。训练在单张A6000 GPU上每场景约57分钟,内存占用约7GB。渲染阶段无额外计算开销。LR输入通过对原始图像做8倍Bicubic下采样得到,训练过程不使用原始HR图像。
实验关键数据¶
主实验¶
在4个基准数据集上与7种方法对比(Blender, Mip-NeRF360, Tanks&Temples, Deep Blending),评估整数和非整数倍率:
| 方法 | Blender ×4 PSNR↑ | Blender ×4 FID↓ | MipNeRF360 ×8 PSNR↑ | MipNeRF360 ×5.7 PSNR↑ | T&T ×4 PSNR↑ |
|---|---|---|---|---|---|
| 3DGS | 17.84 | 208.17 | 19.92 | 20.33 | 16.24 |
| Mip-Splatting | 22.25 | 109.44 | 24.51 | 25.02 | 20.97 |
| Analytic-Splatting | 23.57 | 141.30 | 23.04 | 23.41 | 19.42 |
| GaussianSR | 23.03 | 118.02 | 24.10 | 24.20 | 20.63 |
| Ours | 24.32 | 86.27 | 24.85 | 24.99 | 21.14 |
消融实验(Mip-NeRF360)¶
| 配置 | ×2 PSNR | ×4 PSNR | ×8 PSNR | ×2 FID |
|---|---|---|---|---|
| Full model | 26.23 | 25.18 | 24.85 | 36.52 |
| w/o 3D-SASF | 26.13 | 24.85 | 24.39 | 41.58 |
| w/o 2D-SAMF | 25.53 | 24.83 | 24.61 | 36.86 |
| w/o PSR | 26.03 | 24.51 | 23.91 | 37.92 |
| w/o GPO | 25.23 | 24.51 | 24.27 | 99.69 |
| Pseudo HR | 23.96 | 23.36 | 23.19 | 111.15 |
| SDS loss | 23.52 | 22.91 | 22.71 | 72.64 |
关键发现¶
- GPO贡献最大:去掉后PSNR在×2上下降1dB,FID从36.52暴增到99.69,说明生成先验对感知质量至关重要
- 渐进超分对高倍率影响显著:w/o PSR在×8上PSNR下降0.94dB
- LDS Loss远优于传统替代方案:Pseudo HR和SDS Loss分别导致PSNR下降2.27dB和2.71dB(×2)
- 效率优势明显:85 FPS vs StableSR的0.13 FPS(快908倍),存储仅0.79GB
亮点与洞察¶
- 任意倍率的统一模型:首次将arbitrary-scale超分引入3DGS领域,单模型覆盖整数和非整数倍率;这个思路可迁移到NeRF或其他3D表示
- LDS Loss设计精巧:通过比较异步时间步的latent噪声而非像素差异,既利用了扩散模型的生成先验又避免了视图不一致性,比SDS Loss高2.71dB PSNR
- 正交视图策略:用几何约束(正交视图无重叠区域)来解决生成一致性问题,是一个通用的多视图一致性保障思路
局限与展望¶
- 仅处理静态场景,未扩展到动态3DGS(如4D-GS)
- 生成先验依赖StableSR的预训练质量,在极高倍率(>×8)时可能引入非真实纹理
- 训练时间57min/场景,主要开销来自扩散模型推理,可探索更轻量的先验来源(如ESRGAN系列)
- 未探索跨场景泛化能力——每个场景仍需独立训练
相关工作与启发¶
- vs GaussianSR: GaussianSR虽然渲染速度更快(126 FPS),但使用随机倍率混合训练且无结构一致性约束,在所有指标上落后于本文方法。GaussianSR存储更小(0.56GB vs 0.79GB)但训练时间长4.5倍(256min vs 57min)
- vs Mip-Splatting: Mip-Splatting提供了抗锯齿基础但不涉及超分辨率,本文在其滤波器基础上引入scale factor实现了尺度感知能力。在Blender ×3.5上PSNR高2.13dB
- vs Analytic-Splatting: 理论上更精确的像素积分,但在实际HR渲染中产生高频伪影,本文在Mip-NeRF360上×8 PSNR高1.81dB
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义Arbi-3DGSR问题,尺度感知渲染和LDS Loss设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 4个基准、7种baseline、5种倍率、完整消融和效率分析
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,技术描述完整,公式推导严谨
- 价值: ⭐⭐⭐⭐ 实时+灵活倍率对3DGS实际部署有重要意义