Arbitrary-Scale 3D Gaussian Super-Resolution¶

会议: AAAI 2026
arXiv: 2508.16467
代码: https://github.com/huimin-zeng/Arbi-3DGSR
领域: 3D视觉 / 3D高斯溅射 / 超分辨率
关键词: 3DGS, arbitrary-scale super-resolution, scale-aware rendering, generative prior, progressive training

一句话总结¶

提出Arbi-3DGSR集成框架，通过尺度感知渲染、生成先验引导优化和渐进超分三个核心组件，首次实现单个3DGS模型支持任意（包括非整数）倍率的高分辨率渲染，在×5.7倍率下PSNR比3DGS提升6.59dB，且保持85 FPS实时速度。

研究背景与动机¶

领域现状：高分辨率新视角合成（HRNVS）要求从低分辨率稀疏视图重建3D模型并渲染HR视图。近年3DGS方法凭借显式点云表示实现了实时渲染加速，但现有3DGS超分方法（SuperGS、SRGS、GaussianSR等）只能处理固定整数倍率（如×2、×4），需要为不同倍率训练独立模型。

现有痛点：（1）固定倍率限制了灵活性，忽略了3D世界的内在连续性；（2）直接用vanilla 3DGS渲染任意倍率会产生混叠伪影，因为缺乏尺度感知能力；（3）在3DGS后级联2D超分器虽然可以支持任意倍率，但增加了框架复杂度且严重降低渲染效率（StableSR仅0.13 FPS）。

核心矛盾：任意倍率渲染需要同时解决三个相互关联的挑战——不同倍率下的抗锯齿渲染、无HR ground truth时的细节约束、以及跨尺度结构一致性——而现有方法最多只能处理其中一个。

本文目标 用单个3DGS模型实现任意倍率（包括1x到8x之间的非整数倍率如3.5x、5.7x）的高质量HR渲染，同时保持结构一致性和实时速度。

切入角度：作者观察到3DGS的高斯带宽和像素积分窗口都应随目标分辨率自适应调整——通过将scale factor注入渲染管线的两个关键环节（3D滤波和2D Mip滤波），可以实现抗锯齿的多尺度渲染。同时利用扩散模型的生成先验在latent space提供细节监督，避免显式HR supervision。

核心 idea：将scale factor作为一等公民注入3DGS渲染管线的3D滤波和2D Mip滤波中，配合生成先验的latent蒸馏和渐进式训练，单模型实现任意倍率超分。

方法详解¶

整体框架¶

输入是一组低分辨率视图，输出是任意目标倍率 \(s\) 的高分辨率渲染结果。框架包含三个核心组件：尺度感知渲染（训练和推理阶段都使用）使3DGS能根据目标分辨率自适应调整渲染行为；生成先验引导优化（训练阶段）利用StableSR的去噪过程为HR渲染提供细节监督；渐进超分（训练阶段）将训练分为多个阶段逐步提升目标倍率以维持跨尺度一致性。

关键设计¶

尺度感知渲染（Scale-Aware Rendering）:
- 功能：使同一组高斯基元能够根据目标分辨率自适应调整渲染行为，避免不同倍率下的混叠和模糊
- 核心思路：分为3D和2D两级滤波。3D尺度感知平滑滤波将scale factor \(s\) 引入最大采样率计算 \(\hat{r}_i(s) = \max(\mathbb{I}_k(G_i^{3D}) \cdot f_k \cdot s_k / d_k)\)，从而自适应约束高斯带宽。2D尺度感知Mip滤波将积分窗口大小设为 \(\varepsilon_k = \varepsilon / s_k\)，使像素着色的积分窗口与实际像素面积匹配。作者通过1D逼近误差分析证明，固定窗口在不同尺度下积累误差，而自适应窗口始终保持低误差
- 设计动机：Mip-Splatting的原始滤波器使用固定参数，无法适应不同目标分辨率。高倍率渲染需要更窄的信号带宽和更小的积分窗口，低倍率则相反
生成先验引导优化（Generative Prior-Guided Optimization）:
- 功能：在没有HR ground truth的情况下，利用预训练扩散模型（StableSR）提供纹理细节监督
- 核心思路：包含两个子模块。（a）Latent蒸馏采样（LDS Loss）：对LR视图和当前SR渲染分别进行条件扩散过程，在latent space中计算异步时间步的噪声预测差异 \(\nabla_\theta \mathcal{L}_{LDS} = \mathbb{E}_{\hat{n}}[w(\hat{n}) \cdot (\epsilon_\phi(z_{SR}^{\hat{n}}) - \epsilon_\phi(z_{LR}^n)) \cdot \partial I_{SR}^t / \partial \theta]\)，让SR latent逼近具有丰富结构信息的LR latent。与SDS Loss不同，LDS比较的是异步latent的噪声差异而非同一时间步，这提供了结构监督的同时容忍了生成先验带来的像素级不对齐。（b）正交参考细化：选择场景中相互接近正交的视图子集，对这些视图执行完整去噪得到HR参考图，施加像素级纹理损失 \(\mathcal{L}_{tex} = \mathbb{I}_{ortho} \cdot \|I_{SR}^t - I_{Ref}^t\|^2\)
- 设计动机：直接用生成HR参考做像素级监督会因为邻近视图的生成不一致性导致模糊和伪影。LDS在latent空间操作避免了像素级不对齐问题；正交视图策略确保参考图之间无重叠区域，避免冲突信息
渐进超分（Progressive Super-Resolving）:
- 功能：将训练过程分为多个阶段逐步增大目标倍率，保证跨尺度结构一致性
- 核心思路：训练分为×2→×4→×8三个阶段。每个阶段从上一阶段的高斯基元初始化，随机从已有的倍率集合中采样进行训练。阶段间施加结构损失 \(\mathcal{L}_{str}\)，将当前阶段HR渲染下采样后与上一阶段渲染结果对齐，使用MSE和D-SSIM的加权组合
- 设计动机：直接用随机倍率混合训练（w/o PSR）会导致优化不稳定，小倍率和大倍率的需求相互冲突。渐进策略确保模型先学好低倍率细节再逐步扩展

损失函数 / 训练策略¶

总损失为三项加权和：\(\mathcal{L} = \lambda_1 \mathcal{L}_{LDS} + \lambda_2 \mathcal{L}_{tex} + \lambda_3 \mathcal{L}_{str}\)。训练在单张A6000 GPU上每场景约57分钟，内存占用约7GB。渲染阶段无额外计算开销。LR输入通过对原始图像做8倍Bicubic下采样得到，训练过程不使用原始HR图像。

实验关键数据¶

主实验¶

在4个基准数据集上与7种方法对比（Blender, Mip-NeRF360, Tanks&Temples, Deep Blending），评估整数和非整数倍率：

方法	Blender ×4 PSNR↑	Blender ×4 FID↓	MipNeRF360 ×8 PSNR↑	MipNeRF360 ×5.7 PSNR↑	T&T ×4 PSNR↑
3DGS	17.84	208.17	19.92	20.33	16.24
Mip-Splatting	22.25	109.44	24.51	25.02	20.97
Analytic-Splatting	23.57	141.30	23.04	23.41	19.42
GaussianSR	23.03	118.02	24.10	24.20	20.63
Ours	24.32	86.27	24.85	24.99	21.14

消融实验（Mip-NeRF360）¶

配置	×2 PSNR	×4 PSNR	×8 PSNR	×2 FID
Full model	26.23	25.18	24.85	36.52
w/o 3D-SASF	26.13	24.85	24.39	41.58
w/o 2D-SAMF	25.53	24.83	24.61	36.86
w/o PSR	26.03	24.51	23.91	37.92
w/o GPO	25.23	24.51	24.27	99.69
Pseudo HR	23.96	23.36	23.19	111.15
SDS loss	23.52	22.91	22.71	72.64

关键发现¶

GPO贡献最大：去掉后PSNR在×2上下降1dB，FID从36.52暴增到99.69，说明生成先验对感知质量至关重要
渐进超分对高倍率影响显著：w/o PSR在×8上PSNR下降0.94dB
LDS Loss远优于传统替代方案：Pseudo HR和SDS Loss分别导致PSNR下降2.27dB和2.71dB（×2）
效率优势明显：85 FPS vs StableSR的0.13 FPS（快908倍），存储仅0.79GB

亮点与洞察¶

任意倍率的统一模型：首次将arbitrary-scale超分引入3DGS领域，单模型覆盖整数和非整数倍率；这个思路可迁移到NeRF或其他3D表示
LDS Loss设计精巧：通过比较异步时间步的latent噪声而非像素差异，既利用了扩散模型的生成先验又避免了视图不一致性，比SDS Loss高2.71dB PSNR
正交视图策略：用几何约束（正交视图无重叠区域）来解决生成一致性问题，是一个通用的多视图一致性保障思路

局限与展望¶

仅处理静态场景，未扩展到动态3DGS（如4D-GS）
生成先验依赖StableSR的预训练质量，在极高倍率（>×8）时可能引入非真实纹理
训练时间57min/场景，主要开销来自扩散模型推理，可探索更轻量的先验来源（如ESRGAN系列）
未探索跨场景泛化能力——每个场景仍需独立训练

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义Arbi-3DGSR问题，尺度感知渲染和LDS Loss设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 4个基准、7种baseline、5种倍率、完整消融和效率分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，技术描述完整，公式推导严谨
价值: ⭐⭐⭐⭐ 实时+灵活倍率对3DGS实际部署有重要意义