跳转至

Frequency-Aware Dynamic Gaussian Splatting

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UZ00ac4eqA
代码: 待确认
领域: 3D 视觉 / 4D 动态重建
关键词: 动态高斯泼溅, 4D 重建, 运动模糊, 频率感知, 形变场, 傅里叶嵌入

一句话总结

本文从频率视角揭示动态 3DGS 运动模糊的根因——"高频渲染细节"与"高频运动"在固定高斯核上互相争抢表达力,提出频率分化高斯核(FDGK)+ 傅里叶形变网络(FDN),把细节表达与运动建模解耦,在合成/真实 4D 基准上显著减少模糊并刷新 SOTA。

研究背景与动机

  • 领域现状:基于形变场的动态 3DGS(DeformGS、4D-GS、SC-GS、Grid4D 等)已能实时重建 4D 场景,主流做法是维护一套 canonical 高斯,用 MLP 形变网络预测随时间的残差位移 \((\Delta x, \Delta R, \Delta S)\)
  • 现有痛点:动态重建在新视角下普遍出现严重运动模糊,尤其在物体边界和快速形变处。以往工作只在"细化形变场"层面打转,忽视了运动本身的频谱特性。
  • 核心矛盾:vanilla 3DGS 给每个高斯固定的不透明度分布(中心实、边缘渐透),静态场景靠高斯堆叠就能恢复高频细节;但在动态场景下,这逼着形变网络同时干两件矛盾的事——既要编排密集高斯堆叠去恢复每帧的高频外观,又要让这堆高斯跨帧协调一致地表达高频运动且不散架。两难之下网络倾向折中为"均匀低频运动",结果就是新视角下的运动模糊。
  • 本文目标:把"高频细节表达"和"高频运动建模"这两份职责从形变网络上拆开,分别交给更有表达力的高斯核与频率感知的形变网络。
  • 核心 idea【频谱解耦】 让高斯核自己分化成高频核(管尖锐边界)/低频核(管平滑区域),把细节表达从形变网络卸下来;【傅里叶运动】 用高频傅里叶嵌入把每个点的运动表示成多频周期叠加,配合频率感知门控只放大真正动的点。

方法详解

整体框架

FAGS 在 Grid4D 形变骨干基础上做两处升级:表达侧用频率分化高斯核(FDGK)改造 alpha-blending,让高斯按频率特性自适应分工;运动侧用傅里叶形变网络(FDN)把哈希编码的低频时空特征与高频傅里叶嵌入融合,经多头解码器预测形变,并由频率感知门控调节每个高斯的运动强度;最后加一个频域的傅里叶频率损失把整套机制拉向高频细节。

flowchart LR
    A[Canonical 高斯<br/>λ,β 可学习] --> B[FDGK<br/>自适应 alpha 调制 ψ(g)]
    C["4D 坐标 (x,y,z,t)<br/>四组哈希编码"] --> D[低频时空特征]
    E[高频傅里叶嵌入<br/>多频 sin/cos] --> F[高低频融合特征]
    D --> F
    F --> G[多头解码器]
    G --> H[频率感知门控 η<br/>调节运动强度]
    B --> I[频率分化高斯]
    H --> I
    I --> J[渲染 + 傅里叶频率损失]

关键设计

1. 频率分化高斯核(FDGK):让每个高斯自选频率身份。 回看 alpha 计算 \(\alpha_i = o_i\exp[-\frac{1}{2}(p-\mu_{2D_i})^T\Sigma_{2D_i}^{-1}(p-\mu_{2D_i})]\),作者把指数项记为 \(g\),再用一个可学习的分段调制函数把它重写为 \(\alpha_i = \min(o_i\psi(g), 0.99)\)\(\psi(g)\) 由两个可学习参数控制:斜率参数 \(\lambda\in[0,1]\)(令 \(r=0.5+\lambda\)\(b=0.25-0.5\lambda\))决定中段映射的陡峭程度——\(\lambda=0.5\) 时退化为标准高斯,\(\lambda<0.5\)\(\psi\) 缓变得到平滑低频核,\(\lambda>0.5\)\(\psi\) 急变得到尖锐高频核;边界参数 \(\beta\) 则独立缩放分化区间的左右端点 \(p_l=0.5-\beta d_{g_0}\)\(p_r=0.5+\beta d_{g_0}\)。相比 DRK 只调 \(r\)、导致同斜率高斯被迫共享同一分化区间,FDGK 用独立的 \(\beta\) 解耦了"频率特性"与"分化跨度",让每个高斯既能选频率又能选作用范围。\(\lambda,\beta\) 通过反向传播联合优化(作者给出了 \(\partial\psi/\partial\lambda\)\(\partial\psi/\partial\beta\) 的闭式分段梯度),同时把 \(\alpha\) 约束在可控区间内,稳定形变网络训练。这样高频细节交给少量尖锐高斯,平滑区交给低频高斯,大幅减少靠密集堆叠救场的依赖。

2. 傅里叶形变网络(FDN):把运动表示成多频周期叠加。 直接对 10 万级高斯逐时刻优化轨迹不可行,作者改为给每个点编码高频运动再与低频空间特征融合。先把 4D 坐标拆成四组 3D 哈希编码 \((x,y,z)\)\((x,y,t)\)\((y,z,t)\)\((x,z,t)\),经 MLP 得到空间特征 \(f_{spa}\) 与时间特征 \(f_{tem}\)。关键是为每个高斯设计高频傅里叶嵌入 \(f_{fre}=[w_1\sin(\pi\gamma_1 t), w_1\cos(\pi\gamma_1 t),\dots]\),频率 \(\gamma_i=2^{\frac{3i-3}{m-1}}\) 做更密的多尺度采样,而振幅 \([w_1,\dots,w_m]=\text{MLP}(f_{spa})\) 与时间无关、对每个高斯特定——相当于把该点的运动当作一段无限循环周期信号做傅里叶分解,用振幅分布刻画它在各频率上动多少。融合后的高低频特征既能稳住全局低频趋势,又能捕捉短时高频位移。

3. 频率感知门控(FG):只让真正动的点动起来。 形变网络会无差别地给所有高斯预测更新,可能误改本该静止的点。作者把高频傅里叶特征 \(f_{fre}\) 与低频时间嵌入 \(f_{tem}\) 融合后送入解码器 \(D_\theta\),除常规的旋转 \(R_x\)、平移 \(T_x\)\(\Delta r,\Delta s\) 外额外输出一个门控分数 \(\eta\),并以 \(\mu'=\eta R_x\mu+\eta T_x\)\(S'=S+\eta\Delta s\)\(R'=R+\eta\Delta r\) 的形式调节形变强度。高频运动的高斯拿到大 \(\eta\) 允许属性快速变化,近静止的低频高斯拿到小 \(\eta\) 被抑制——相比硬性 clamp 静态边界,\(\eta\) 平滑可变,让网络在每个时刻自适应地调控各高斯的动态行为。

4. 傅里叶频率损失:在频域显式督促高频。 光有上面三件套还不够,需要一个频域目标把它们的潜力激发出来。对渲染图 \(I'\) 与目标图 \(I\) 做 FFT 取幅度谱,定义 \(L_{fre}=\|I'_{amp}-I_{amp}\|_1\)(因相位主要编码结构、两图几何高度相似故只比幅度)。总损失 \(L=\sigma_c L_{L1}+(1-\sigma_c)L_{MISS}+\sigma_r L_r+\sigma_{fre}L_{fre}\) 在 Grid4D 重建损失上叠加该项,强调难优化的高频区域,把高斯与形变网络一起拉向更精细的局部拟合。

实验关键数据

主实验表格

D-NeRF 合成数据集 7 场景平均(与 Grid4D 同骨干对比):

方法 PSNR ↑ SSIM ↑ LPIPS ↓
4D-GS 36.30 0.986 0.019
SC-GS 41.59 0.994 0.015
Grid4D 41.99 0.993 0.008
Grid4D+DRK 39.43 0.990 0.015
Ours (FAGS) 42.76 0.995 0.007

真实场景数据集平均:

数据集 方法 PSNR ↑ SSIM ↑ LPIPS ↓
Neu3D Grid4D 31.63 0.937 0.149
Neu3D Ours 32.18 0.946 0.146
HyperNeRF (Interp.) Grid4D 28.59 0.844 0.199
HyperNeRF (Interp.) Ours 29.02 0.850 0.195
HyperNeRF (Rig) Grid4D 25.24 0.685 0.319
HyperNeRF (Rig) Ours 25.63 0.719 0.269

消融实验表格

D-NeRF 平均,逐组件去除:

配置 PSNR ↑ SSIM ↑ LPIPS ↓
Full 42.76 0.995 0.007
w/o FDGK 42.11 0.993 0.009
w/o HFE 42.38 0.994 0.009
w/o FG 42.70 0.994 0.008
w/o \(L_{fre}\) 42.50 0.994 0.008
w/o (FG + \(L_{fre}\)) 42.43 0.994 0.008
w/o FDGK.λ 42.30 0.994 0.008
w/o FDGK.β 42.26 0.994 0.008

关键发现

  • FDGK 贡献最大:去掉后 PSNR 掉 0.65、LPIPS 翻倍到 0.009,验证"高斯频率分化卸载细节表达"是核心增益来源;其中 \(\lambda\)\(\beta\) 各自有效(去任一都掉点),说明独立边界参数确有必要。
  • 高斯自发分化:初始全部 \(\lambda=\beta=0.5\)(等价标准高斯),约 5000 步后明显分裂成低频/高频两簇,比例约 3:2,证明频率分工是优化自然学出来的而非人为指派。
  • 真实场景增益显著:HyperNeRF Rig 子集 SSIM 从 0.685 提到 0.719、LPIPS 从 0.319 降到 0.269,定性上修复了 Grid4D 的刀尖消失等伪影。

亮点与洞察

  • 问题诊断漂亮:把困扰动态 3DGS 的运动模糊归因为"固定高斯核上高频细节与高频运动的频谱争抢",比单纯归咎于形变场不够精细更深刻,且给出了清晰的"职责解耦"解法。
  • 可学习频率身份:用 \(\lambda\)(频率)+ \(\beta\)(跨度)两个解耦参数让每个高斯自适应选择频率特性,且分化是优化涌现的,工程上只是对 alpha-blending 的轻量改造,易于插入现有 3DGS 管线。
  • 运动的频谱视角:傅里叶嵌入把逐点运动表示成多频振幅叠加,避开了逐时刻轨迹优化的算力墙,同时门控 \(\eta\) 平滑抑制静态点,比硬 clamp 更优雅。

局限与展望

  • 强依赖 Grid4D 骨干:方法以 Grid4D 为形变 backbone 并沿用其超参,未在更多形变框架上验证通用性。
  • 绝对增益偏小:D-NeRF 上多数场景已接近饱和(PSNR 40+),平均 PSNR 提升约 0.77,真实贡献更多体现在定性的边界/细节与新视角抗模糊上,数值差距有限。
  • 频率超参固定\(\sigma_{fre}=0.3\)、傅里叶频率采样 \(\gamma_i\) 等为手工设定,对不同运动尺度场景的自适应性待验证;高斯频率 3:2 分裂比例是否随场景动态范围变化也值得深入。

相关工作与启发

  • 动态 NeRF:DyNeRF(Neural 3D Video)、Nerfies、D-NeRF 用形变场把 NeRF 拓展到时序,本文继承"canonical + 形变"范式但搬到高斯表示。
  • 动态高斯泼溅:迭代式(D-3DGS 逐帧传播)vs 形变式(DeformGS、4D-GS、SC-GS、Grid4D 共享 canonical + MLP 形变);FAGS 属形变式,首次把频谱特性引入高斯表达。
  • 高斯核增强:DRK 也调斜率 \(r\) 增强表达,但分化边界被 \(r\) 隐式绑定;FAGS 的独立 \(\beta\) 是关键改进,对后续想做"可学习高斯形状/频率"的工作有直接借鉴。
  • 启发:把"频率/频谱"作为解耦表达与运动的统一语言,可能迁移到视频生成、神经渲染中其他"细节 vs 动态"两难的任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 从频谱争抢角度重新诊断运动模糊并用可学习频率分化高斯核解决,视角新颖、解法自洽;但建立在 Grid4D + DRK 等已有部件之上,属增量式创新。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 D-NeRF/Neu3D/HyperNeRF 三个主流基准 + 完整逐组件消融 + λ 分布分析,论证扎实;不足是绝对增益偏小、未跨骨干验证通用性。
  • 写作质量: ⭐⭐⭐⭐ 问题动机(Fig.1 的两难分析)讲得清晰直观,方法公式与图示配合到位,逻辑连贯易读。
  • 价值: ⭐⭐⭐⭐ 给动态 3DGS 提供了一条即插即用、聚焦新视角抗模糊的实用路线,对追求高频细节的 4D 重建有参考价值。