Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化
一句话总结¶
提出首个针对 3DGS 资源瞄准攻击的频域防御框架——3D 频率滤波器选择性剪除高频异常高斯 + 2D 角度各向异性正则惩罚方向集中的高频噪声,将投毒过增长最多抑制 5.92×、峰值显存降 3.66×、渲染速度提升 4.34×,且 PSNR 反而提升 +1.93dB。
研究背景与动机¶
领域现状:3DGS 通过自适应致密化动态增减高斯基元匹配场景复杂度,已成为实时 3D 重建的主流范式。Poison-Splat 攻击揭示了新威胁面:通过向训练图像注入微小扰动(\(\epsilon\)-ball 约束),构造 max-min 双层优化问题诱导 3DGS 过度致密化,造成显存爆炸和渲染减速。
现有痛点:(1) 图像平滑(image smoothing)破坏真实精细结构;(2) 统一高斯阈值(UT)无法跨场景泛化,对某些场景过严对其他场景不足;(3) 效率导向剪枝(LightGaussian/PUP/MaskGaussian)设计目标是压缩而非鲁棒性,被投毒监督误导后无法区分对抗高斯与真实细节。
核心矛盾:攻击注入的扰动在像素空间视觉上难以察觉,但在频域呈现两个特征性指纹——异常高频放大 + 方向各向异性。空间域防御无法捕捉这些隐蔽的频谱畸变,导致优化器将噪声模式误读为精细结构,触发非稳定的高斯过增长。
本文目标 从频域视角设计防御机制,在不损害真实场景结构的前提下选择性抑制攻击诱导的高斯过增长。
切入角度:将高斯协方差矩阵与其频率响应建立数学联系——协方差最小特征值越小,高频衰减越弱,高频响应越强。这提供了区分攻击噪声和真实细节的理论基础。
核心 idea:攻击的根源在于频谱行为而非空间结构——3D 频率滤波器选择性剪除异常高频高斯 + 2D 各向异性正则约束渲染图像的方向高频分布。
方法详解¶
整体框架¶
在 3DGS 训练循环中联合操作两个域:每迭代渲染图像 → 若达到剪枝间隔(每 \(T_{prune}=100\) 步)执行 3D 频率感知剪枝 → 计算 2D 各向异性损失和 TV 损失 → 联合优化更新高斯集合。输入为投毒图像 \(\mathcal{V}^p\),输出为防御后的高斯集合 \(\mathcal{G}\)。
关键设计¶
-
3D 频率滤波器(参数空间剪枝)
- 功能:根据高斯的频域特性选择性剪除攻击诱导的冗余高斯
- 核心思路:3D 高斯 \(G\) 的傅里叶变换振幅为 \(\gamma(t) = (2\pi)^{3/2}|\Sigma|^{1/2}\exp(-2\pi^2 t^\top \Sigma t)\),协方差 \(\Sigma\) 完全决定频率特性(位置 \(\mu\) 只影响相位不影响频谱分布)。最小特征值 \(\sigma_{min}\) 越小 → 高频衰减越弱 → 高频响应越强。定义高频衰减分数 \(\mathcal{S}(G) = \exp(-2\pi^2 t^2 \sigma_{min}^2)\),映射为重要性权重 \(\mathcal{W}(G) = (1-\mathcal{S}(G))^\alpha\)——\(\mathcal{S}\) 过大(强高频响应)的高斯被赋予低权重。结合可见性:随机采样 \(K^*\) 个视角统计射线命中次数 \(\text{hit}(G)\),最终得分 \(\text{score}(G) = \mathcal{W}(G) \cdot \text{hit}(G)\)
- 设计动机:直接剪高频不够——自然纹理也有合法高频。通过结合频率衰减度(区分攻击噪声的极端高频)和可见性(低分="很少被观测却有强高频行为"=典型攻击诱导),实现精准区分
-
2D 频谱正则化(图像空间约束)
- 功能:约束渲染图像的频域方向分布,抑制攻击引入的各向异性高频噪声
- 核心思路:对渲染图 \(\dot{V}\) 做 2D DFT → 用振幅阈值 \([\dot{\gamma}_{min}, \dot{\gamma}_{max}]\) 提取高频带 \(\mathcal{E}(u,v)\) → 将频率平面 \([-\pi,\pi)\) 离散化为 \(B=36\) 个角度箱 → 聚合各箱高频能量得概率分布 \(\mathcal{P}_b = \mathcal{E}_b / \sum_j \mathcal{E}_j\) → 计算归一化熵 \(\text{norm}(\mathcal{H}) = -\sum_b \mathcal{P}_b \log \mathcal{P}_b / \log B\) → 各向异性损失 \(\mathcal{L}_{ani} = 1 - \text{norm}(\mathcal{H})\)
- 设计动机:干净图像高频近似各向同性(\(\mathcal{H} \to \log B\),损失→0),投毒图像高频集中在少数方向(\(\mathcal{H}\) 低,损失大)。3D 剪枝只在参数空间操作,受害模型仍在投毒视图上优化可能收敛到噪声伪影——2D 正则从图像空间补充约束
损失函数 / 训练策略¶
总损失:\(\mathcal{L}_{total} = (1-\lambda_0)\mathcal{L}_1 + \lambda_0\mathcal{L}_{\text{D-SSIM}} + \lambda(\mathcal{L}_{freq} + \mathcal{L}_{tv})\),其中 \(\mathcal{L}_{freq} = \frac{1}{K}\sum_{k=1}^K \mathcal{L}_{ani}(\dot{V}_k^p)\)。超参:\(t=8, \alpha=2\);剪枝率 NS \(\rho=3\%\),TT \(\rho=4.5\%\),MIP \(\rho=5\%\);\(\lambda=4\)(NS/TT)或 5(MIP);\(K^*=48, B=36\)。攻击默认 \(\epsilon=16/255\)。
实验关键数据¶
主实验——训练资源抑制(3 数据集 38 场景)¶
| 数据集 | 指标 | 干净 | 投毒 | 防御后 | 攻击抑制倍数 |
|---|---|---|---|---|---|
| TT (21场景) | Max高斯(M) | 1.751 | 2.889 (1.65×↑) | 1.128 | 2.56×↓ |
| NS (8场景) | Max高斯(M) | 0.291 | 0.720 (2.47×↑) | 0.273 | 2.64×↓ |
| MIP (9场景) | Max高斯(M) | 3.191 | 7.045 (2.21×↑) | 1.876 | 3.76×↓ |
| TT 平均 | 峰值显存(MB) | 7408 | 11276 | 6614 | 1.70×↓ |
| MIP 平均 | 峰值显存(MB) | 12510 | 24445 | 11491 | 2.13×↓ |
极端场景与渲染质量¶
| 场景 | 指标 | 投毒 | 防御后 | 效果 |
|---|---|---|---|---|
| MIP-bonsai | 高斯数 | 6.139M | 1.037M | 5.92×↓ |
| MIP-bonsai | PSNR | 27.14 | 29.07 | +1.93dB |
| MIP-garden | FPS | 48 | 208 | 4.34×↑ |
| NS-hotdog | 显存 | 28124MB | 7781MB | 3.61×↓ |
消融实验¶
| 消融维度 | 关键发现 |
|---|---|
| 频率参考 \(t\) | \(t=8\) 最优;\(t \in [4,10]\) 范围内结果稳定 |
| 2D 正则超参 | 高度鲁棒:\(\dot{\gamma} \in [0.28,0.92] \to [0.40,0.85]\) PSNR 变动<0.2dB |
| 攻击强度鲁棒性 | \(\epsilon=8/255\) 到无穷全范围有效 |
| 黑盒泛化 | 攻击 Scaffold-GS,防御仍有效(MIP-bonsai 11.1M→2.0M,5.52×↓) |
| 干净输入兼容 | 无攻击下也压缩高斯(MIP-bicycle 5.78M→1.34M,4.32×↓)且不损质量 |
关键发现¶
- 防御后 PSNR 反而提升——频率感知剪枝移除的正是噪声高斯,去噪提升了重建质量
- 方法在干净场景也有效,实质兼备安全防御和高效压缩双重功能
- 对 Scaffold-GS 等变体的黑盒迁移有效,说明频谱特征的普适性
亮点与洞察¶
- 频域防御视角的首创性:首次揭示投毒的频谱指纹(高频放大 + 方向各向异性),从频域而非空间域解决问题,理论根基扎实
- 数学推导优雅:高斯协方差 → 傅里叶变换 → 频率感知打分的推导链完整,\(\Sigma\) 全面决定频率特性而 \(\mu\) 不影响的结论干净漂亮
- 防御即压缩:方法在无攻击场景下也起到高效高斯压缩作用,同时不损渲染质量——安全性与效率的 bonus 效应
- 实验极其全面:3 个数据集 38 个场景 × 3 种设置 + 黑盒迁移 + 干净兼容 + 详细超参消融,可复现性高
局限与展望¶
- 核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过 2D 正则
- 仅针对 resource-targeting 攻击,未考虑 accuracy-targeting 攻击(如 StealthAttack)
- 剪枝率 \(\rho\) 按数据集手动设定(NS 3%/TT 4.5%/MIP 5%),未实现自适应调整
- 频率阈值 \(\dot{\gamma}_{min}/\dot{\gamma}_{max}\) 为固定值,未与场景复杂度自适应耦合
相关工作与启发¶
- vs Poison-Splat 原文防御:原文提出的图像平滑和统一阈值是 naive baseline,本文首次提供有理论支撑的防御方案
- vs LightGaussian/PUP 效率方法:这些方法在投毒场景失效(无法区分对抗高斯和真实细节),但本文方法在干净场景反而表现不比它们差
- 频域分析思路可推广至其他基于高斯的 3D 表示的安全性研究,如 4DGS、GS-SLAM
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 频域防御 3DGS 攻击的视角全新,数学推导扎实
- 实验充分度: ⭐⭐⭐⭐⭐ 38 场景 × 3 设置 + 黑盒迁移 + 干净兼容 + 8 组消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,频域分析有深度
- 价值: ⭐⭐⭐⭐ 对 3DGS 安全部署有重要意义,且方法兼具实用压缩价值