Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化

一句话总结¶

提出首个针对 3DGS 资源瞄准攻击的频域防御框架——3D 频率滤波器选择性剪除高频异常高斯 + 2D 角度各向异性正则惩罚方向集中的高频噪声，将投毒过增长最多抑制 5.92×、峰值显存降 3.66×、渲染速度提升 4.34×，且 PSNR 反而提升 +1.93dB。

研究背景与动机¶

领域现状：3DGS 通过自适应致密化动态增减高斯基元匹配场景复杂度，已成为实时 3D 重建的主流范式。Poison-Splat 攻击揭示了新威胁面：通过向训练图像注入微小扰动（\(\epsilon\)-ball 约束），构造 max-min 双层优化问题诱导 3DGS 过度致密化，造成显存爆炸和渲染减速。

现有痛点：(1) 图像平滑（image smoothing）破坏真实精细结构；(2) 统一高斯阈值（UT）无法跨场景泛化，对某些场景过严对其他场景不足；(3) 效率导向剪枝（LightGaussian/PUP/MaskGaussian）设计目标是压缩而非鲁棒性，被投毒监督误导后无法区分对抗高斯与真实细节。

核心矛盾：攻击注入的扰动在像素空间视觉上难以察觉，但在频域呈现两个特征性指纹——异常高频放大 + 方向各向异性。空间域防御无法捕捉这些隐蔽的频谱畸变，导致优化器将噪声模式误读为精细结构，触发非稳定的高斯过增长。

本文目标 从频域视角设计防御机制，在不损害真实场景结构的前提下选择性抑制攻击诱导的高斯过增长。

切入角度：将高斯协方差矩阵与其频率响应建立数学联系——协方差最小特征值越小，高频衰减越弱，高频响应越强。这提供了区分攻击噪声和真实细节的理论基础。

核心 idea：攻击的根源在于频谱行为而非空间结构——3D 频率滤波器选择性剪除异常高频高斯 + 2D 各向异性正则约束渲染图像的方向高频分布。

方法详解¶

整体框架¶

在 3DGS 训练循环中联合操作两个域：每迭代渲染图像 → 若达到剪枝间隔（每 \(T_{prune}=100\) 步）执行 3D 频率感知剪枝 → 计算 2D 各向异性损失和 TV 损失 → 联合优化更新高斯集合。输入为投毒图像 \(\mathcal{V}^p\)，输出为防御后的高斯集合 \(\mathcal{G}\)。

关键设计¶

3D 频率滤波器（参数空间剪枝）
- 功能：根据高斯的频域特性选择性剪除攻击诱导的冗余高斯
- 核心思路：3D 高斯 \(G\) 的傅里叶变换振幅为 \(\gamma(t) = (2\pi)^{3/2}|\Sigma|^{1/2}\exp(-2\pi^2 t^\top \Sigma t)\)，协方差 \(\Sigma\) 完全决定频率特性（位置 \(\mu\) 只影响相位不影响频谱分布）。最小特征值 \(\sigma_{min}\) 越小 → 高频衰减越弱 → 高频响应越强。定义高频衰减分数 \(\mathcal{S}(G) = \exp(-2\pi^2 t^2 \sigma_{min}^2)\)，映射为重要性权重 \(\mathcal{W}(G) = (1-\mathcal{S}(G))^\alpha\)——\(\mathcal{S}\) 过大（强高频响应）的高斯被赋予低权重。结合可见性：随机采样 \(K^*\) 个视角统计射线命中次数 \(\text{hit}(G)\)，最终得分 \(\text{score}(G) = \mathcal{W}(G) \cdot \text{hit}(G)\)
- 设计动机：直接剪高频不够——自然纹理也有合法高频。通过结合频率衰减度（区分攻击噪声的极端高频）和可见性（低分="很少被观测却有强高频行为"=典型攻击诱导），实现精准区分
2D 频谱正则化（图像空间约束）
- 功能：约束渲染图像的频域方向分布，抑制攻击引入的各向异性高频噪声
- 核心思路：对渲染图 \(\dot{V}\) 做 2D DFT → 用振幅阈值 \([\dot{\gamma}_{min}, \dot{\gamma}_{max}]\) 提取高频带 \(\mathcal{E}(u,v)\) → 将频率平面 \([-\pi,\pi)\) 离散化为 \(B=36\) 个角度箱 → 聚合各箱高频能量得概率分布 \(\mathcal{P}_b = \mathcal{E}_b / \sum_j \mathcal{E}_j\) → 计算归一化熵 \(\text{norm}(\mathcal{H}) = -\sum_b \mathcal{P}_b \log \mathcal{P}_b / \log B\) → 各向异性损失 \(\mathcal{L}_{ani} = 1 - \text{norm}(\mathcal{H})\)
- 设计动机：干净图像高频近似各向同性（\(\mathcal{H} \to \log B\)，损失→0），投毒图像高频集中在少数方向（\(\mathcal{H}\) 低，损失大）。3D 剪枝只在参数空间操作，受害模型仍在投毒视图上优化可能收敛到噪声伪影——2D 正则从图像空间补充约束

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{total} = (1-\lambda_0)\mathcal{L}_1 + \lambda_0\mathcal{L}_{\text{D-SSIM}} + \lambda(\mathcal{L}_{freq} + \mathcal{L}_{tv})\)，其中 \(\mathcal{L}_{freq} = \frac{1}{K}\sum_{k=1}^K \mathcal{L}_{ani}(\dot{V}_k^p)\)。超参：\(t=8, \alpha=2\)；剪枝率 NS \(\rho=3\%\)，TT \(\rho=4.5\%\)，MIP \(\rho=5\%\)；\(\lambda=4\)（NS/TT）或 5（MIP）；\(K^*=48, B=36\)。攻击默认 \(\epsilon=16/255\)。

实验关键数据¶

主实验——训练资源抑制（3 数据集 38 场景）¶

数据集	指标	干净	投毒	防御后	攻击抑制倍数
TT (21场景)	Max高斯(M)	1.751	2.889 (1.65×↑)	1.128	2.56×↓
NS (8场景)	Max高斯(M)	0.291	0.720 (2.47×↑)	0.273	2.64×↓
MIP (9场景)	Max高斯(M)	3.191	7.045 (2.21×↑)	1.876	3.76×↓
TT 平均	峰值显存(MB)	7408	11276	6614	1.70×↓
MIP 平均	峰值显存(MB)	12510	24445	11491	2.13×↓

极端场景与渲染质量¶

场景	指标	投毒	防御后	效果
MIP-bonsai	高斯数	6.139M	1.037M	5.92×↓
MIP-bonsai	PSNR	27.14	29.07	+1.93dB
MIP-garden	FPS	48	208	4.34×↑
NS-hotdog	显存	28124MB	7781MB	3.61×↓

消融实验¶

消融维度	关键发现
频率参考 \(t\)	\(t=8\) 最优；\(t \in [4,10]\) 范围内结果稳定
2D 正则超参	高度鲁棒：\(\dot{\gamma} \in [0.28,0.92] \to [0.40,0.85]\) PSNR 变动<0.2dB
攻击强度鲁棒性	\(\epsilon=8/255\) 到无穷全范围有效
黑盒泛化	攻击 Scaffold-GS，防御仍有效（MIP-bonsai 11.1M→2.0M，5.52×↓）
干净输入兼容	无攻击下也压缩高斯（MIP-bicycle 5.78M→1.34M，4.32×↓）且不损质量

关键发现¶

防御后 PSNR 反而提升——频率感知剪枝移除的正是噪声高斯，去噪提升了重建质量
方法在干净场景也有效，实质兼备安全防御和高效压缩双重功能
对 Scaffold-GS 等变体的黑盒迁移有效，说明频谱特征的普适性

亮点与洞察¶

频域防御视角的首创性：首次揭示投毒的频谱指纹（高频放大 + 方向各向异性），从频域而非空间域解决问题，理论根基扎实
数学推导优雅：高斯协方差 → 傅里叶变换 → 频率感知打分的推导链完整，\(\Sigma\) 全面决定频率特性而 \(\mu\) 不影响的结论干净漂亮
防御即压缩：方法在无攻击场景下也起到高效高斯压缩作用，同时不损渲染质量——安全性与效率的 bonus 效应
实验极其全面：3 个数据集 38 个场景 × 3 种设置 + 黑盒迁移 + 干净兼容 + 详细超参消融，可复现性高

局限与展望¶

核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过 2D 正则
仅针对 resource-targeting 攻击，未考虑 accuracy-targeting 攻击（如 StealthAttack）
剪枝率 \(\rho\) 按数据集手动设定（NS 3%/TT 4.5%/MIP 5%），未实现自适应调整
频率阈值 \(\dot{\gamma}_{min}/\dot{\gamma}_{max}\) 为固定值，未与场景复杂度自适应耦合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 频域防御 3DGS 攻击的视角全新，数学推导扎实
实验充分度: ⭐⭐⭐⭐⭐ 38 场景 × 3 设置 + 黑盒迁移 + 干净兼容 + 8 组消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，频域分析有深度
价值: ⭐⭐⭐⭐ 对 3DGS 安全部署有重要意义，且方法兼具实用压缩价值