跳转至

Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting

会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化

一句话总结

提出首个针对 3DGS 资源瞄准攻击的频域防御框架——3D 频率滤波器选择性剪除高频异常高斯 + 2D 角度各向异性正则惩罚方向集中的高频噪声,将投毒过增长最多抑制 5.92×、峰值显存降 3.66×、渲染速度提升 4.34×,且 PSNR 反而提升 +1.93dB。

研究背景与动机

领域现状:3DGS 通过自适应致密化动态增减高斯基元匹配场景复杂度,已成为实时 3D 重建的主流范式。Poison-Splat 攻击揭示了新威胁面:通过向训练图像注入微小扰动(\(\epsilon\)-ball 约束),构造 max-min 双层优化问题诱导 3DGS 过度致密化,造成显存爆炸和渲染减速。

现有痛点:(1) 图像平滑(image smoothing)破坏真实精细结构;(2) 统一高斯阈值(UT)无法跨场景泛化,对某些场景过严对其他场景不足;(3) 效率导向剪枝(LightGaussian/PUP/MaskGaussian)设计目标是压缩而非鲁棒性,被投毒监督误导后无法区分对抗高斯与真实细节。

核心矛盾:攻击注入的扰动在像素空间视觉上难以察觉,但在频域呈现两个特征性指纹——异常高频放大 + 方向各向异性。空间域防御无法捕捉这些隐蔽的频谱畸变,导致优化器将噪声模式误读为精细结构,触发非稳定的高斯过增长。

本文目标 从频域视角设计防御机制,在不损害真实场景结构的前提下选择性抑制攻击诱导的高斯过增长。

切入角度:将高斯协方差矩阵与其频率响应建立数学联系——协方差最小特征值越小,高频衰减越弱,高频响应越强。这提供了区分攻击噪声和真实细节的理论基础。

核心 idea:攻击的根源在于频谱行为而非空间结构——3D 频率滤波器选择性剪除异常高频高斯 + 2D 各向异性正则约束渲染图像的方向高频分布。

方法详解

整体框架

在 3DGS 训练循环中联合操作两个域:每迭代渲染图像 → 若达到剪枝间隔(每 \(T_{prune}=100\) 步)执行 3D 频率感知剪枝 → 计算 2D 各向异性损失和 TV 损失 → 联合优化更新高斯集合。输入为投毒图像 \(\mathcal{V}^p\),输出为防御后的高斯集合 \(\mathcal{G}\)

关键设计

  1. 3D 频率滤波器(参数空间剪枝)

    • 功能:根据高斯的频域特性选择性剪除攻击诱导的冗余高斯
    • 核心思路:3D 高斯 \(G\) 的傅里叶变换振幅为 \(\gamma(t) = (2\pi)^{3/2}|\Sigma|^{1/2}\exp(-2\pi^2 t^\top \Sigma t)\),协方差 \(\Sigma\) 完全决定频率特性(位置 \(\mu\) 只影响相位不影响频谱分布)。最小特征值 \(\sigma_{min}\) 越小 → 高频衰减越弱 → 高频响应越强。定义高频衰减分数 \(\mathcal{S}(G) = \exp(-2\pi^2 t^2 \sigma_{min}^2)\),映射为重要性权重 \(\mathcal{W}(G) = (1-\mathcal{S}(G))^\alpha\)——\(\mathcal{S}\) 过大(强高频响应)的高斯被赋予低权重。结合可见性:随机采样 \(K^*\) 个视角统计射线命中次数 \(\text{hit}(G)\),最终得分 \(\text{score}(G) = \mathcal{W}(G) \cdot \text{hit}(G)\)
    • 设计动机:直接剪高频不够——自然纹理也有合法高频。通过结合频率衰减度(区分攻击噪声的极端高频)和可见性(低分="很少被观测却有强高频行为"=典型攻击诱导),实现精准区分
  2. 2D 频谱正则化(图像空间约束)

    • 功能:约束渲染图像的频域方向分布,抑制攻击引入的各向异性高频噪声
    • 核心思路:对渲染图 \(\dot{V}\) 做 2D DFT → 用振幅阈值 \([\dot{\gamma}_{min}, \dot{\gamma}_{max}]\) 提取高频带 \(\mathcal{E}(u,v)\) → 将频率平面 \([-\pi,\pi)\) 离散化为 \(B=36\) 个角度箱 → 聚合各箱高频能量得概率分布 \(\mathcal{P}_b = \mathcal{E}_b / \sum_j \mathcal{E}_j\) → 计算归一化熵 \(\text{norm}(\mathcal{H}) = -\sum_b \mathcal{P}_b \log \mathcal{P}_b / \log B\) → 各向异性损失 \(\mathcal{L}_{ani} = 1 - \text{norm}(\mathcal{H})\)
    • 设计动机:干净图像高频近似各向同性(\(\mathcal{H} \to \log B\),损失→0),投毒图像高频集中在少数方向(\(\mathcal{H}\) 低,损失大)。3D 剪枝只在参数空间操作,受害模型仍在投毒视图上优化可能收敛到噪声伪影——2D 正则从图像空间补充约束

损失函数 / 训练策略

总损失:\(\mathcal{L}_{total} = (1-\lambda_0)\mathcal{L}_1 + \lambda_0\mathcal{L}_{\text{D-SSIM}} + \lambda(\mathcal{L}_{freq} + \mathcal{L}_{tv})\),其中 \(\mathcal{L}_{freq} = \frac{1}{K}\sum_{k=1}^K \mathcal{L}_{ani}(\dot{V}_k^p)\)。超参:\(t=8, \alpha=2\);剪枝率 NS \(\rho=3\%\),TT \(\rho=4.5\%\),MIP \(\rho=5\%\)\(\lambda=4\)(NS/TT)或 5(MIP);\(K^*=48, B=36\)。攻击默认 \(\epsilon=16/255\)

实验关键数据

主实验——训练资源抑制(3 数据集 38 场景)

数据集 指标 干净 投毒 防御后 攻击抑制倍数
TT (21场景) Max高斯(M) 1.751 2.889 (1.65×↑) 1.128 2.56×↓
NS (8场景) Max高斯(M) 0.291 0.720 (2.47×↑) 0.273 2.64×↓
MIP (9场景) Max高斯(M) 3.191 7.045 (2.21×↑) 1.876 3.76×↓
TT 平均 峰值显存(MB) 7408 11276 6614 1.70×↓
MIP 平均 峰值显存(MB) 12510 24445 11491 2.13×↓

极端场景与渲染质量

场景 指标 投毒 防御后 效果
MIP-bonsai 高斯数 6.139M 1.037M 5.92×↓
MIP-bonsai PSNR 27.14 29.07 +1.93dB
MIP-garden FPS 48 208 4.34×↑
NS-hotdog 显存 28124MB 7781MB 3.61×↓

消融实验

消融维度 关键发现
频率参考 \(t\) \(t=8\) 最优;\(t \in [4,10]\) 范围内结果稳定
2D 正则超参 高度鲁棒:\(\dot{\gamma} \in [0.28,0.92] \to [0.40,0.85]\) PSNR 变动<0.2dB
攻击强度鲁棒性 \(\epsilon=8/255\) 到无穷全范围有效
黑盒泛化 攻击 Scaffold-GS,防御仍有效(MIP-bonsai 11.1M→2.0M,5.52×↓)
干净输入兼容 无攻击下也压缩高斯(MIP-bicycle 5.78M→1.34M,4.32×↓)且不损质量

关键发现

  • 防御后 PSNR 反而提升——频率感知剪枝移除的正是噪声高斯,去噪提升了重建质量
  • 方法在干净场景也有效,实质兼备安全防御和高效压缩双重功能
  • 对 Scaffold-GS 等变体的黑盒迁移有效,说明频谱特征的普适性

亮点与洞察

  • 频域防御视角的首创性:首次揭示投毒的频谱指纹(高频放大 + 方向各向异性),从频域而非空间域解决问题,理论根基扎实
  • 数学推导优雅:高斯协方差 → 傅里叶变换 → 频率感知打分的推导链完整,\(\Sigma\) 全面决定频率特性而 \(\mu\) 不影响的结论干净漂亮
  • 防御即压缩:方法在无攻击场景下也起到高效高斯压缩作用,同时不损渲染质量——安全性与效率的 bonus 效应
  • 实验极其全面:3 个数据集 38 个场景 × 3 种设置 + 黑盒迁移 + 干净兼容 + 详细超参消融,可复现性高

局限与展望

  • 核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过 2D 正则
  • 仅针对 resource-targeting 攻击,未考虑 accuracy-targeting 攻击(如 StealthAttack)
  • 剪枝率 \(\rho\) 按数据集手动设定(NS 3%/TT 4.5%/MIP 5%),未实现自适应调整
  • 频率阈值 \(\dot{\gamma}_{min}/\dot{\gamma}_{max}\) 为固定值,未与场景复杂度自适应耦合

相关工作与启发

  • vs Poison-Splat 原文防御:原文提出的图像平滑和统一阈值是 naive baseline,本文首次提供有理论支撑的防御方案
  • vs LightGaussian/PUP 效率方法:这些方法在投毒场景失效(无法区分对抗高斯和真实细节),但本文方法在干净场景反而表现不比它们差
  • 频域分析思路可推广至其他基于高斯的 3D 表示的安全性研究,如 4DGS、GS-SLAM

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 频域防御 3DGS 攻击的视角全新,数学推导扎实
  • 实验充分度: ⭐⭐⭐⭐⭐ 38 场景 × 3 设置 + 黑盒迁移 + 干净兼容 + 8 组消融
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,频域分析有深度
  • 价值: ⭐⭐⭐⭐ 对 3DGS 安全部署有重要意义,且方法兼具实用压缩价值