跳转至

Certified Robustness under Heterogeneous Perturbations via Hybrid Randomized Smoothing

会议: ICML 2026
arXiv: 2605.12876
代码: 论文未明确公开
领域: 多模态 VLM / 对抗鲁棒 / Certified Robustness
关键词: Randomized Smoothing、Neyman–Pearson、多模态安全过滤、混合扰动认证、prompt injection

一句话总结

本文把随机平滑(RS)从"只支持单一连续或离散输入"扩展到"离散 token + 连续图像"的混合扰动场景,通过一个混合 Neyman–Pearson 分析得到一个一维、连续、可逆的似然比 CDF,从而把原本组合爆炸的离散 knapsack 问题变成可解的根求解问题,并在 LLaVA-Guard 多模态安全过滤上给出首个针对"图文联合不安全"的 model-agnostic 证书。

研究背景与动机

领域现状:Randomized Smoothing 是当前最主流的 model-agnostic 鲁棒性认证方法:连续侧(Cohen 2019)有 Gaussian 的闭式 \(\ell_2\) 证书;离散侧(Ye 2020、Chen 2025)需要 fractional knapsack 求最坏似然比;二者各自成体系。

现有痛点:现代多模态系统(VLM、agent、机器人安全)的攻击是跨模态的——单看图安全、单看文本也安全,但图文组合却不安全(典型如 Hateful Memes、prompt injection)。把单模态证书简单拼起来在数学上是错的,没有一个统一的联合似然比框架。

核心矛盾:纯离散似然比是原子的(atomic),导致 NP 决策规则不可逆,无法给出闭式半径;纯 Gaussian NP 又只支持连续输入;两者乘起来的联合 NP 最优拒绝域本质上不是"两个单模态阈值的笛卡尔积"(Prop. 4.1 反例直接证伪)。

本文目标:(i) 给出离散 + 连续混合扰动下严格的 NP 闭式证书;(ii) 提供 monotone、保守的工程化算法;(iii) 在交互级不安全的多模态安全过滤任务上验证证书的实用性。

切入角度:观察到只要联合似然比 \(\gamma(z_1,z_2)=\gamma_1(z_1)\cdot\gamma_2(z_2)\) 里包含一个 Gaussian 因子,\(\log\gamma\) 在连续坐标上是严格单调的——这相当于"连续噪声把离散似然比的原子结构抹平",使联合 NP 问题塌缩到一维。

核心 idea:用连续 Gaussian 平滑作为"正则化器"把离散 knapsack 问题熔成连续的、可逆的一维 CDF \(F(t;r)\),再通过一维 bisection 求解 NP 阈值 \(t^\star(r)\),并对离散攻击空间取最坏聚合。

方法详解

整体框架

输入 \(x=(x_1,x_2)\)(文本 + 图像),用两个独立平滑核:文本 \(Z_1\sim p_1(\cdot\mid x_1)\)(uniform/absorbing 替换),图像 \(Z_2\sim\mathcal{N}(x_2,\sigma^2 I)\)。基分类器 \(f\) 通过 \(g(x)=\mathbb{E}[f(Z_1,Z_2)]\) 平滑成 smoothed classifier。给定联合扰动预算 \((d,\epsilon)\)\(\ell_0\) + \(\ell_2\)),定义混合 worst-case 概率 \(p_{\mathrm{adv}}(d,\epsilon)\)。整体算法:① Monte Carlo 估计干净 \(p_A\) 的 Clopper-Pearson 下界 → ② 利用 kernel symmetry 枚举/分析最坏离散对手 → ③ 对每个候选 \(x_{1,\mathrm{adv}}\) 求一维 NP 阈值 \(t^\star\) → ④ 算 \(V_k\) → ⑤ 取最小作为最终保守认证值。

关键设计

  1. 联合似然比的一维 CDF \(F(t;r)\)

    • 功能:把"离散原子似然比 + 连续 Gaussian 似然比"的混合 NP 容量约束写成单变量、连续、严格单增的函数。
    • 核心思路:定义 \(F(t;r)=\sum_{z_1} p_1(z_1\mid x_1)\,\Phi\!\big(\tfrac{r^2/2+\sigma^2(\log t-\log\gamma_1(z_1))}{\sigma r}\big)\),其中 \(\Phi\) 是标准 Gaussian CDF,\(r\) 是连续扰动半径。利用 \(\log\gamma(z_1,z_2)=\log\gamma_1(z_1)+rz_2-r^2/2\) 这一可加分解,对 \(z_2\) 取 Gaussian 期望就得到上式;对每个 \(r>0\) 存在唯一 \(t^\star(r)\) 使 \(F(t^\star;r)=p_A\)(NP 容量约束)。
    • 设计动机:纯离散 NP 因似然比原子化无法用阈值规则刚好匹配 \(p_A\)(需要 fractional 分配),引入连续维度后 Gaussian 把 \(\log t\) 拉成连续标量,原本"组合搜索 + fractional knapsack"塌缩成"对 \(u=\log t\) 做 bisection",可在 CPU 上 < 1 秒解出。
  2. 闭式最坏概率 \(V(x_{1,\mathrm{adv}};r)\)\(r=\epsilon\) 单调性

    • 功能:在给定离散对手 \(x_{1,\mathrm{adv}}\) 与连续半径 \(r\) 下直接算出 worst-case smoothed value。
    • 核心思路:\(V(x_{1,\mathrm{adv}};r)=\sum_{z_1} p_1(z_1\mid x_{1,\mathrm{adv}})\,\Phi\!\big(\tfrac{r^2/2+\sigma^2(\log t^\star(r)-\log\gamma_1(z_1))}{\sigma r}-\tfrac{r}{\sigma}\big)\),并证明 \(V\) 关于 \(r\) 单调不增,所以连续 worst-case 自动取在 \(r=\epsilon\);最终 \(p_{\mathrm{adv}}(d,\epsilon)=\min_{D_1(x_1,x_{1,\mathrm{adv}})\le d}V(x_{1,\mathrm{adv}};\epsilon)\)
    • 设计动机:把"对所有 \((x_{1,\mathrm{adv}},x_{2,\mathrm{adv}})\) 取最小"的双层 inf 用单调性折叠成"只对离散攻击枚举 + 解一维方程",避免对 \(\mathbb{R}^D\) 连续空间做实际搜索;同时单调性给出 monotone in \(d\) 的认证不变量,方便制图。
  3. 结构对称的离散 kernel + 一维根求解的保守化实现

    • 功能:让"对所有离散对手取最坏"在常用 text smoothing(uniform/absorbing)下不需要组合枚举,整套算法只比图像-only RS 多约 3 倍时间。
    • 核心思路:suffix attack 或 \(\ell_0\) attack 下,uniform/absorbing kernel 的 \(p_1(\cdot\mid x_{1,\mathrm{adv}})\) 只依赖编辑预算 \(d\) 而非具体 token 身份(kernel symmetry),可用一个 canonical adversarial input 代表整个攻击集合;NP 阈值用 monotone bisection 在 \(u=\log t\) 上解;clean \(p_A\) 用单边 Clopper-Pearson 取保守下界;浮点误差被 Appendix A.7 的数值精度策略压住。
    • 设计动机:原始 NP 公式涉及 \(O(|\mathcal{V}|^d)\) 离散组合空间,是这个方法能否实用的关键瓶颈;作者主动选用 uniform kernel 而非 absorbing kernel(后者在 suffix attack 下退化为两点分布、\(\beta^d\) 指数衰减),保证证书既保守又非平凡。

损失函数 / 训练策略

这是一个纯认证算法,不训练 base classifier,直接套在已有的 LLaVA-Guard、linear SVM 等 frozen 模型上。超参 \(\alpha=0.01\)(CP 风险)、\(n=10^4\)(MC 样本数)、\(\beta=0.25\)(token 替换概率)、\(\sigma\in\{0.5,1.0\}\)(Gaussian 方差),认证阈值 \(\tau=4.6\times 10^{-5}\) 沿用 Chen 2025a。

实验关键数据

主实验

Method Image radius \(\bar{r}\) Text budget \(\bar{d}\)
Image-only RS 3.99 0
Text-only RS 0 3.26
Hybrid RS (ours) 3.76(at \(d=1\) 3.07

Hybrid 证书在文本预算 \(d=1\) 时图像半径只比纯图像证书低 5.8%,文本预算只比纯文本证书低 5.8%,但同时给出图文联合保证——而单模态证书在 interaction-only 数据集上是 unsound 的。MM-SafetyBench 外部验证(1680 样本,7.5% 通过 interaction-only filter)上拿到 \(\bar{d}=3.62\) / \(\bar{r}=3.37\)

消融实验

\(\beta\) (corruption rate) Certified examples (%) Mean \(d_{\max}\) Mean \(r^\star(d_{\max})\)
0.1 82.35 2.29 4.99
0.25 70.59 3.07 3.21
0.5 58.82 4.00 3.24
1.0 41.18 8.00 4.57
Setting Time/datapoint 效果
Image-only RS ≈156s 单图像半径
Hybrid RS, default ≈500s 完整 \((d,\epsilon)\) frontier
Hybrid RS + FlashAttention/batching ≈0.7× 同证书
One-shot suffix / \(\ell_0\), \(d_{\max}=8\) ≈44s 半径稍降 (2.07→1.55)

关键发现

  • \(\beta\) 控制 coverage-budget 折中:小 \(\beta\) 认证更多样本但只到小 \(d\),大 \(\beta\) 拓宽文本预算但覆盖率下降,\(\beta=0.25\) 是默认平衡点。
  • 增大 Gaussian 方差 \(\sigma\)(0.5→1.0)会牺牲小 \(\epsilon\) 下的认证精度,但能把可认证的图像半径上限拉大;对 \(d>3\) 的高文本预算 \(\sigma=1.0\) 几乎认证失败。
  • 自适应攻击实验(Sec 5.3)显示真实经验攻击成功率与理论 \(p_{\mathrm{adv}}\) bound 留有差距,证书并不空洞;MMCert-style subsampling 在 interaction-only 数据上零认证,进一步说明任务对联合 NP 证书的刚需。

亮点与洞察

  • "连续平滑正则化离散 knapsack"是核心 insight:Gaussian 噪声不仅给 \(\ell_2\) 半径,还把离散似然比的原子 ties 抹平,让原本不可逆的 NP 决策规则变成一维可逆 CDF——\(\sigma\) 在这里身兼"连续半径控制器 + 离散正则化器"两个角色。
  • 联合证书严格泛化两个特例\(x_{1,\mathrm{adv}}=x_1\) 时退化为经典 Cohen 高斯证书;\(\sigma\to\infty\) 时退化为 fractional knapsack 离散证书(Appendix A.3);这种"无损泛化"在多模态认证文献里很罕见。
  • interaction-only evaluation 设计很到位:作者在 Hateful Memes 上构造"图安全 + 文本安全但组合不安全"的 400 样本子集,把"单模态证书 unsound"这一定性论断变成了可测的实验事实——单 MMCert 在该子集零认证给出了强对照。

局限与展望

  • 只支持 binary(safe/unsafe)输出和 \(\ell_2\) + \(\ell_0\) 两种几何,对多分类、\(\ell_\infty\) 或语义级扰动还需重做 NP 分析。
  • 文本侧用 uniform kernel(避开 absorbing 的指数退化),但 uniform 替换会显著破坏语义,对长 prompt 的 clean accuracy 损失较大(Appendix A.9 Table 5)。
  • 离散 budget 较大(\(d\ge 5\)\(\sigma=1.0\) 下)时几乎无认证,遇到真实 long-suffix prompt injection 仍乏力;\(\bar{d}_{\mathrm{hybrid}}=0.33\)\(\ell_0\) 攻击下大幅低于 \(\bar{d}_{\mathrm{txt}}=1.02\),提示混合证书在 \(\ell_0\) 场景下偏保守。
  • 单认证耗时 500s(\(10^4\) MC),离线可接受但难以实时部署;作者展望 confidence sequence early stopping + input-adaptive sampling。

相关工作与启发

  • vs Cohen 2019 / Salman 2019 (Gaussian RS):本文严格泛化其连续证书,当无离散扰动时完全复现 \(\Phi^{-1}(p_A)-\Phi^{-1}(\tau)\) 公式。
  • vs Chen 2025a (fractional knapsack for LLM safety):他们只解纯离散侧 NP 通过 0-1/fractional knapsack solver;本文证明"加上 Gaussian 后 knapsack 塌成一维方程",把组合复杂度降到 \(O(\log\epsilon^{-1})\)
  • vs MMCert (Wang 2024):MMCert 用独立 subsampling 各模态再聚合,本质是 \(\ell_0\)-跨模态阈值;其在 interaction-only 数据上认证为 0,反衬本文 joint NP 框架的不可替代性。
  • vs COMMIT / CertTA:这些 ad-hoc 多传感器/网络认证不基于经典 NP 分析;本文给出 first principled joint Neyman-Pearson certificate for heterogeneous discrete-continuous threat。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次给出离散 + 连续混合扰动的闭式联合 NP 证书,把组合 knapsack 塌成一维方程的洞察非常漂亮。
  • 实验充分度: ⭐⭐⭐⭐ 涵盖表格数据 + 多模态安全 + 经验攻击 + 外部 benchmark + 多 \(\beta/\sigma\) 消融,可改进的是更大 \(d\) 和更多 base model 的覆盖。
  • 写作质量: ⭐⭐⭐⭐ 定理、命题、反例严谨且自洽,明确点出每个 limitation(absorbing degeneracy、numerical safety),结构清晰。
  • 价值: ⭐⭐⭐⭐ 给多模态安全过滤、prompt injection 提供了第一个理论严格的 model-agnostic 证书,对高 stakes 部署(医疗 VLM、机器人)有直接意义。