跳转至

Harnessing Hyperbolic Geometry for Harmful Prompt Detection and Sanitization

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=G8HnUTlMpt
代码: github.com/HyPE-VLM/Hyperbolic-Prompt-Detection-and-Sanitization
领域: AI 安全 / VLM 内容安全 / 异常检测
关键词: 双曲几何, 有害提示检测, 提示净化, 单类异常检测, SVDD, Lorentz 模型

一句话总结

把有害提示检测重新定义为「在双曲空间里找离群点」的异常检测问题,用只学一个半径参数的双曲 SVDD(HyPE)把良性提示框成一个紧致区域,再配上基于归因的逐词净化模块(HyPS),在六个数据集和多种对抗攻击下都比现有分类器更准、更鲁棒、更可解释。

研究背景与动机

  • 领域现状:视觉-语言模型(VLM)靠共享嵌入空间对齐图文,但同样的能力也让它们容易被恶意提示诱导生成色情、暴力、仇恨内容。当前主流防线有两类——黑名单过滤和大规模分类器。
  • 现有痛点:黑名单靠改写/对抗优化轻松绕过;分类器把检测当成二分类,需要大量精心标注的有害数据,计算开销大,对 embedding 级攻击脆弱,而且决策不透明、难解释。更关键的是,现有 embedding 方法把嵌入空间当成普通的「计算底座」,完全没有利用它本身的几何结构。
  • 核心矛盾:既要轻量、鲁棒地拦住没见过的/被刻意混淆的有害提示,又要可解释、能在检测之外进一步「修复」提示而不破坏用户原意——单纯堆分类器解决不了。
  • 本文目标:提出一个轻量、可解释、抗对抗的框架,既能检测有害提示(HyPE),又能定向净化(HyPS),在保留语义的前提下中和有害意图。
  • 核心 idea几何先验——双曲空间天然适合表达层级/组合关系,良性提示会自然聚成紧致簇,有害提示因语义偏离被推向远处;于是只训练良性数据、把检测变成「离原点超出半径就是异常」的单类问题,再用归因方法定位「是哪些词触发了有害判定」来指导净化。

方法详解

整体框架

框架分检测和净化两段:用户提示先过一个冻结的双曲文本编码器(沿用 HySAC)投射到 Lorentz 双曲空间;HyPE 用一个只学半径 \(R^*\) 的双曲 SVDD 决策头判断提示是否落在良性区域内,落外即判为有害;被判有害的提示送进 HyPS,用 Layer Integrated Gradients 算出每个词对「有害判定」的归因,定位罪魁词并替换/删除,把净化后的提示再交给下游 T2I 生成或图像检索。

flowchart LR
    P[用户提示] --> E[冻结双曲文本编码器<br/>HySAC → Lorentz 空间]
    E --> H{HyPE<br/>双曲 SVDD<br/>d_H 与 R* 比较}
    H -->|良性 d≤R*| D[下游 VLM 任务<br/>T2I / 检索]
    H -->|有害 d>R*| S[HyPS 净化]
    S --> A[LIG 词级归因<br/>定位有害词]
    A --> R[替换/删除<br/>Thesaurus+LLM]
    R --> D

关键设计

1. HSVDD:把 SVDD 搬进双曲空间,只学一个半径,点题在于「单参数异常检测」。 经典 SVDD 在欧氏空间学一个把训练数据包住的超球,需要同时优化球心 \(c\) 和半径 \(R\);但双曲空间的距离是沿测地线定义的,欧氏范数那套不能直接搬。作者把 SVDD 扩展为 Hyperbolic SVDD,目标函数为 \(R^* = \arg\min_R \frac{1}{2}R^2 + \frac{1}{n\nu}\sum_{i=1}^{n}\max\{0,\, d_H(p_i,c_0)-R\}\),其中测地距离 \(d_H(x,y)=\frac{1}{\sqrt{K}}\,\text{arccosh}(-K\langle x,y\rangle_L)\) 用 Lorentz 内积算,球心固定在双曲面顶点 \(c_0=(1/\sqrt{K},0,\dots,0)\)。关键巧思是把球心钉死在原点、只学半径 \(R^*\) 这一个参数:良性提示在双曲空间本就向顶点聚拢,所以无需再学球心,模型极度轻量。超参 \(\nu\in(0,1]\) 平衡「学到的体积」和「允许多少训练点越界」,论文取 \(\nu=0.0325\)

2. 最简决策规则:测地距离 vs 半径的一刀切。 训练完成后,检测退化成一个极简判据——给定提示 \(p\) 的双曲嵌入 \(e^H_p\)\(\text{HyPE}(p)=0\)(安全)当 \(d_H(e^H_p,c_0)\le R^*\),否则为 \(1\)(有害)。这意味着推理时不需要任何分类器前向,只算一次测地距离再比大小,既快又天然抗 embedding 级攻击——因为攻击要绕过它必须把嵌入真正搬进良性区域,而不是骗过一个学出来的决策面。

3. HyPS:归因驱动的可解释净化,点题在于「先解释、再定向修词」。 检测之外,HyPS 用后验解释技术给有害判定做归因:\(\Phi(\tau(p),\text{HyPE})=(a_1,\dots,a_d)\),每个 \(a_i\) 是词元 \(p_i\) 对决策的影响。作者用 Layer Integrated Gradients 作用在文本编码器第一层的词元嵌入上,并把子词级分数按词聚合(一个词被切成多个子词就把分数相加)得到可读的词级重要度。这一步一举两得:既定位了该改哪些词,又充当 sanity check,确认模型不是靠 spurious correlation 乱判。

4. 三档递进的净化策略,点题在于「语义保留与中和强度的权衡」。 锁定罪魁词后,HyPS 提供三种力度递增的处理:(a) Word Removal 直接删除最有影响的词,中和最彻底但最伤连贯性;(b) Thesaurus + Word Removal 先用 Merriam 词典 API 找反义词替换(多个候选时选 CLIP 相似度最高的),找不到才删,语义损失更小;(c) Thesaurus + LLM 在前者基础上,没合适反义词时让 Qwen3-14B 生成安全替换词而非直接删——把 "naked" 换成 "clothed"、把没有反义词的 "masturbating" 换成 "sitting",最大化语义保留。

实验关键数据

主实验:有害提示检测(F1)

在 6 个数据集对比 5 个 SOTA 检测器(仅用 ViSU 良性样本训练):

方法 ViSU F1 MMA F1 SneakyPrompt F1 COCO Acc I2P* Acc NSFW56k Acc adv-MMA F1 adv-ViSU F1
NSFW-Classifier 0.75 0.75 0.78 0.61 0.65 0.95 0.76 0.64
DiffGuard 0.31 0.61 0.60 0.99 0.28 0.89 0.93 0.65
Detoxify 0.40 0.92 0.44 0.99 0.03 0.34 0.70 0.13
Latent Guard 0.63 0.88 0.57 0.84 0.35 0.52 0.86 0.27
GuardT2I 0.59 0.72 0.66 0.77 0.26 0.09 0.19 0.53
HyPE(本文) 0.98 0.95 0.78 0.99 0.66 0.99 0.96 0.80

HyPE 在几乎所有数据集都拿到最高 F1,且 precision/recall 均衡(ViSU 0.98/0.98),而对手常呈极端行为:Detoxify ViSU precision 0.98 但 recall 仅 0.26。对抗场景下(adv-MMA 0.96、adv-ViSU 0.80)优势尤其明显——很多基线在对抗下直接崩盘(GuardT2I adv-MMA 仅 0.19)。

消融/净化效果

净化策略 中和率(重判为良性) SBERT 相似度 CLIP 相似度
Word Removal ~85% 较低 较低
Thesaurus + Word Removal 中等 中等 中等
Thesaurus + LLM ~65% 0.82 0.87

权衡清晰:Word Removal 中和最彻底但语义损失大;Thesaurus+LLM 中和率虽最低,但语义保留最好。

关键发现

  • 下游 IR 任务:原始有害提示 R@1=39.49 但 S@1=0.0(检索到的全是不安全图);经任一净化后 S@1≈49、S@5≈44,安全性大幅提升。
  • T2I 任务:用净化提示经 SD-XL 生成的图去掉了有害内容却保留原始语境;Thesaurus+LLM 与有害描述的 CLIPScore 最低,说明它最有效地降低了与有害内容的对齐。
  • 超参 \(\nu\):取 0.0325 时检测性能最佳(附录消融)。
  • 白盒自适应攻击:作者还自设了一个完全知道编码器与决策边界的最强攻击(式 5,在保持与目标语义相似的同时把候选提示往良性区域里推),HyPE 仍能维持检测性能。

亮点与洞察

  • 范式转换:把「有害检测」从二分类重构为「双曲空间的单类异常检测」,只用良性数据训练、只学一个半径参数,极致轻量却泛化到没见过的有害类型。
  • 几何即防御:决策建立在测地距离这种内禀几何量上,攻击要绕过必须真正把嵌入搬进良性区域,天然抵抗 embedding 级扰动——这是相比黑名单/分类器最本质的鲁棒性来源。
  • 检测与净化闭环 + 可解释性:归因不仅指导修词,还顺带验证模型没靠伪相关下判断,把「可解释」从锦上添花变成了流程的功能部件。
  • 即插即用:HyPE/HyPS 作为前置模块挂在 SD 或检索管线前,无需改下游模型。

局限与展望

  • HyPE 强依赖预训练好的 HySAC 双曲编码器,编码器本身的语义/安全先验决定了上限,迁移到其它编码器需重新验证。
  • 净化质量受词典 API 覆盖和 LLM(Qwen3-14B)替换能力制约,反义词不存在时仍可能改变语义或引入新偏差。
  • 评测集中在 NSFW/暴力等显性有害类别,对隐喻式、跨语言、组合式有害意图的覆盖有待考察。
  • 自适应攻击仅在白盒下评估了一种构造,更强的端到端联合攻击(同时绕检测+净化)尚未充分压力测试。
  • 单一全局半径假设良性提示在双曲空间近似球状簇,多模态/多主题良性分布可能需要更灵活的边界。

相关工作与启发

  • 双曲表示学习:承接 Nickel & Kiela 的 Lorentz 模型、Ganea 等双曲网络,以及把 CLIP 微调进双曲空间的工作;尤其直接复用 Poppi 等的 HySAC(用双曲蕴含损失建模安全/不安全图文层级)作为编码器底座。
  • 有害提示检测/过滤:对比 LatentGuard、GuardT2I、Detoxify、DiffGuard 等分类器/embedding 方法,核心区别是首次显式利用嵌入空间的几何结构而非把它当黑箱。
  • 异常检测:把 Tax & Duin 的 SVDD 思路引入双曲流形,给「单类安全建模」提供了新工具,可启发其它「只有正常样本」的安全场景(如越狱检测、分布外检测)。
  • 可解释归因:用 Layer Integrated Gradients 做词级溯因,把解释从「事后审视」变成「指导干预」的接口,对提示净化、对抗样本分析都有借鉴价值。

评分

  • 新颖性: ⭐⭐⭐⭐ — 把双曲几何 + 单类 SVDD + 归因净化串成一个闭环,「只学一个半径」的极简检测器是真正有想象力的重构,而非现有方法的微调。
  • 实验充分度: ⭐⭐⭐⭐ — 6 数据集、5 个 SOTA、两类对抗 + 自设白盒自适应攻击、两个下游任务,覆盖面扎实;隐喻/跨语言等长尾有害类型略欠。
  • 写作质量: ⭐⭐⭐⭐ — 动机—方法—实验逻辑清晰,几何直觉(图 2 双曲面)和净化示例(图 3/5)讲得直观易懂。
  • 价值: ⭐⭐⭐⭐ — 轻量、可解释、抗对抗的即插即用 VLM 安全模块,对内容安全部署有直接实用价值,几何防御思路也具启发性。