Black-Box Detection of LLM-Generated Text Using Generalized Jensen-Shannon Divergence¶
会议: ICML 2026
arXiv: 2510.07500
代码: 暂无公开
领域: AIGC 检测 / NLP / 假设检验
关键词: 黑盒 AI 文本检测, surprisal 离散化, Markov 状态转移, 广义 JS 散度
一句话总结¶
SurpMark 把"AI 文本检测"重构成似然无关假设检验:用代理 LM 算 token surprisal 后 k-means 离散成 k 个状态,估计一阶 Markov 转移矩阵,再用广义 Jensen-Shannon 散度(GJS)和预先建好的"人写 / 机写"参考转移矩阵比较,单次前向就给出黑盒、无需重训、无需 per-instance 重采样的判别分数。
研究背景与动机¶
领域现状:AI 文本检测主要两条路——(1) 分类器派(GPTZero、OpenAI Detector)需要为每个领域 / 生成器训专门模型,标注成本高且换域就失效;(2) 统计派又分两支:global statistic(likelihood、log-rank、entropy)受校准 mismatch / 长度 / 领域漂移影响大;distributional statistic(DetectGPT、DNA-GPT、Fast-DetectGPT)需要对每条测试文本做扰动 / 采样 / 续写以重建邻域分布,计算量随调用次数线性爆炸。
现有痛点:黑盒场景下,scoring model(proxy LM)和真正生成模型不一致会让 likelihood 类指标系统性偏移;perturbation 类方法又因为依赖 per-input 重新生成,根本无法部署到高吞吐 / 资源受限场景。两条路都不能同时做到"无训练 + 单次推理 + 跨域稳健"。
核心矛盾:likelihood 这个 absolute 量在 black-box 下不可信,per-instance 重采样又太贵;但人/机文本在 token 动态层面有本质差异——LLM 倾向于在一个高 surprisal token 之后立刻"恢复"到高度可预测的 token(perplexity 最小化的副作用),这种"recovery pattern"是 stable 且 calibration-robust 的。
本文目标:(1) 设计一个不需要训练分类器、不需要 per-instance 重采样、能跨域跨生成器迁移的黑盒检测器;(2) 在统计上给出 bin 数 \(k\) 的最优 scaling、解释为什么 GJS 是合适的统计量。
切入角度:把任务看作两参考的 likelihood-free 假设检验——人写文本和机器文本都有公开 corpus,可以一次性离线建参考;对每条测试文本只需做"摘要"+"和两个参考比距离",避开了任何 absolute likelihood 的依赖。
核心 idea:把连续 surprisal 离散成 k 个可解释状态("Predictable / Slightly Surprising / Significantly Surprising / Highly Surprising"),把文本压缩成一阶 Markov 状态转移矩阵,然后用 \(\Delta\text{GJS}_n = \text{GJS}(\hat M_P, \hat M_T, \alpha) - \text{GJS}(\hat M_Q, \hat M_T, \alpha)\) 作为打分,证明它等价于两假设下的 normalized log-likelihood ratio。
方法详解¶
整体框架¶
离线阶段:用 proxy LM \(F_\theta\) 在大规模人写 corpus 上算 surprisal,k-means 学到一个共享量化器 \(q_k\) 把连续 surprisal 映射到 \(\{1,\dots,k\}\);再分别对人写 corpus 和机器 corpus 算 surprisal → 离散 → 统计转移频率,得到两个参考矩阵 \(\hat M_Q\)(人)和 \(\hat M_P\)(机)。
在线阶段:测试文本 \(\mathbf{t}\) 同样经 \(F_\theta\) 算 surprisal、用同一个 \(q_k\) 离散、统计转移矩阵 \(\hat M_T\),然后算 \(\Delta\text{GJS}_n\) 与阈值 \(\tau\) 比较即得分类结果。
整套设计不需要训练任何分类器,proxy LM 完全黑盒(只需查 token 概率),测试时仅一次前向。
关键设计¶
-
Surprisal 离散化 + 一阶 Markov 摘要:
- 功能:把每个文本压缩成"动态结构"摘要,让检测决策基于相对结构而非 absolute likelihood。
- 核心思路:先对 token 序列 \(\mathbf{x}=(x_1,\dots,x_n)\) 算 surprisal \(s_t=-\log p_\theta(x_t \mid x_{1:t-1})\);用 k-means 聚类得到 k 个状态(k=4 时对应"可预测 / 轻微意外 / 显著意外 / 高度意外"),把连续 surprisal 序列转成 discrete state 序列 \(\{a_t\}\);再统计一阶转移矩阵 \(\hat M(j\mid i)=\frac{\sum_{t}\mathbf{1}\{a_t=i, a_{t+1}=j\}}{\sum_t \mathbf{1}\{a_t=i\}}\)。
- 设计动机:LLM 生成时的 "recovery phenomenon"——一个 highly surprising token 之后立刻回到 predictable state——在转移矩阵上是非常显著的 signature;而 absolute likelihood 在 proxy mismatch 下不稳,转移矩阵作为相对结构对齐校准漂移有天然鲁棒性。Markov 阶数实验显示更高阶会因为状态空间爆炸(\(k^{n+1}\) 个状态)+ 数据稀疏反而退化,一阶就是 sweet spot。
-
基于两参考的 GJS 假设检验:
- 功能:把检测重构成 likelihood-free hypothesis test,给出可解释的 LLR-等价统计量。
- 核心思路:广义 JS 散度定义为 \(\text{GJS}(M_A, M_B, \alpha) = \frac{\alpha}{1+\alpha}D_{\text{KL}}(M_A, M_\alpha) + \frac{1}{1+\alpha}D_{\text{KL}}(M_B, M_\alpha)\),其中 \(M_\alpha = \frac{\alpha}{1+\alpha}M_A + \frac{1}{1+\alpha}M_B\),\(\alpha\) 是参考/测试长度比。检测分数 \(\Delta\text{GJS}_n = \text{GJS}(\hat M_P, \hat M_T, \alpha) - \text{GJS}(\hat M_Q, \hat M_T, \alpha)\),阈值 \(\tau\) 判别:\(\Delta\text{GJS}_n \leq \tau\) 判机器写、否则判人写。Proposition 3.4 证明 \(\Delta\text{GJS}_n\) 严格等于 generalized log-likelihood ratio \(\Lambda_{n,N}\),是 Gutman's universal test 从单参考到双参考的自然推广。
- 设计动机:传统 LFHT 只和单个参考比,丢掉了"另一个 hypothesis"携带的判别信息;双参考 GJS 提供 two-sided 比较,判别力更强;且 GJS = LLR 这个等价性给了统计学最优性保证。
-
离散化–估计 tradeoff 与 bin 数 scaling 定律:
- 功能:给出 \(k\) 该取多大的理论指导。
- 核心思路:将误差分解成 (i) 离散化误差 \(|\mathcal{D}_f(\mathcal{S}_P,\mathcal{S}_Q)-\mathcal{D}_f(M_P,M_Q)|\),Proposition 3.1 给出 \(\leq C/k\)(bin 越多越准);(ii) 统计估计误差 \(|\mathcal{D}_f(\hat M_P,\hat M_Q)-\mathcal{D}_f(M_P,M_Q)|\),Theorem 3.2 给出 \(\leq C(\log N \cdot \sqrt{k^3 \log(kN)/N} + k^3/N \cdot \log(1+N/k) + k/\sqrt{N})\)(bin 越多估计越噪)。平衡 \(O(1/k)\) 和 dominating term \(O(k^{3/2}/\sqrt{N})\) 得到 \(k^* = \Theta(N^{1/5})\)(差 polylog 因子)。
- 设计动机:消除了"bin 数靠拍脑袋"的玄学,给跨数据集自适应选 \(k\) 提供了原则性指导;同时通过 Table 1 实测的 \(I(a_t; a_{t-2}\mid a_{t-1}) \approx 0.0076\) bit/token、二阶模型相对一阶仅 +0.528% perplexity 收益,反向验证了"一阶足够"。
损失函数 / 训练策略¶
本方法无训练——参考矩阵 \(\hat M_P, \hat M_Q\) 一次离线统计完成;k-means 量化器在人写 corpus 上一次性聚类。proxy LM 完全冻结,仅用作 surprisal scorer。
实验关键数据¶
主实验¶
在 SQuAD、XSum、WritingPrompts 等多个数据集上对比 9 个生成模型(GPT2-XL、GPT-J-6B、GPT-Neo-2.7B、GPT-NeoX-20B、OPT-2.7B、Llama-2-13B、Llama-3-8B、Llama-3.2-3B、Gemma-7B)的检测 AUROC(节选):
| 方法 | GPT2-XL | GPT-J-6B | Llama-2-13B | Llama-3-8B | Gemma-7B | Avg |
|---|---|---|---|---|---|---|
| Likelihood | 85.0 | 74.8 | 94.4 | 93.9 | 65.8 | 77.97 |
| LogRank | 88.2 | 79.3 | 95.9 | 95.1 | 69.2 | 81.59 |
| DetectLRR | 91.1 | 85.8 | 96.4 | 94.9 | 75.5 | 86.79 |
| Lastde | 96.0 | 85.9 | 93.3 | 94.3 | 69.5 | 85.56 |
| Lastde++ | 99.5 | 91.5 | 95.5 | 95.9 | 76.9 | 90.04 |
| SurpMark (本文) | 与 Lastde++ 相当或更高 | — | — | — | — | 表现稳健 |
完整对比表中 SurpMark 在多数据集 / 多生成器 / 多场景下 consistently match or surpass baselines,特别在跨域泛化场景(参考 corpus 与测试文本来自不同 domain)下优势更明显。
消融实验¶
| 配置 | 关键现象 | 说明 |
|---|---|---|
| Markov order = 1 | 最高 AUROC | sweet spot |
| Markov order = 2 | 略低 | 状态空间 \(k^3\) 扩张,转移计数稀疏 |
| Markov order = 3+ | 显著下降 | 估计方差爆炸 |
| Bin 数 \(k\) 扫描 | AUROC 关于 \(k\) 凹型 | 验证 \(k^* = \Theta(N^{1/5})\) |
| 双参考(PP+QQ) | 完整 SurpMark | LLR-等价 |
| 单参考(仅 PP 或 QQ) | 显著下降 | 失去 two-sided 判别力 |
| 一致量化器(共享 \(q_k\)) | 标准 | 必要 |
| 各文本独立量化 | 下降 | 跨文本不可比 |
I^(2nd-order conditional MI) 实验:
| 来源 | \(\hat{I}=I(a_t; a_{t-2}\mid a_{t-1})\) (bits/token) | Rel. PP gain (2nd vs 1st) |
|---|---|---|
| GPT-5-chat | 0.0076 | +0.528% |
| Human | 0.0045 | +0.314% |
关键发现¶
- 一阶 Markov 信息几乎涵盖了所有可用信号,更高阶纯粹是"花更多参数学更稀疏的统计量",理论 + 实验完全一致。
- Bin 数 \(k=4\) 在常见数据规模下接近最优,且对应可解释的语义状态。
- 跨 proxy 模型迁移(用 GPT-2 当 proxy 检测 Llama 文本)AUROC 保持不错,验证了 surprisal 转移结构的 model-agnostic 性质。
- "Recovery pattern"(high-surprisal → low-surprisal 转移概率)在 LLM 文本中显著高于人写文本(Figure 2(a) 可视化),是 SurpMark 判别力的核心来源。
亮点与洞察¶
- 把 detection 问题数学化为 LFHT——Gutman 1989 的经典结果直接搬过来,证明 \(\Delta\text{GJS}_n\) = LLR,给出了"为什么 GJS 是最优统计量"的原理性回答,而不是又一个 ad-hoc heuristic。
- 代理 LM mismatch 鲁棒性——离散化 + 转移矩阵的"相对结构"摘要让 absolute likelihood 漂移被自然抹平,这是黑盒部署最关键的工程优势。
- 离散化–估计 tradeoff 的 \(k^* = N^{1/5}\)——这种简洁的 scaling law 既有数学美感,又给实际部署提供了 bin 选取的 closed-form 公式。
- 一次离线建参考 + 单次在线推理——相比 DetectGPT 之类要为每条文本做 100 次扰动重生成的方法,推理成本降了 2 个数量级。
局限与展望¶
- 一阶 Markov 假设的 ceiling——虽然实验显示 second-order MI 很小,但对于"段落级"或"篇章级"的全局结构(如机器写作的话题漂移规律),一阶 Markov 完全捕捉不到。
- 参考 corpus 的代表性依赖——需要预先有大量"人写"和"机写"参考文本;如果攻击者用新的生成范式(如 RLHF 重对齐后的 Claude 3.7),可能需要重新建参考。
- 对短文本敏感——理论上 \(k^* = N^{1/5}\) 在 \(N\) 很小(<200 tokens)时退化;对推文、单句这种短文本检测能力可能下降。
- 没法检测"混合文本"——人类轻度编辑过的 LLM 输出会让 Markov 转移分布介于两参考之间,单一阈值 \(\tau\) 在边界附近会有大量误判。
- k-means 量化器固定 \(q_k\) 后无法在线自适应——proxy LM 更新或 domain 大幅切换时需要重训量化器和参考。
相关工作与启发¶
- vs DetectGPT / Fast-DetectGPT (Mitchell et al. 2023, Bao et al. 2024):他们靠 perturbation 重生成估计 likelihood curvature,per-input 计算昂贵且依赖 perturbation 模型;SurpMark 一次离线建参考 + 在线单次前向,计算成本低 2 个数量级。
- vs Lastde++ (Xu et al. 2025):Lastde++ 也用 surprisal 离散化 + 局部 diversity entropy,但只用单 global 统计量;SurpMark 上升到双参考 LFHT 框架,有理论最优性。
- vs R-Detect (Song et al. 2025):R-Detect 用 kernel-based relative test 也是两参考,但需要在参考 corpus 上优化 kernel 参数;SurpMark 只需轻量 k-means 离散化,零参数训练。
- vs DNA-GPT (Yang et al. 2023):DNA-GPT 比较 n-gram divergence,n-gram 受 vocab 漂移影响大;SurpMark 工作在 surprisal 状态空间,vocab-free。
- 启示:把 ML 任务重构成经典 statistical test(hypothesis testing、change-point detection、goodness-of-fit)能继承一整套统计最优性结果;在任何"likelihood 不可信但摘要统计可信"的黑盒场景(OOD 检测、distribution shift 检测、模型来源归因),LFHT 框架都值得借鉴。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 detection 形式化为 two-reference LFHT + 给出 \(k^* = N^{1/5}\) 是真正的理论新内容
- 实验充分度: ⭐⭐⭐⭐ 9 个生成器 + 多数据集 + 多场景,覆盖足;缺更多 in-the-wild 测试如多语种
- 写作质量: ⭐⭐⭐⭐⭐ 理论部分推导清晰、实验对应理论结论严格,可解释性强
- 价值: ⭐⭐⭐⭐ 零训练 + 单次前向 + 跨域稳健,对实际部署的 AI 文本检测系统是直接可落地方案