DMAP: A Distribution Map for Text¶

会议: ICLR 2026
arXiv: 2602.11871
代码: https://github.com/Featurespace/dmap
领域: AIGC检测
关键词: 文本分布图, 机器文本检测, 统计检验, token概率, 语言模型分析

一句话总结¶

提出 DMAP（Distribution Map），一种将文本经由语言模型的 next-token 概率排序映射为 \([0,1]\) 区间上 i.i.d. 样本的数学框架，理论证明纯采样文本产生均匀分布，由此可用 \(\chi^2\) 检验验证生成参数、揭示概率曲率类检测器在纯采样下彻底失效的根本原因，并可视化后训练（SFT/RLHF）在下游模型中留下的统计指纹。

研究背景与动机¶

领域现状：语言模型的 next-token 概率分布蕴含大量文本统计信息。现有方法主要通过困惑度（perplexity）、log-likelihood、log-rank 等标量指标来分析文本特征或检测机器生成文本。DetectGPT 开创了"概率曲率"（probability curvature）思路——通过扰动文本并比较似然变化来判断是否为机器生成；FastDetectGPT 用条件概率归一化改进了效率；Binoculars 用双模型的概率比值做零样本检测。

现有痛点：所有基于概率曲率的方法都隐含一个关键假设——机器生成文本系统性地偏向概率分布的头部（即选择高概率 token），因而"概率曲率"与人类文本方向相反。但这个假设只在使用 top-k/top-p/低温度等截断采样策略时成立。当生成器使用纯采样（pure sampling, temperature=1.0, 无截断）时，该假设完全不成立：FastDetectGPT 的 AUROC 从 0.702 暴跌至 0.200，Binoculars 从 0.825 暴跌至 0.325，甚至不如随机猜测。更糟糕的是，作者发现现有检测文献中存在系统性数据错误——HuggingFace 曾默认开启 top-k=50，导致多篇顶会论文（DetectGPT、FastDetectGPT、Binoculars）在声称使用纯采样的实验中实际使用了 top-k=50。

核心矛盾：现有指标（perplexity、log-rank 等）存在"语境化"（contextualization）问题——一个 token 的 log-likelihood 是否"异常高"，取决于该位置条件分布的形状（即有多少合理的候选 token），而 perplexity 等指标完全忽略了这一上下文信息。不同文体（诗歌 vs 新闻 vs 技术写作）会系统性地影响条件分布的形状，导致同一个概率值在不同语境下含义截然不同。

本文目标 (1) 建立一个同时编码 rank 和概率信息、且有严格数学保证的文本统计表示框架；(2) 用该框架揭示现有检测方法失败的根本原因；(3) 提供高效的数据完整性验证工具和后训练分析工具。

切入角度：将每个 token 按其在条件概率分布中的排序位置映射到 \([0,1]\) 区间上的一个子区间——高概率 token 对应左侧（接近 0），低概率 token 对应右侧（接近 1），区间长度等于该 token 的条件概率。这个映射本质上是概率积分变换（PIT）在离散分布上的动态排序扩展。

核心 idea：DMAP 将文本映射为 \([0,1]\) 上的分布，纯采样对应精确均匀分布，任何偏离均匀的模式都是生成策略或文本属性的可量化信号。

方法详解¶

整体框架¶

给定文本 \(w_1 \cdots w_T\) 和评估语言模型 \(p\)，DMAP 对每个位置 \(i\) 执行：(1) 按 \(p(\cdot|w_1 \cdots w_{i-1})\) 对词表中所有 token 降序排列；(2) 构造 token \(w_i\) 对应的区间 \(I_i = [a_i, b_i] \subset [0,1]\)；(3) 从 \(I_i\) 上均匀采样得到 DMAP 样本 \(x_i\)。最终将 \(x_1 \cdots x_T\) 分成 \(k=40\) 个等宽 bin 绘制直方图，得到文本的"分布指纹"。该框架支持三类应用：生成参数验证（\(\chi^2\) 检验）、检测方法设计分析、后训练统计指纹可视化。

关键设计¶

DMAP 映射与均匀性定理:
- 功能：将每个 token 映射到 \([0,1]\) 上的一个点，同时编码其概率大小和排序位置
- 核心思路：对位置 \(i\)，定义 \(V_i^+ = \{v \in V : p(v|w_1 \cdots w_{i-1}) > p(w_i|w_1 \cdots w_{i-1})\}\) 为比 \(w_i\) 更可能的 token 集合，\(a_i = \sum_{v \in V_i^+} p(v|w_1 \cdots w_{i-1})\) 为其累计概率，\(b_i = a_i + p(w_i|w_1 \cdots w_{i-1})\)。区间 \(I_i = [a_i, b_i]\) 的左端点反映 rank 信息，长度反映概率大小。然后 \(x_i \sim U(a_i, b_i)\)。核心定理（Proposition 3.1）证明：当文本由模型 \(p\) 纯采样生成时，\(x_1 \cdots x_T\) 是 \([0,1]\) 上的 i.i.d. 均匀分布。证明思路简洁：对 \([0,1]\) 中任意子区间 \((c,d) \subset [a,b)\)（其中 \([a,b)\) 是某个 token \(v\) 的区间），\(\mathbb{P}(x_i \in (c,d)) = p(v|context) \cdot \frac{d-c}{b-a} = (b-a) \cdot \frac{d-c}{b-a} = d-c\)。证明中未对语言模型做任何假设，因此该定理也适用于经解码策略修改后的分布（只要生成和评估使用相同策略）
- 设计动机：均匀性定理为所有后续分析提供了精确的零假设——任何偏离均匀分布的模式都编码了有意义的信号（生成策略、模型差异、人类文本特性等）
熵加权 DMAP（\(\hat{D}\)）:
- 功能：去除随机性并对有信息量的位置赋予更高权重，提升灵敏度
- 核心思路：对每个位置 \(i\) 计算 next-token 分布的熵 \(h_i\)，令 \(h_i' = \min(h_i, \lambda)\)（\(\lambda=2\) 为截断阈值）。定义确定性的加权密度函数 \(\hat{D}(\underline{w}) = \frac{\sum_i h_i' \cdot \chi_{I_i}/|I_i|}{\sum_i h_i'}\)，其中 \(\chi_{I_i}/|I_i|\) 是区间 \(I_i\) 上的归一化指示函数。这比随机采样版本既消除了随机噪声，又通过熵加权使分析聚焦于模型"犹豫"的位置
- 设计动机：低熵位置（如 "the"、"of" 等高概率 token）的选择几乎无论人类还是机器都一样，对区分无贡献。实验表明（附录 F），仅对低熵位置绘制 DMAP 图几乎呈完美均匀分布，包含的信息量极少。熵加权有效放大了高熵位置的信号
\(\chi^2\) 定量验证框架:
- 功能：提供严格的统计假设检验来验证文本的生成参数
- 核心思路：将 \([0,1]\) 分成 \(k\) 个等宽 bin（按 Terrell-Scott 规则取 \(k = (2T)^{1/3}\)），计算每个 bin 的频率 \(f_i\)，构造 \(\chi^2 = Tk \sum_{i=1}^{k}(f_i - 1/k)^2\)。由 Proposition 3.1 的 i.i.d. 均匀性，该统计量渐近服从 \(\chi^2_{k-1}\) 分布，可直接计算 p-value 来评估"文本是否由指定生成策略生成"的假设。经验规则是 \(T \geq 10k\) 时 p-value 可靠
- 设计动机：提供了超越视觉检查的定量工具，可以以极高置信度发现数据中的生成参数错误（如作者用此方法发现了多篇顶会论文的 top-k=50 数据错误）

不同采样策略的 DMAP 理论形状¶

不同解码策略产生高度特征性的 DMAP 形状，可用于反推生成参数：纯采样产生均匀分布；top-p=\(\pi\) 采样在 \([0, \pi]\) 上几乎平坦然后急剧下降（因为 top-p 集合的总概率质量略大于 \(\pi\)）；top-k 采样在 \([0, 0.5]\) 附近近似平坦然后平滑下降；温度采样 \(\tau < 1\) 产生左偏的平滑变形。这些形状由条件概率分布空间中 top-k/top-p 集合的统计规律决定。

实验关键数据¶

主实验：概率曲率检测器在纯采样下彻底失效¶

方法	生成模型	XSum (k=50)	XSum (纯采样)	SQuAD (k=50)	SQuAD (纯采样)	Writing (k=50)	Writing (纯采样)
FastDetectGPT	Llama-3.1-8B	0.702	0.200	0.739	0.208	0.915	0.289
FastDetectGPT	Mistral-7B	0.770	0.276	0.819	0.299	0.906	0.339
FastDetectGPT	Qwen3-8B	0.765	0.289	0.612	0.320	0.923	0.377
DetectGPT	Llama-3.1-8B	0.606	0.408	0.527	0.299	0.723	0.422
DetectGPT	Mistral-7B	0.679	0.486	0.586	0.365	0.688	0.457
Binoculars	Llama-3.1-8B	0.825	0.325	0.849	0.365	0.942	0.410
Binoculars	Mistral-7B	0.823	0.350	0.851	0.416	0.931	0.404
Binoculars	Qwen3-8B	0.857	0.416	0.752	0.467	0.949	0.492

后训练指纹分析（Pythia 1B + 不同 SFT 数据）¶

SFT 数据	DMAP 分布特征	解释
无微调（Pythia base）	明显右偏（tail-biased）	基座模型的条件分布与小评估模型差异大
OASST2 人类数据	轻微右偏 + 显著 tail-collapse	人类写作的指令数据在 DMAP 上有独特的尾部急剧衰减
OASST2 + Llama T=1.0 纯采样	接近基座模型，轻微右偏	纯采样数据的统计特征传递到了下游模型
OASST2 + Llama T=0.7 温度采样	左偏（head-biased）	唯一出现左偏的模型，温度采样的头部偏好直接传递

关键发现¶

概率曲率假设在纯采样下完全反转：所有三个检测器在纯采样下 AUROC < 0.5，意味着它们的判别方向与实际相反。这不是"检测变难了"，而是概率曲率假设在此设置下根本不成立——基座模型纯采样文本在跨模型评估时呈 tail-biased，与人类文本的方向一致甚至更极端
HuggingFace 默认 top-k=50 数据错误的波及范围巨大：DMAP 的 \(\chi^2\) 检验仅用 10000 个 token 就能以 \(p < 10^{-10}\) 的置信度检出这一错误，而多篇顶会论文的实验结论建立在此错误数据之上
DMAP 对改述攻击鲁棒：用 DIPPER 改述后的机器文本和人类文本在 DMAP 上仍然明显可区分，改述仅使分布略微趋于平坦，但特征形状保持
SFT 数据的统计指纹直接传递到下游模型：用温度 0.7 采样的合成数据微调产生 head-biased 模型，而人类数据和纯采样数据微调均保持 tail-biased，说明训练数据的 DMAP 指纹忠实地传递到了生成分布中
指令微调模型尾部最后一个 bin 密度异常升高：可能反映了轻微过拟合，DMAP 可用于指导 SFT 的早停策略
收敛迅速：2000 个 token 即可呈现清晰的特征形状，20000 个 token 后噪声基本消除；对极短文本可通过减少 bin 数量（如 5 个 bin）来缓解

亮点与洞察¶

数学优雅性与实用性的完美结合：Proposition 3.1 的证明仅需几行，但提供了一个精确的零假设（均匀分布），使得所有后续分析都有严格的统计基础。这种"简单定理 + 丰富应用"的范式在 ML 论文中非常难得
同时编码 rank 和概率信息是 DMAP 相对 PIT 的关键扩展：经典 PIT 需要对类别变量有自然排序，而 DMAP 通过动态按模型概率重新排序 token 来消除这一限制。作者在附录中对比了随机排序的 PIT，证实无法从中提取有用信息，验证了动态排序的必要性
数据错误发现的元研究价值：DMAP 不仅是分析工具，还充当了"数据审计器"——发现了 DetectGPT/FastDetectGPT/Binoculars 等多篇顶会论文因 HuggingFace 默认设置导致的系统性数据错误。这提示 LLM 实验中需要更严格的数据完整性验证流程
OPT-125m 即可有效运行：DMAP 的计算仅需一次前向传播，配合 OPT-125m 等小模型就可在消费级硬件上几分钟内完成分析，极大降低了使用门槛

局限与展望¶

定位为分析工具而非检测器：DMAP 本身不直接输出"人类/机器"二分类，在检测场景中需要在 DMAP 之上构建独立的决策器，但论文未提供这一方向的具体方案和 AUROC 数据
评估模型假设：DMAP 需要指定评估语言模型，跨模型评估时基座模型之间天然出现 tail-biased 分布，可能淹没待分析的信号。作者建议在此场景下先用 DMAP 校准方向再设计检测器
短文本限制：\(\chi^2\) 检验要求 \(T \geq 10k\)（40 个 bin 需要至少 400 个 token），对于短文本（如单条推文、短评论）统计功效不足。虽然可以减少 bin 数量来缓解，但信息损失也随之增大
熵截断阈值 \(\lambda\) 的选取：论文固定 \(\lambda=2\) 但未提供消融研究或自适应选取策略。不同领域（代码 vs 文学创作）的熵分布差异极大，固定阈值可能不是最优的
未探索更现代的自监督检测方法：现有对比仅限于 DetectGPT 家族和 Binoculars，未与基于水印、训练式检测器（如 RoBERTa-based）或更新的方法（如 MOSAIC 的多观察者框架）进行全面对比

评分¶

新颖性: ⭐⭐⭐⭐⭐ Proposition 3.1 的"纯采样=均匀分布"定理简洁有力，提供了一个全新的文本分析视角
实验充分度: ⭐⭐⭐⭐ 三个应用场景展示充分（参数验证、检测方法分析、SFT指纹），但作为独立检测器的定量对比偏弱
写作质量: ⭐⭐⭐⭐⭐ 数学推导简洁严谨，直觉解释清晰，附录极为详尽（提示敏感性、收敛分析、对抗鲁棒性都有覆盖）
价值: ⭐⭐⭐⭐⭐ 发现了多篇顶会论文的系统性数据错误，为文本分析和检测方法设计提供了严格的理论工具和新原则