跳转至

Repeated Sequences Reveal Gaps between Large Language Models and Natural Language

会议: ACL 2026
arXiv: 2605.24850
代码: 无
领域: llm_nlp
关键词: 重复子序列, Rényi熵, LLM评估, 长程结构, 熵增长分析

一句话总结

本文提出基于重复子序列分布的评估框架,通过高阶 Rényi 熵刻画文本的熵增长行为,发现自然语言呈现稳定的次线性熵增长模式,而 GPT 生成文本的熵指数随模型规模单调增大,揭示了 LLM 在长程统计组织上与自然语言的系统性差异。

研究背景与动机

领域现状: LLM 在各类任务 benchmark 上表现优异,但评估主要依赖任务性能或短上下文行为,对生成文本的长程统计结构缺乏系统分析。

现有痛点: 现有评估方法无法判断 LLM 是否真正捕获了自然语言在大尺度上的结构组织——高 benchmark 分数不意味着生成文本具有人类文本的长程统计特性。已有研究发现 LLM 存在过度重复和多样性下降等问题。

核心矛盾: 自然语言中的表达不是孤立使用的,而是通过重复引用和重组形成跨长距离的参考结构;LLM 在 next-token prediction 目标下是否能重现这种结构尚不清楚。

本文目标: 提出一个基于重复子序列分布的定量诊断工具,以区分自然语言和 LLM 输出在长程组织上的差异。

切入角度: 将重复作为分布特性跨尺度分析,而非仅关注极端重复或生成退化现象。

核心 idea: 重复子序列的数量与高阶 Rényi 熵存在深层联系,通过拟合熵增长的幂律 vs 对数-幂律模型可以揭示文本的结构重用特性。

方法详解

整体框架

方法分为三步:(1) 统计文本中长度为 \(m\) 的重复子序列数 \(D_m = T_m - K_m\)(总块数减去不同块数);(2) 将 \(D_m\) 与高阶 Rényi 熵 \(H_\alpha(m)\) 关联,推导其渐近展开形式;(3) 对 \(H_\alpha(m)\) 分别拟合幂律模型(\(\propto m^\beta\))和对数-幂律模型(\(\propto (\log m)^\gamma\)),比较自然语言与 GPT 文本的差异。

关键设计

  1. 重复子序列计数与 Rényi 熵的联系:

    • 功能:建立从可观测的重复统计量到信息论量的桥梁
    • 核心思路:长度 \(m\) 的重复数 \(D_m\) 的期望可展开为 \(\sum p_w^\alpha\)\(\alpha \geq 2\))的级数,天然对应 Rényi 熵 \(H_\alpha(m) = \frac{1}{1-\alpha}\log_2 \sum p_w^\alpha\)
    • 设计动机:直接分析 \(D_m\) 受文档长度影响过大,转化为 Rényi 熵后可获得长度无关的结构特征
  2. 两阶段参数估计(有限长度修正):

    • 功能:在有限长度文本上准确估计熵增长指数
    • 核心思路:先从 \(D_m/T_m\) 的函数关系估计 \(\lambda_m = T_m/S_m\),再拟合 \(\log_2 S_m = H_\alpha(m) + \Delta_\alpha\),其中 \(\Delta_\alpha\) 是依赖 \(\lambda_m\) 的有限长度修正项
    • 设计动机:直接从 \(K_m\)\(H_\alpha(m)\) 估计指数会因有限长度效应而不稳定,两阶段方法显著提高拟合可靠性
  3. 幂律 vs 对数-幂律模型对比:

    • 功能:区分两种质性不同的信息累积模式
    • 核心思路:幂律 \(G(m) \propto m^\beta\) 对应结构自由度持续扩展(不断引入新信息),对数-幂律 \(G(m) \propto (\log m)^\gamma\) 对应强结构重用(通过重组和再索引共享资源)
    • 设计动机:自然语言的熵增长可能处于这两种机制的边界,区分它们有助于理解语言生成的本质

损失函数 / 训练策略

本文为纯分析方法,无训练过程。所有分析在字符级别进行以避免分词器偏差,使用 \(R^2\) 决定系数和 Welch t-检验评估拟合质量和组间差异显著性。

实验关键数据

数据集规模

数据集 数量 平均长度(字符)
gpt-3.5turbo 100 35,045 ± 2,287
gpt-4o-mini 100 110,889 ± 23,379
gpt-5-mini 100 347,045 ± 19,793
gpt-5 100 601,187 ± 24,973
nl(匹配各 GPT 长度) 各100 对应匹配

核心统计检验结果

对比 \(\beta\) 差异 \(\gamma\) 差异 p 值
gpt-5 vs nl-5 GPT 显著更大 GPT 显著更大 ≈0
gpt-5-mini vs nl-5-mini GPT 显著更大 GPT 显著更大 ≈0
nl-5 vs nl-5-mini 无显著差异 无显著差异 β: 0.12, γ: 0.94

关键发现

  • 自然语言的熵增长指数 \(\beta\)\(\gamma\) 在不同长度数据集间保持稳定(弱普适性),而 GPT 文本的指数随模型规模单调增加
  • 对数-幂律模型在长文本中普遍优于幂律模型(\(R^2 > 0.97\) vs 0.90-0.96),表明自然语言以结构重用为主导
  • 短文本倾向幂律拟合(持续引入新信息),长文本倾向对数-幂律拟合(结构重用增强)
  • 传统极大重复子序列方法在 gpt-5 上与自然语言几乎不可区分(\(\eta\) 均值接近),但本文方法仍能检测到显著差异

亮点与洞察

  • 从信息论基本原理出发提出了全新的 LLM 评估维度,不依赖任何下游任务
  • 重复子序列→Rényi 熵的推导简洁优美,有限长度修正处理严谨
  • 发现自然语言的"弱普适性"——个体文本差异大但总体指数稳定,这是一个有趣的统计规律
  • 对 Shakespeare 全集的分析(n=5,442,126 字符)展示了极端长文本下对数-幂律行为的显著性

局限与展望

  • 仅分析 GPT 系列模型,对其他架构(如 Llama/Claude)的适用性有待验证
  • 分析在字符级进行,未直接关联词级或句法级的语言结构
  • 方法为描述性分析,不能识别导致差异的具体机制
  • 需要较长的文本(数万字符以上)才能获得可靠的拟合,短文本场景受限
  • 未直接估计熵率 \(h_\alpha\),无法判断自然语言的熵率是否为零

相关工作与启发

  • Hilberg (1990): 提出自然语言块熵的次线性幂律增长猜想,本文进一步区分了幂律与对数-幂律两种机制
  • Dębowski (2015): 基于极大重复子序列的分析,本文表明分布方法比极端统计量更稳定、更有区分力
  • Holtzman et al. (2020): 关注 LLM 的重复退化现象,本文将重复从"问题"重新定位为"结构信号"
  • 启发:评估 LLM 不应仅看任务分数,还应检验其输出是否具备自然语言的内在统计结构

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全新的评估视角,将信息论与 LLM 评估深度结合
  • 实验充分度: ⭐⭐⭐⭐ 数据集设计合理(长度匹配),统计检验严谨,但仅限 GPT 家族
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,行文流畅,图表设计精良
  • 价值: ⭐⭐⭐⭐ 提供了 LLM 评估的全新工具,但实际应用场景有待拓展

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评