Comparing LLM-generated and human-authored news text using formal syntactic theory¶
会议: ACL 2025
arXiv: 2506.01407
代码: https://github.com/olzama/llm-syntax
作者: Olga Zamaraeva, Dan Flickinger, Francis Bond, Carlos Gómez-Rodríguez
机构: Universidade da Coruña, Independent Researcher, Palacký University at Olomouc
领域: AIGC检测
关键词: HPSG, English Resource Grammar, LLM text analysis, syntactic diversity, authorship analysis
一句话总结¶
首次使用 HPSG 形式句法理论(通过英语资源语法 ERG)从句法构式(298 种)、词汇类型(1398 种)和词法规则(100 种)三个层级系统比较 6 个 LLM 与人类 NYT 新闻写作的语法差异,发现 LLM 在语法特征上是人类作者的 "均值化"投影——人类个体作者间的语法差异反而大于任何人类与 LLM 的差异,而 LLM 之间几乎无差别。
研究背景与动机¶
- 领域现状: LLM 生成文本与人类文本的比较研究日益增多,但现有工作主要聚焦于训练分类器(判断是否 AI 生成)或分析词汇分布、依存句法(UD)等浅层特征,缺乏从独立语言学理论出发的深层语法分析。
- 现有痛点: Universal Dependencies(UD)和 Penn Treebank(PTB)等标注体系本身是为 NLP 任务设计的,粒度有限且不独立于任务——例如 UD 的
obj关系仅指动词与直接宾语的依存,无法区分更一般的 head-complement 构式(名词和形容词也可有补语)。用 NLP 导向的工具分析 NLP 系统的输出,存在内在偏差。 - 核心矛盾: 已有研究发现 LLM 倾向重复 POS 序列模板(Shaib et al. 2024)、偏好特定 Biber 修辞特征(Reinhart et al. 2024),但这些都是自上而下的特征集合,无法提供全面、一致、可复现的语法分析框架来覆盖英语句法的长尾分布。
- 本文目标: 如何利用独立于 NLP 的形式语言学理论,对 LLM 生成文本和人类文本进行精细到词汇句法行为层面的系统比较?
- 切入角度: 利用 HPSG 的计算实现——英语资源语法 ERG(覆盖 94% 编辑良好英语文本),将每个句子解析为完整的类型化句法结构,然后在三个独立层级(句法构式 / 词汇类型 / 词法规则)上统计分布差异。
方法详解¶
整体框架¶
研究包含三个阶段:数据准备 → ERG 形式句法解析 → 多维度统计分析。核心思想是把文本通过 HPSG 理论映射为显式的类型层级结构,然后在类型分布空间中比较人类与 LLM。
关键设计一:HPSG/ERG 三层级解析体系¶
HPSG(Head-driven Phrase Structure Grammar)是一种完全显式的形式句法理论,将句法结构和语义接口表示为复杂的特征-值图。ERG(English Resource Grammar)是其最大规模的英语实现,具有以下规模:
| 组件 | ERG 总量 | NYT 数据覆盖量 | 覆盖率 |
|---|---|---|---|
| 句法构式(syntactic types) | 298 | 289 | 97% |
| 词汇类型(lexical types) | 1,398 | 1,105 | 79% |
| 词条(lexical entries) | 44,366 | 27,311 | 61% |
| 词法规则(morphological rules) | 100 | 99 | 99% |
ERG 的核心优势在于词汇类型层级:同一个词可以属于不同的词汇类型,编码不同的句法行为。例如 "law" 有两个词条——law_n1(普通可数/不可数名词,"the law")和 law_n2(可带从句补语的名词,"There is a law that...")。人类文本同时使用两者,而 LLM 仅使用了 law_n1。这种粒度是 UD 或 POS 标注无法提供的。
关键设计二:多数据集交叉验证设计¶
数据来源覆盖三个维度:
- NYT 人类文本: 2023.10.01–2024.01.24 期间的纽约时报文章引导段(26,102 句),通过 NYT Archive API 获取
- LLM 生成文本: 6 个模型(LLaMA-7B/13B/30B/65B, Falcon-7B, Mistral-7B),用 NYT 标题 + 首 3 词作为 prompt 生成(共约 214K 句)。所有 LLM 均早于 2023.10.01 发布,确保未见过对应人类文章
- Redwoods 树库: WSJ(43,043 句)和 Wikipedia(10,726 句)部分——用于验证发现是否跨风格/体裁成立
实验设计刻意分离了两个因素:① 模型缩放(同架构不同大小的 LLaMA 系列);② 模型架构(LLaMA vs Falcon vs Mistral)。
关键设计三:统计分析方法¶
- 余弦相似度 + PCA 投影: 将每个数据集的 HPSG 类型频率归一化为向量,计算两两余弦相似度,用 PCA 投影可视化 98%-100% 相似度范围内的差异
- Shannon 熵 \(H\) 与 Gini-Simpson 指数 \(1-\lambda\): 量化构式使用的多样性(均匀度),并用 10,000 次置换检验验证显著性
- 个体作者分析: 选取 12 位发表 >100 篇的 NYT 记者,逐对计算 HPSG 类型分布的余弦相似度,与 LLM 交叉比较
- Mann-Whitney U 检验: 对各 HPSG 类型的相对频率差异进行统计显著性测试(附 FDR 校正)
实验关键数据¶
Table 1: 句法构式频率差异(25K 句样本)¶
| 构式 | 示例 | 人类频次 | LLM 均值 | 方向 |
|---|---|---|---|---|
| Head-complement(中心语-补语) | "It's not acceptable for democracy" | 164,806 | 224,529 | LLM >> 人类 |
| Subject-head(主语-中心语) | "The house passed the measure…" | 17,850 | 27,753 | LLM >> 人类 |
| Quantity NP(数量名词短语) | "many in Europe" | 23,611 | 40,881 | LLM >> 人类 |
| Relative clauses(关系从句) | "a vote that many have seen…" | 4,929 | 6,721 | LLM >> 人类 |
| Clause with extracted subject | "Chris Snow became an advocate…" | 5,072 | 7,327 | LLM >> 人类 |
| Marker clause(标记子句) | "and that's a good thing" | 2,891 | 5,660 | LLM >> 人类 |
| Clause conjunction fragment | "But the observation suits him." | 939 | 2,076 | LLM >> 人类 |
| Questions(疑问句) | "How do you stay safe?" | 268 | 428 | LLM >> 人类 |
| Participial clause(分词从句) | "having tried that,…" | 1,736 | 1,116 | 人类 >> LLM |
| Modifier clause apposition | "his critics, mostly unnamed" | 826 | 434 | 人类 >> LLM |
| Bare NP coordination(裸名词并列) | "author and commentator" | 311 | 117 | 人类 >> LLM |
| Paired marker(配对标记) | "Both this and other discussions" | 326 | 185 | 人类 >> LLM |
| Adjective-participle modifier | "right-handed", "red-colored" | 125 | 64.6 | 人类 >> LLM |
| Double NP apposition(双名词同位) | "an eye for detail, decades of…" | 11 | 5.2 | 人类 >> LLM |
| Absolute VP(绝对动词短语) | "As told, …" | 10 | 3.8 | 人类 >> LLM |
核心模式: LLM 大量使用最通用的基本构式(head-complement, subject-head),而人类更多使用低频的风格性构式(分词修饰、双同位语、绝对 VP)。
Table 2: 多样性指标对比(Shannon 熵)¶
| 维度 | 人类 NYT | LLaMA-7B | LLaMA-13B | LLaMA-30B | LLaMA-65B | Falcon-7B | Mistral-7B | 全部 LLM 合并 |
|---|---|---|---|---|---|---|---|---|
| 句法构式 \(H\) | 3.342 | 3.259 | 3.249 | 3.270 | 3.284 | 3.221 | 3.267 | 3.265 |
| 词汇类型 \(H\) | 4.727 | 4.844 | 4.877 | 4.858 | 4.860 | 4.700 | 4.847 | — |
- 所有差异均通过置换检验(10,000 次重采样,\(p < 0.01\))确认显著
- 句法构式多样性:人类最高(H=3.342),LLaMA-65B 最接近(H=3.284),Falcon 最低(H=3.221)
- 词汇类型多样性出现反转:多数 LLM 高于人类(LLaMA-13B 最高 H=4.877 vs 人类 H=4.727)
- 合并所有 LLM 输出后,句法多样性反而降至 H=3.265——聚合放大了各模型共有的高频通用构式
余弦相似度关键发现¶
句法构式余弦相似度(原始数据摘选):
| 比较对 | 余弦相似度 |
|---|---|
| LLaMA-30B vs LLaMA-65B | 0.9999 |
| LLaMA-7B vs Mistral-7B | 0.9999 |
| Falcon-7B vs LLaMA-7B | 0.9966 |
| LLaMA-65B vs 人类 NYT | 0.9964 |
| LLaMA-7B vs 人类 NYT | 0.9955 |
| WSJ vs 人类 NYT | 0.9949 |
| Wikipedia vs 人类 NYT | 0.9833 |
LLM 之间的句法相似度(0.9966–0.9999)始终高于任何 LLM 与人类的相似度(0.9950–0.9965),后者又高于跨体裁的人类文本相似度(Wikipedia vs NYT = 0.9833)。
词汇足迹差异(25K 句样本)¶
| 模型 | 人类独有词汇类型 | LLM 独有词汇类型 | 人类独有词条 | LLM 独有词条 |
|---|---|---|---|---|
| LLaMA-7B | 62 | 70 | 5,704 | 2,519 |
| LLaMA-13B | 71 | 80 | 5,557 | 2,617 |
| LLaMA-30B | 65 | 62 | 5,531 | 2,608 |
| LLaMA-65B | 66 | 74 | 5,302 | 2,745 |
| Mistral-7B | 73 | 76 | 5,809 | 2,353 |
| Falcon-7B | 91 | 55 | 6,212 | 2,015 |
| 全部 LLM | 66 | 70 | 1,721 | 2,398 |
人类单独使用的词条约为单个 LLM 的 2 倍(5,000–6,000 vs 2,000–2,700),但合并所有 LLM 后(2,398 vs 1,721),集体 LLM 的词汇覆盖度反超人类。
个体作者 vs LLM 的核心发现¶
- 人类间差异 > 人类-LLM 差异: 12 位 NYT 记者之间的句法分布余弦相似度的方差,显著大于任何人类与 LLM 之间的差异
- LLM 间差异极小: 6 个 LLM 在所有类型维度上高度聚集
- 词汇类型维度人类方差最大: 人类个体在词汇类型使用上的差异尤为显著,而 LLM 在此维度上方差很小
- 词法规则维度差异最小: 屈折/派生形态在 NYT 体裁下,人类与 LLM 几乎无法区分(余弦相似度 0.9962–0.9990),唯一例外是 Falcon
亮点与洞察¶
-
"LLM 是语法均值人"假说: 这是论文最深刻的发现——LLM 生成文本在语法维度上表现为人类作者的"平均化"投影。人类作者间差异大于人类-LLM 差异,正是因为每个 LLM 都学到了一种"中间态"的语法风格,磨平了个体特色。这解释了为何 LLM 偏好最通用的 head-complement 构式。
-
三层级解耦的重要性: 句法构式层面人类更多样(H=3.342 > 3.284),词汇类型层面 LLM 反而更多样(H=4.877 > 4.727),词法规则层面两者几乎无差——如果不分层分析,这些模式会被淹没。这说明语言分析必须区分形态、句法和词汇层面。
-
长尾构式的诊断价值: ERG 覆盖了英语句法的完整长尾分布,发现 LLM 过度使用了一些人类极少使用的构式(如数字序列、括号修饰、碎片词汇连接 "But!"),同时缺少人类偶尔使用的风格构式(绝对 VP、度量名词修饰短语)。
-
人类文本的"非正式性": 尽管 NYT 有严格的文体规范,人类作者仍比 LLM 更多使用非正式词汇("haven't", "a couple dozen")、祈使句("See the results…")和直接强烈表达("at your own risk")。LLM 则更一致地遵循 prompt 的正式风格,独有词条中充斥数字和标点类型。
-
形式语法作为分析工具的优越性: ERG 区分了 UD 无法区分的语法现象——head-complement 不等价于 UD 的
obj,词汇类型区分同一词的不同句法用法。这种精细度使得本文能发现新的差异模式。
局限与展望¶
- 仅限英语 NYT 体裁: ERG 是目前唯一达到 94% 覆盖率的大规模 HPSG 语法,其他语言的 HPSG 语法规模不足以支持类似分析,限制了跨语言推广。
- LLM 版本较老: 评测的 LLM 为 LLaMA-1、Falcon-7B、Mistral-7B(均 2023 年前发布),未涵盖 GPT-4、Claude、Llama-3 等新一代模型。
- 统计显著性受限: 仅 9 个数据集参与比较,多重比较 FDR 校正后所有高频构式差异均不显著——需要更多数据集才能获得稳健的统计结论。
- 生成控制单一: LLM 仅使用一种 prompt 策略(标题 + 首 3 词),不同 prompt、temperature 设置可能影响语法偏好。
- 词法规则的反直觉一致性: 人类与 LLM 在词法规则上高度一致的原因未深入探讨——是体裁约束还是英语形态本身的低变异性?
相关工作与启发¶
| 工作 | 分析框架 | 分析粒度 | 核心发现 |
|---|---|---|---|
| Muñoz-Ortiz et al. 2024 | UD 依存句法 | 依存关系 + 词汇 | 人类文本更短、依存距离更优化、词汇更多样 |
| Shaib et al. 2024 | POS 序列模板 | POS n-gram | LLM 更倾向重复 POS 模板 |
| Reinhart et al. 2024 | Biber 修辞特征 | 预定义特征集 | LLM 偏好分词从句、that 从句、名词化 |
| Sardinha 2024 | Biber 特征 | 预定义特征集 | LLM 与人类在修辞维度上有系统差异 |
| 本文 | HPSG/ERG | 298 构式 + 1398 词汇类型 + 100 词法规则 | LLM 是语法"均值人";三层级差异模式不同 |
启发方向: - HPSG 分析可作为 AIGC 检测的补充特征——特别是长尾构式分布模式可能比表层统计特征更鲁棒 - "LLM 是语法均值"假说可用于指导文本水印设计——通过注入低频风格构式增强水印不可见性 - 三层级解耦思路可迁移到其他语言的 LLM 评估——即使没有大规模 HPSG 语法,也可使用更精细的句法分析框架替代粗粒度的 UD
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次使用独立于 NLP 的形式句法理论分析 LLM 文本,方法论开创性强
- 实验充分度: ⭐⭐⭐⭐ 6 个 LLM + 3 组人类数据(NYT/WSJ/Wikipedia)交叉验证,但统计显著性受限于样本数
- 写作质量: ⭐⭐⭐⭐ 语言学与 NLP 双重读者均可理解,示例丰富,但部分结论讨论略显分散
- 价值: ⭐⭐⭐⭐ "LLM 是语法均值人"的发现深刻且可启发后续研究;方法论可复用但受限于英语 ERG
- 技术深度: ⭐⭐⭐⭐ HPSG 理论应用扎实,统计分析方法合理,但未提出新模型或算法