Comparing LLM-generated and human-authored news text using formal syntactic theory¶

会议: ACL 2025
arXiv: 2506.01407
代码: https://github.com/olzama/llm-syntax
作者: Olga Zamaraeva, Dan Flickinger, Francis Bond, Carlos Gómez-Rodríguez
机构: Universidade da Coruña, Independent Researcher, Palacký University at Olomouc
领域: AIGC检测
关键词: HPSG, English Resource Grammar, LLM text analysis, syntactic diversity, authorship analysis

一句话总结¶

首次使用 HPSG 形式句法理论（通过英语资源语法 ERG）从句法构式（298 种）、词汇类型（1398 种）和词法规则（100 种）三个层级系统比较 6 个 LLM 与人类 NYT 新闻写作的语法差异，发现 LLM 在语法特征上是人类作者的 "均值化"投影——人类个体作者间的语法差异反而大于任何人类与 LLM 的差异，而 LLM 之间几乎无差别。

研究背景与动机¶

领域现状: LLM 生成文本与人类文本的比较研究日益增多，但现有工作主要聚焦于训练分类器（判断是否 AI 生成）或分析词汇分布、依存句法（UD）等浅层特征，缺乏从独立语言学理论出发的深层语法分析。
现有痛点: Universal Dependencies（UD）和 Penn Treebank（PTB）等标注体系本身是为 NLP 任务设计的，粒度有限且不独立于任务——例如 UD 的 obj 关系仅指动词与直接宾语的依存，无法区分更一般的 head-complement 构式（名词和形容词也可有补语）。用 NLP 导向的工具分析 NLP 系统的输出，存在内在偏差。
核心矛盾: 已有研究发现 LLM 倾向重复 POS 序列模板（Shaib et al. 2024）、偏好特定 Biber 修辞特征（Reinhart et al. 2024），但这些都是自上而下的特征集合，无法提供全面、一致、可复现的语法分析框架来覆盖英语句法的长尾分布。
本文目标: 如何利用独立于 NLP 的形式语言学理论，对 LLM 生成文本和人类文本进行精细到词汇句法行为层面的系统比较？
切入角度: 利用 HPSG 的计算实现——英语资源语法 ERG（覆盖 94% 编辑良好英语文本），将每个句子解析为完整的类型化句法结构，然后在三个独立层级（句法构式 / 词汇类型 / 词法规则）上统计分布差异。

方法详解¶

整体框架¶

研究包含三个阶段：数据准备 → ERG 形式句法解析 → 多维度统计分析。核心思想是把文本通过 HPSG 理论映射为显式的类型层级结构，然后在类型分布空间中比较人类与 LLM。

关键设计一：HPSG/ERG 三层级解析体系¶

HPSG（Head-driven Phrase Structure Grammar）是一种完全显式的形式句法理论，将句法结构和语义接口表示为复杂的特征-值图。ERG（English Resource Grammar）是其最大规模的英语实现，具有以下规模：

组件	ERG 总量	NYT 数据覆盖量	覆盖率
句法构式（syntactic types）	298	289	97%
词汇类型（lexical types）	1,398	1,105	79%
词条（lexical entries）	44,366	27,311	61%
词法规则（morphological rules）	100	99	99%

ERG 的核心优势在于词汇类型层级：同一个词可以属于不同的词汇类型，编码不同的句法行为。例如 "law" 有两个词条——law_n1（普通可数/不可数名词，"the law"）和 law_n2（可带从句补语的名词，"There is a law that..."）。人类文本同时使用两者，而 LLM 仅使用了 law_n1。这种粒度是 UD 或 POS 标注无法提供的。

关键设计二：多数据集交叉验证设计¶

数据来源覆盖三个维度：

NYT 人类文本: 2023.10.01–2024.01.24 期间的纽约时报文章引导段（26,102 句），通过 NYT Archive API 获取
LLM 生成文本: 6 个模型（LLaMA-7B/13B/30B/65B, Falcon-7B, Mistral-7B），用 NYT 标题 + 首 3 词作为 prompt 生成（共约 214K 句）。所有 LLM 均早于 2023.10.01 发布，确保未见过对应人类文章
Redwoods 树库: WSJ（43,043 句）和 Wikipedia（10,726 句）部分——用于验证发现是否跨风格/体裁成立

实验设计刻意分离了两个因素：① 模型缩放（同架构不同大小的 LLaMA 系列）；② 模型架构（LLaMA vs Falcon vs Mistral）。

关键设计三：统计分析方法¶

余弦相似度 + PCA 投影: 将每个数据集的 HPSG 类型频率归一化为向量，计算两两余弦相似度，用 PCA 投影可视化 98%-100% 相似度范围内的差异
Shannon 熵 \(H\) 与 Gini-Simpson 指数 \(1-\lambda\): 量化构式使用的多样性（均匀度），并用 10,000 次置换检验验证显著性
个体作者分析: 选取 12 位发表 >100 篇的 NYT 记者，逐对计算 HPSG 类型分布的余弦相似度，与 LLM 交叉比较
Mann-Whitney U 检验: 对各 HPSG 类型的相对频率差异进行统计显著性测试（附 FDR 校正）

实验关键数据¶

Table 1: 句法构式频率差异（25K 句样本）¶

构式	示例	人类频次	LLM 均值	方向
Head-complement（中心语-补语）	"It's not acceptable for democracy"	164,806	224,529	LLM >> 人类
Subject-head（主语-中心语）	"The house passed the measure…"	17,850	27,753	LLM >> 人类
Quantity NP（数量名词短语）	"many in Europe"	23,611	40,881	LLM >> 人类
Relative clauses（关系从句）	"a vote that many have seen…"	4,929	6,721	LLM >> 人类
Clause with extracted subject	"Chris Snow became an advocate…"	5,072	7,327	LLM >> 人类
Marker clause（标记子句）	"and that's a good thing"	2,891	5,660	LLM >> 人类
Clause conjunction fragment	"But the observation suits him."	939	2,076	LLM >> 人类
Questions（疑问句）	"How do you stay safe?"	268	428	LLM >> 人类
Participial clause（分词从句）	"having tried that,…"	1,736	1,116	人类 >> LLM
Modifier clause apposition	"his critics, mostly unnamed"	826	434	人类 >> LLM
Bare NP coordination（裸名词并列）	"author and commentator"	311	117	人类 >> LLM
Paired marker（配对标记）	"Both this and other discussions"	326	185	人类 >> LLM
Adjective-participle modifier	"right-handed", "red-colored"	125	64.6	人类 >> LLM
Double NP apposition（双名词同位）	"an eye for detail, decades of…"	11	5.2	人类 >> LLM
Absolute VP（绝对动词短语）	"As told, …"	10	3.8	人类 >> LLM

核心模式: LLM 大量使用最通用的基本构式（head-complement, subject-head），而人类更多使用低频的风格性构式（分词修饰、双同位语、绝对 VP）。

Table 2: 多样性指标对比（Shannon 熵）¶

维度	人类 NYT	LLaMA-7B	LLaMA-13B	LLaMA-30B	LLaMA-65B	Falcon-7B	Mistral-7B	全部 LLM 合并
句法构式 \(H\)	3.342	3.259	3.249	3.270	3.284	3.221	3.267	3.265
词汇类型 \(H\)	4.727	4.844	4.877	4.858	4.860	4.700	4.847	—

所有差异均通过置换检验（10,000 次重采样，\(p < 0.01\)）确认显著
句法构式多样性：人类最高（H=3.342），LLaMA-65B 最接近（H=3.284），Falcon 最低（H=3.221）
词汇类型多样性出现反转：多数 LLM 高于人类（LLaMA-13B 最高 H=4.877 vs 人类 H=4.727）
合并所有 LLM 输出后，句法多样性反而降至 H=3.265——聚合放大了各模型共有的高频通用构式

余弦相似度关键发现¶

句法构式余弦相似度（原始数据摘选）:

比较对	余弦相似度
LLaMA-30B vs LLaMA-65B	0.9999
LLaMA-7B vs Mistral-7B	0.9999
Falcon-7B vs LLaMA-7B	0.9966
LLaMA-65B vs 人类 NYT	0.9964
LLaMA-7B vs 人类 NYT	0.9955
WSJ vs 人类 NYT	0.9949
Wikipedia vs 人类 NYT	0.9833

LLM 之间的句法相似度（0.9966–0.9999）始终高于任何 LLM 与人类的相似度（0.9950–0.9965），后者又高于跨体裁的人类文本相似度（Wikipedia vs NYT = 0.9833）。

词汇足迹差异（25K 句样本）¶

模型	人类独有词汇类型	LLM 独有词汇类型	人类独有词条	LLM 独有词条
LLaMA-7B	62	70	5,704	2,519
LLaMA-13B	71	80	5,557	2,617
LLaMA-30B	65	62	5,531	2,608
LLaMA-65B	66	74	5,302	2,745
Mistral-7B	73	76	5,809	2,353
Falcon-7B	91	55	6,212	2,015
全部 LLM	66	70	1,721	2,398

人类单独使用的词条约为单个 LLM 的 2 倍（5,000–6,000 vs 2,000–2,700），但合并所有 LLM 后（2,398 vs 1,721），集体 LLM 的词汇覆盖度反超人类。

个体作者 vs LLM 的核心发现¶

人类间差异 > 人类-LLM 差异: 12 位 NYT 记者之间的句法分布余弦相似度的方差，显著大于任何人类与 LLM 之间的差异
LLM 间差异极小: 6 个 LLM 在所有类型维度上高度聚集
词汇类型维度人类方差最大: 人类个体在词汇类型使用上的差异尤为显著，而 LLM 在此维度上方差很小
词法规则维度差异最小: 屈折/派生形态在 NYT 体裁下，人类与 LLM 几乎无法区分（余弦相似度 0.9962–0.9990），唯一例外是 Falcon

亮点与洞察¶

"LLM 是语法均值人"假说: 这是论文最深刻的发现——LLM 生成文本在语法维度上表现为人类作者的"平均化"投影。人类作者间差异大于人类-LLM 差异，正是因为每个 LLM 都学到了一种"中间态"的语法风格，磨平了个体特色。这解释了为何 LLM 偏好最通用的 head-complement 构式。
三层级解耦的重要性: 句法构式层面人类更多样（H=3.342 > 3.284），词汇类型层面 LLM 反而更多样（H=4.877 > 4.727），词法规则层面两者几乎无差——如果不分层分析，这些模式会被淹没。这说明语言分析必须区分形态、句法和词汇层面。
长尾构式的诊断价值: ERG 覆盖了英语句法的完整长尾分布，发现 LLM 过度使用了一些人类极少使用的构式（如数字序列、括号修饰、碎片词汇连接 "But!"），同时缺少人类偶尔使用的风格构式（绝对 VP、度量名词修饰短语）。
人类文本的"非正式性": 尽管 NYT 有严格的文体规范，人类作者仍比 LLM 更多使用非正式词汇（"haven't", "a couple dozen"）、祈使句（"See the results…"）和直接强烈表达（"at your own risk"）。LLM 则更一致地遵循 prompt 的正式风格，独有词条中充斥数字和标点类型。
形式语法作为分析工具的优越性: ERG 区分了 UD 无法区分的语法现象——head-complement 不等价于 UD 的 obj，词汇类型区分同一词的不同句法用法。这种精细度使得本文能发现新的差异模式。

局限与展望¶

仅限英语 NYT 体裁: ERG 是目前唯一达到 94% 覆盖率的大规模 HPSG 语法，其他语言的 HPSG 语法规模不足以支持类似分析，限制了跨语言推广。
LLM 版本较老: 评测的 LLM 为 LLaMA-1、Falcon-7B、Mistral-7B（均 2023 年前发布），未涵盖 GPT-4、Claude、Llama-3 等新一代模型。
统计显著性受限: 仅 9 个数据集参与比较，多重比较 FDR 校正后所有高频构式差异均不显著——需要更多数据集才能获得稳健的统计结论。
生成控制单一: LLM 仅使用一种 prompt 策略（标题 + 首 3 词），不同 prompt、temperature 设置可能影响语法偏好。
词法规则的反直觉一致性: 人类与 LLM 在词法规则上高度一致的原因未深入探讨——是体裁约束还是英语形态本身的低变异性？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次使用独立于 NLP 的形式句法理论分析 LLM 文本，方法论开创性强
实验充分度: ⭐⭐⭐⭐ 6 个 LLM + 3 组人类数据(NYT/WSJ/Wikipedia)交叉验证，但统计显著性受限于样本数
写作质量: ⭐⭐⭐⭐ 语言学与 NLP 双重读者均可理解，示例丰富，但部分结论讨论略显分散
价值: ⭐⭐⭐⭐ "LLM 是语法均值人"的发现深刻且可启发后续研究；方法论可复用但受限于英语 ERG
技术深度: ⭐⭐⭐⭐ HPSG 理论应用扎实，统计分析方法合理，但未提出新模型或算法

工作	分析框架	分析粒度	核心发现
Muñoz-Ortiz et al. 2024	UD 依存句法	依存关系 + 词汇	人类文本更短、依存距离更优化、词汇更多样
Shaib et al. 2024	POS 序列模板	POS n-gram	LLM 更倾向重复 POS 模板
Reinhart et al. 2024	Biber 修辞特征	预定义特征集	LLM 偏好分词从句、that 从句、名词化
Sardinha 2024	Biber 特征	预定义特征集	LLM 与人类在修辞维度上有系统差异
本文	HPSG/ERG	298 构式 + 1398 词汇类型 + 100 词法规则	LLM 是语法"均值人"；三层级差异模式不同