Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs¶
会议: ICLR 2026
arXiv: 2601.20704
代码: 无
领域: AI安全 / 图学习
关键词: LLM引用检测, 引用图, 图神经网络, 语义嵌入, 学术诚信
一句话总结¶
通过构建 10000 篇论文的配对引用图(人类 vs GPT-4o 生成 vs 随机基线),发现 LLM 生成的参考文献在图拓扑结构上与人类几乎不可区分(RF 仅 60% 准确率),但语义嵌入可有效检测(RF 83%,GNN 93%),说明 LLM 精确模仿了引用拓扑但留下了可检测的语义指纹。
研究背景与动机¶
领域现状:LLM 越来越多地被用于合成科学知识、起草文献综述和建议参考文献。先前研究发现 LLM 生成的参考文献在粗粒度指标上与人类相似(标题长度、团队规模、引用数),但在细节上有系统偏差(马太效应加强、偏好近期论文、减少自引用)。
现有痛点:尚不清楚能否可靠地区分 LLM 和人类生成的参考文献列表。单条引用审计(如 LLM-Check)不足以捕获列表级别的模式。
核心矛盾:LLM 是否真正理解引用结构,还是只是表面模仿?如果拓扑结构相同,差异在哪里?
本文目标:系统评估 LLM 生成的引用图与人类引用图在结构和语义两个维度上的差异,并开发检测方法。
切入角度:渐进式建模策略——从可解释的图结构特征到语义嵌入,再到 GNN,逐步分解拓扑 vs 语义的贡献。
核心 idea:LLM 参考文献"结构上像人类,语义上有偏差"——检测应针对内容信号而非图结构。
方法详解¶
整体框架¶
整套方法是一个层层剥离的对照实验:先为同一批焦点论文构建三种可直接比较的引用图(人类真实、GPT-4o 生成、领域匹配随机基线),再从每张图分别抽取纯拓扑特征和纯语义嵌入,分两路去喂分类器,看哪一路信号才真正撑得起"人类 vs LLM"的判别。检测器从可解释的随机森林一直递进到能联合利用结构和语义的 GNN,从而把拓扑贡献和语义贡献拆解清楚。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
A["10000 篇焦点论文"] --> B
subgraph B["配对引用图构建(设计 1)"]
direction TB
B1["真实图<br/>SciSciNet 实际引用"]
B2["GPT-4o 图<br/>仅元信息凭记忆生成"]
B3["随机基线图<br/>同领域重排保度分布"]
end
B --> C1["拓扑特征<br/>5 维中心性/聚类"]
B --> C2["语义嵌入<br/>3072 维文本编码"]
C1 --> D["拓扑与语义分路对照<br/>各喂随机森林(设计 2)"]
C2 --> D
C1 --> E["GNN 图级分类<br/>联合结构与语义(设计 3)"]
C2 --> E
D --> F["人类 vs LLM 判别"]
E --> F
关键设计¶
1. 配对引用图构建:让三种来源的图在同一焦点论文上严格可比
判别 LLM 引用是否"像人类"最大的混淆因素,是不同论文的主题和领域本身就会带来引用结构差异。为此本文从 SciSciNet 采样 10000 篇焦点论文,对每篇都构建三张共享同一主节点的引用图:真实图的边来自 SciSciNet 检索到的实际引用关系;GPT-4o 图只喂入标题、摘要、作者等元信息,让模型纯参数化地"凭记忆"生成参考列表,不接任何检索;随机基线图则在同领域内均匀重排引用、保持度分布不变。三张图共享焦点节点、规模相当,差异只来自引用内容本身,这样后续任何判别力都能干净地归因到"人类 vs 生成"而非主题分布差异。随机基线进一步充当锚点——如果连随机图都难以区分,说明任务本身退化。
2. 拓扑特征与语义嵌入的分路对照:定位判别信号到底来自结构还是内容
为了回答"LLM 是真懂引用结构还是只在表面模仿",本文把两类信号严格隔离后各自送进分类器。拓扑路只取五个图结构量——度中心性、接近中心性、特征向量中心性、聚类系数和边数,刻画引用网络的连接形态;语义路则用 OpenAI text-embedding-3-large 把每个节点的论文文本编码成 3072 维嵌入,再聚合成图级表示。两路特征分别喂同一个随机森林,准确率的落差就直接量化了拓扑与内容各自携带多少判别信息。实验里拓扑路只有 0.608(几乎贴着随机),语义路跳到 0.835,正是这个对比支撑了"结构像人、语义有偏"的核心结论。为排除"3072 维本身带来的容量优势"这一干扰,作者还用随机嵌入替换真实嵌入,准确率掉回约 0.50,确认判别力来自语义结构而非维度。
3. GNN 图级分类:联合结构与语义把上限推到最高
随机森林只能吃聚合后的图级特征,会丢掉节点间的关系信息。本文进一步用 GCN/GAT/GIN/GraphSAGE 做图级二分类,节点特征可以是 5 维结构属性,也可以是 3072 维语义嵌入,经过消息传递和图级 readout 后输出"人类 vs 生成"。当节点特征用语义嵌入时,GNN 把准确率从随机森林的 0.835 进一步推到 0.93——既验证了图结构能放大语义信号,也给出了该任务可达的检测上限;而仅用结构特征的 GNN 仍停在约 0.55,再次印证拓扑本身不足以区分。
损失函数 / 训练策略¶
GNN 用 Adam 优化器训练,数据按 70/15/15 划分训练/验证/测试,且类别平衡以避免偏置。鲁棒性上做了两层交叉验证:生成器侧用 GPT-4o 与 Claude Sonnet 4.5 双 LLM(GPT 训练、Claude 测试仍保持约 0.72 准确率,说明检测器不是过拟合单一生成器);嵌入侧用 SPECTER 与 OpenAI 双模型,确认语义指纹不依赖特定编码器。
实验关键数据¶
主实验¶
| 方法 | GT vs GPT | GT vs Random | GPT vs Random |
|---|---|---|---|
| RF (结构特征) | 0.608 | 0.896 | 0.928 |
| RF (语义嵌入) | 0.835 | 0.908 | 0.953 |
| GNN (结构特征) | ~0.55 | ~0.90 | ~0.93 |
| GNN (语义嵌入) | 0.93 | ~0.95 | ~0.97 |
消融实验¶
| 配置 | GT vs GPT 准确率 | 说明 |
|---|---|---|
| GNN + 嵌入 | 93% | 最佳 |
| RF + 嵌入 | 83.5% | 语义嵌入贡献大 |
| RF + 结构 | 60.8% | 接近随机 |
| GNN + 结构 | ~55% | 结构完全不够 |
| 随机嵌入替换 | ~50% | 确认非维度效应 |
| 跨生成器(GPT训练→Claude测试) | ~72% | 泛化到其他LLM |
关键发现¶
- 拓扑几乎不可区分:GPT 引用图的中心性、聚类系数与真实图高度重叠,RF 仅 60%
- 语义指纹可检测:嵌入特征将准确率从 60% 提升到 83%(RF)/ 93%(GNN)
- 随机基线容易区分:真实 vs 随机 89%+,GPT vs 随机 93%+——说明 GPT 确实生成了结构合理的引用
- 跨 LLM 泛化:GPT-4o 训练的分类器对 Claude 仍有 72% 准确率
- 用随机嵌入替换后准确率降到 50%,确认是语义结构而非维度带来的区分力
亮点与洞察¶
- "结构像人,语义有偏"的发现对审计和去偏策略有直接指导意义——应关注内容信号而非图结构
- 领域匹配随机基线的设计严谨——同领域重排引用控制了主题分布
- 渐进式分析(结构→嵌入→GNN)清晰展示了每个层次的贡献
局限与展望¶
- 仅测试了参数化生成(无 RAG),实际应用中 LLM 可能有检索增强
- 语义差异的具体维度(近期偏好、声望偏好等)未深入分析
- 3072-D 嵌入的哪些维度驱动区分力?
- 仅二分类,未探索多分类(部分 LLM 参考)
相关工作与启发¶
- vs LLM-Check:LLM-Check 审计单条引用存在性,本文评估整个引用列表的图级模式
- vs Algaba et al.:先前工作发现粗粒度一致性,本文通过 GNN + 嵌入实现高准确率自动检测
评分¶
- 新颖性: ⭐⭐⭐⭐ 引用图+GNN 的组合新颖,但分析框架本身较直接
- 实验充分度: ⭐⭐⭐⭐⭐ 10000 图、双 LLM、双嵌入模型、多基线、随机嵌入控制,非常全面
- 写作质量: ⭐⭐⭐⭐ 可视化出色,逐层分析清晰
- 价值: ⭐⭐⭐⭐ 对学术诚信和 AI 辅助写作有实际意义