Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs¶

会议: ICLR 2026
arXiv: 2601.20704
代码: 无
领域: AI安全 / 图学习
关键词: LLM引用检测, 引用图, 图神经网络, 语义嵌入, 学术诚信

一句话总结¶

通过构建 10000 篇论文的配对引用图（人类 vs GPT-4o 生成 vs 随机基线），发现 LLM 生成的参考文献在图拓扑结构上与人类几乎不可区分（RF 仅 60% 准确率），但语义嵌入可有效检测（RF 83%，GNN 93%），说明 LLM 精确模仿了引用拓扑但留下了可检测的语义指纹。

研究背景与动机¶

领域现状：LLM 越来越多地被用于合成科学知识、起草文献综述和建议参考文献。先前研究发现 LLM 生成的参考文献在粗粒度指标上与人类相似（标题长度、团队规模、引用数），但在细节上有系统偏差（马太效应加强、偏好近期论文、减少自引用）。

现有痛点：尚不清楚能否可靠地区分 LLM 和人类生成的参考文献列表。单条引用审计（如 LLM-Check）不足以捕获列表级别的模式。

核心矛盾：LLM 是否真正理解引用结构，还是只是表面模仿？如果拓扑结构相同，差异在哪里？

本文目标：系统评估 LLM 生成的引用图与人类引用图在结构和语义两个维度上的差异，并开发检测方法。

切入角度：渐进式建模策略——从可解释的图结构特征到语义嵌入，再到 GNN，逐步分解拓扑 vs 语义的贡献。

核心 idea：LLM 参考文献"结构上像人类，语义上有偏差"——检测应针对内容信号而非图结构。

方法详解¶

整体框架¶

整套方法是一个层层剥离的对照实验：先为同一批焦点论文构建三种可直接比较的引用图（人类真实、GPT-4o 生成、领域匹配随机基线），再从每张图分别抽取纯拓扑特征和纯语义嵌入，分两路去喂分类器，看哪一路信号才真正撑得起"人类 vs LLM"的判别。检测器从可解释的随机森林一直递进到能联合利用结构和语义的 GNN，从而把拓扑贡献和语义贡献拆解清楚。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["10000 篇焦点论文"] --> B
    subgraph B["配对引用图构建（设计 1）"]
        direction TB
        B1["真实图<br/>SciSciNet 实际引用"]
        B2["GPT-4o 图<br/>仅元信息凭记忆生成"]
        B3["随机基线图<br/>同领域重排保度分布"]
    end
    B --> C1["拓扑特征<br/>5 维中心性/聚类"]
    B --> C2["语义嵌入<br/>3072 维文本编码"]
    C1 --> D["拓扑与语义分路对照<br/>各喂随机森林（设计 2）"]
    C2 --> D
    C1 --> E["GNN 图级分类<br/>联合结构与语义（设计 3）"]
    C2 --> E
    D --> F["人类 vs LLM 判别"]
    E --> F

关键设计¶

1. 配对引用图构建：让三种来源的图在同一焦点论文上严格可比

判别 LLM 引用是否"像人类"最大的混淆因素，是不同论文的主题和领域本身就会带来引用结构差异。为此本文从 SciSciNet 采样 10000 篇焦点论文，对每篇都构建三张共享同一主节点的引用图：真实图的边来自 SciSciNet 检索到的实际引用关系；GPT-4o 图只喂入标题、摘要、作者等元信息，让模型纯参数化地"凭记忆"生成参考列表，不接任何检索；随机基线图则在同领域内均匀重排引用、保持度分布不变。三张图共享焦点节点、规模相当，差异只来自引用内容本身，这样后续任何判别力都能干净地归因到"人类 vs 生成"而非主题分布差异。随机基线进一步充当锚点——如果连随机图都难以区分，说明任务本身退化。

2. 拓扑特征与语义嵌入的分路对照：定位判别信号到底来自结构还是内容

为了回答"LLM 是真懂引用结构还是只在表面模仿"，本文把两类信号严格隔离后各自送进分类器。拓扑路只取五个图结构量——度中心性、接近中心性、特征向量中心性、聚类系数和边数，刻画引用网络的连接形态；语义路则用 OpenAI text-embedding-3-large 把每个节点的论文文本编码成 3072 维嵌入，再聚合成图级表示。两路特征分别喂同一个随机森林，准确率的落差就直接量化了拓扑与内容各自携带多少判别信息。实验里拓扑路只有 0.608（几乎贴着随机），语义路跳到 0.835，正是这个对比支撑了"结构像人、语义有偏"的核心结论。为排除"3072 维本身带来的容量优势"这一干扰，作者还用随机嵌入替换真实嵌入，准确率掉回约 0.50，确认判别力来自语义结构而非维度。

3. GNN 图级分类：联合结构与语义把上限推到最高

随机森林只能吃聚合后的图级特征，会丢掉节点间的关系信息。本文进一步用 GCN/GAT/GIN/GraphSAGE 做图级二分类，节点特征可以是 5 维结构属性，也可以是 3072 维语义嵌入，经过消息传递和图级 readout 后输出"人类 vs 生成"。当节点特征用语义嵌入时，GNN 把准确率从随机森林的 0.835 进一步推到 0.93——既验证了图结构能放大语义信号，也给出了该任务可达的检测上限；而仅用结构特征的 GNN 仍停在约 0.55，再次印证拓扑本身不足以区分。

损失函数 / 训练策略¶

GNN 用 Adam 优化器训练，数据按 70/15/15 划分训练/验证/测试，且类别平衡以避免偏置。鲁棒性上做了两层交叉验证：生成器侧用 GPT-4o 与 Claude Sonnet 4.5 双 LLM（GPT 训练、Claude 测试仍保持约 0.72 准确率，说明检测器不是过拟合单一生成器）；嵌入侧用 SPECTER 与 OpenAI 双模型，确认语义指纹不依赖特定编码器。

实验关键数据¶

主实验¶

方法	GT vs GPT	GT vs Random	GPT vs Random
RF (结构特征)	0.608	0.896	0.928
RF (语义嵌入)	0.835	0.908	0.953
GNN (结构特征)	~0.55	~0.90	~0.93
GNN (语义嵌入)	0.93	~0.95	~0.97

消融实验¶

配置	GT vs GPT 准确率	说明
GNN + 嵌入	93%	最佳
RF + 嵌入	83.5%	语义嵌入贡献大
RF + 结构	60.8%	接近随机
GNN + 结构	~55%	结构完全不够
随机嵌入替换	~50%	确认非维度效应
跨生成器（GPT训练→Claude测试）	~72%	泛化到其他LLM

关键发现¶

拓扑几乎不可区分：GPT 引用图的中心性、聚类系数与真实图高度重叠，RF 仅 60%
语义指纹可检测：嵌入特征将准确率从 60% 提升到 83%（RF）/ 93%（GNN）
随机基线容易区分：真实 vs 随机 89%+，GPT vs 随机 93%+——说明 GPT 确实生成了结构合理的引用
跨 LLM 泛化：GPT-4o 训练的分类器对 Claude 仍有 72% 准确率
用随机嵌入替换后准确率降到 50%，确认是语义结构而非维度带来的区分力

亮点与洞察¶

"结构像人，语义有偏"的发现对审计和去偏策略有直接指导意义——应关注内容信号而非图结构
领域匹配随机基线的设计严谨——同领域重排引用控制了主题分布
渐进式分析（结构→嵌入→GNN）清晰展示了每个层次的贡献

局限与展望¶

仅测试了参数化生成（无 RAG），实际应用中 LLM 可能有检索增强
语义差异的具体维度（近期偏好、声望偏好等）未深入分析
3072-D 嵌入的哪些维度驱动区分力？
仅二分类，未探索多分类（部分 LLM 参考）

评分¶

新颖性: ⭐⭐⭐⭐ 引用图+GNN 的组合新颖，但分析框架本身较直接
实验充分度: ⭐⭐⭐⭐⭐ 10000 图、双 LLM、双嵌入模型、多基线、随机嵌入控制，非常全面
写作质量: ⭐⭐⭐⭐ 可视化出色，逐层分析清晰
价值: ⭐⭐⭐⭐ 对学术诚信和 AI 辅助写作有实际意义