What Makes AI Research Replicable? Executable Knowledge Graphs as Scientific Knowledge Representations¶
会议: ACL2026
arXiv: 2510.17795
代码: https://github.com/zjunlp/xKG
领域: graph_learning
关键词: 可执行知识图谱、论文复现、代码检索、科研 Agent、PaperBench
一句话总结¶
本文提出 Executable Knowledge Graphs (xKG),把论文中的技术概念和可运行代码片段组织成 Paper- Technique- Code 三层图结构,作为可插拔知识库辅助科研复现 agent,在 PaperBench Code-Dev 上为不同 agent 带来最高 10.90 个百分点的复制得分提升。
研究背景与动机¶
领域现状:LLM agent 已经开始被用于自动化科研任务,例如读论文、写代码、复现实验和扩展已有方法。PaperBench、MLE-Bench、LMR-Bench 等 benchmark 都在衡量 agent 是否能把论文中的方法真正落到代码实现上。
现有痛点:AI 论文复现难,不只是因为论文长,而是因为关键知识分散在正文、附录、引用论文、官方代码、配置文件和实现细节里。普通 RAG 可以检索文本片段,却很难知道某个“技术概念”到底对应哪段可运行代码;只看论文又容易缺少隐藏实现细节,只看 repo 又难以理解代码背后的方法结构。
核心矛盾:科研复现需要的是“可执行的科学知识”,但现有知识表示大多停留在文本、摘要或粗粒度概念层面。Agent 真正卡住的往往是低层实现:损失函数怎么写、模块如何拼、超参数如何配置、代码接口怎么调用。如果知识库不能把概念和可执行代码连接起来,就只能提供泛泛背景,无法支撑 repo-level implementation。
本文目标:作者希望构建一个 paper-centric、可自动更新、可插拔到不同 agent 框架中的知识库。它既能给 agent 高层方法结构,也能在写代码时提供低层可执行参考,从而提升 AI 研究复现的可靠性。
切入角度:论文把“科学知识”从普通文本知识图谱扩展成 Executable Knowledge Graph。图中的节点不只是概念,还包括经过验证的代码单元;边也不只是语义关系,还包含技术结构依赖和概念到代码的实现关系。
核心 idea:把论文分解成可复用技术节点,并把每个技术节点 grounding 到经过重写、调试和验证的 Code Node,让科研 agent 在规划阶段能看方法结构,在实现阶段能检索可运行代码。
方法详解¶
xKG 是一个面向 AI 论文复现的层级知识图谱。它既有图的结构化表示,也有自动构建流水线和 agent 集成方式。整个系统围绕目标论文展开:先找相关论文和官方 repo,再抽取技术概念和代码实现,最后把这些知识作为工具或模块接入复现 agent。
整体框架¶
xKG 的形式化表示为 \(xKG=(N,E)\)。节点集合分为三类:Paper Node、Technique Node 和 Code Node;边集合分为 Structural Edge 和 Implementation Edge。Paper Node 表示一篇论文及其元数据、技术节点和代码节点;Technique Node 表示一个可自包含的学术概念或方法组件;Code Node 表示一个可执行单元,包含实现代码、测试脚本和文档说明。
构建流程分为两大块。第一块是 paper-aware corpus curation:围绕目标 PaperBench 任务,自动识别核心技术、选择高相关引用论文和 web 检索结果、下载 arXiv 源文和官方 GitHub repo,并过滤没有官方实现的论文。第二块是 hierarchical KG construction:从论文抽技术树,从 repo 取代码片段,生成并验证 Code Node,再剪掉无法 grounding 到代码的技术节点。
关键设计¶
-
Paper-Technique-Code 三层节点表示:
- 功能:同时表达论文整体结构、方法概念和可执行实现,支撑从高层规划到低层编码的复现流程。
- 核心思路:Paper Node 保存论文元信息及其技术/代码节点集合;Technique Node 保存方法定义和可选子技术节点,能表示完整框架或可复用模块;Code Node 保存实现 \(\sigma\)、测试脚本 \(\tau\) 和文档 \(\delta\)。Structural Edge 连接技术节点之间的架构依赖,Implementation Edge 连接技术节点与对应代码。
- 设计动机:普通 RAG 返回的是片段,agent 还要自己判断哪些片段属于方法结构、哪些代码能用。三层图把“论文说了什么”和“代码怎么实现”显式对齐,减少 agent 自行拼接的负担。
-
可执行 grounding 的自动构建流水线:
- 功能:把论文和 repo 自动转成可复用、可执行的知识资源。
- 核心思路:作者先用 o4-mini 抽取论文技术树,再用 Paper-RAG 补充每个技术节点定义;随后以技术定义为 query,在官方 repo 中通过 embedding 检索代码片段,并用 o4-mini 合成 Code Node。每个 Code Node 会经过自调试循环,确保可执行;如果某个技术节点无法找到相关代码,就在知识过滤阶段被剪掉。
- 设计动机:论文抽取本身容易产生过细、幻觉或不可实现的概念。要求技术节点必须能落到代码,相当于用“可执行性”作为知识质量过滤器。
-
两阶段 agent 集成方式:
- 功能:让 xKG 既能帮助 agent 理解论文,又能帮助 agent 写具体代码。
- 核心思路:在 high-level planning 阶段,agent 获取目标论文的 Paper Node,但不直接暴露 Code Node,以免规划阶段被实现细节淹没;在 low-level implementation 阶段,agent 查询与当前目标相关的 Technique-Code pairs。最终还有一个 LLM verifier 过滤检索结果,保证技术相关且可实现。
- 设计动机:复现任务有两个不同难点:先理解方法结构,再写出功能正确的代码。把 xKG 按阶段暴露给 agent,可以避免一开始就堆大量代码,也能在真正编码时提供细粒度参考。
损失函数 / 训练策略¶
本文没有提出新的神经训练损失,而是构建知识图谱并把它作为可插拔模块接入 agent。涉及的模型调用主要用于技术抽取、代码模块化、自调试和 verifier。检索侧使用 text-embedding-3-small、all-MiniLM-L6-v2 等 embedding 计算相似度,关键阈值包括 technique_similarity=0.6、paper_similarity=0.6。
实验关键数据¶
主实验¶
作者在 PaperBench Code-Dev lite subset 上评估 xKG,任务是从论文复现代码开发部分,得分由 o3-mini 基于层级 rubric 评估。xKG 被接入 BasicAgent、IterativeAgent 和 PaperCoder,并测试 o3-mini 与 DeepSeek-R1 两种 backbone。
| Agent | Backbone | vanilla 平均分 | +xKG 平均分 | 提升 |
|---|---|---|---|---|
| BasicAgent | o3-mini | 17.89 | 24.57 | +6.68 |
| BasicAgent | DeepSeek-R1 | 27.89 | 31.62 | +3.73 |
| IterativeAgent | o3-mini | 24.60 | 31.91 | +7.31 |
| IterativeAgent | DeepSeek-R1 | 27.02 | 35.22 | +8.20 |
| PaperCoder | o3-mini | 42.31 | 53.21 | +10.90 |
| PaperCoder | DeepSeek-R1 | 52.23 | 60.34 | +8.11 |
从表中可以看出,xKG 对简单 ReAct agent 和更强的 PaperCoder 都有帮助,说明它不是只适配某个固定框架。PaperCoder + o3-mini 的提升最大,从 42.31 到 53.21,说明强 agent 在拿到结构化可执行知识后,能把优势转化成更完整的实现。
| 目标论文 / 任务 | BasicAgent o3-mini | + xKG | 典型现象 |
|---|---|---|---|
| MU-DPO | 12.96 | 37.22 | 大幅提升,相关技术和代码可复用度高 |
| TTA-FP | 22.63 | 27.26 | 中等提升,结构知识有帮助 |
| One-SBI | 18.24 | 20.82 | 小幅提升,创新结构较难从既有知识迁移 |
| FRE | 14.82 | 14.67 | 轻微下降,检索知识可能干扰特定实现 |
| 平均 | 17.89 | 24.57 | 整体 +6.68 |
消融实验¶
节点类型消融在 PaperCoder + o3-mini 上进行,直接检验 Paper Node、Technique Node 和 Code Node 哪个最关键。
| 配置 | Replication Score | Drop | 说明 |
|---|---|---|---|
| xKG Full | 53.21 | - | 完整图谱 |
| w/o Paper Node | 51.08 | 2.13 | 缺少目标论文整体结构后,规划质量下降 |
| w/o Code Node | 48.65 | 4.56 | 最大退化,说明可执行代码是核心增益来源 |
| w/o Technique Node | 52.16 | 1.05 | 影响较小,部分技术信息已被 Code Node 隐式包含 |
作者还做了 xKG 质量与扩展性分析。自动构建的技术节点、代码节点和技术-代码对并非全都完美,但整体质量足以支撑 agent。
| 分析项 | 数值 | 含义 |
|---|---|---|
| Technique valid rate | 89.44% | 大多数技术节点是自包含学术概念 |
| Code valid rate | 100.00% | 自调试后 Code Node 可执行 |
| Tech-Code pair match | 74.51% | 仍有约四分之一配对不够精确 |
| 初始 Code Node 可执行率 | 52.38% | 自调试前可执行性不足 |
| 平均构建成本 | 约 0.7344 美元 / paper | 主要成本来自代码模块化与调试 |
关键发现¶
- Code Node 是最关键组件。去掉 Code Node 掉 4.56 分,明显大于去掉 Paper Node 或 Technique Node,说明复现瓶颈主要在“可执行实现”而不只是理解概念。
- xKG 对分析型或组合型论文更有用,例如 MU-DPO 这种建立在可复用技术上的论文;对全新方法架构,如 One-SBI,既有知识帮助较小。
- xKG 可以自演化。扩展到 56 篇相关论文后,bridging-data-gaps 任务从 11.55 提升到 44.64,sample-specific-masks 从 24.09 提升到 42.47,说明知识库越贴近目标论文,收益越明显。
亮点与洞察¶
- “可执行知识图谱”这个定义抓住了科研 agent 的真实痛点。复现不是回答论文内容问答,而是把抽象方法变成可运行代码,因此知识表示必须包含实现单元。
- 知识过滤步骤很关键:只有能 grounding 到代码的技术节点才保留。这会牺牲一些理论描述完整性,但换来更高的实用性和更少幻觉节点。
- 高层规划不暴露 Code Node、低层实现再检索代码,是一个很好的 agent memory 设计原则。它避免 agent 在规划阶段被代码细节干扰,也避免实现阶段只拿到抽象概念。
- 论文的 case study 显示 xKG 能把 agent 从“搭空架子”推向“写实质模块”。这比单纯提高最终分数更有解释力。
局限与展望¶
- PaperBench lite 评测成本仍高,论文受经费限制没有跑完整 PaperBench,也没有大规模跨领域 stress test。
- xKG 依赖目标领域已有相关论文和官方代码。对于非常新的方向、闭源方法或没有可靠 repo 的论文,图谱很难构建出有用 Code Node。
- 代码检索和重写仍可能把语义相似但技术无关的代码包装得很漂亮,从而误导 agent。作者用 verifier 缓解,但 Tech-Code pair match 74.51% 说明这仍是核心风险。
- 目前更多展示的是离线构建知识库后辅助复现。未来可以考虑在线更新、失败反馈回写图谱、执行结果驱动的图谱修正。
相关工作与启发¶
- vs 普通 RAG: RAG 检索文本或代码片段,xKG 则把论文结构、技术概念和代码实现显式成图,并通过可执行性过滤知识。
- vs AutoMind / AI-Researcher 等科研 agent: 这些系统关注 agent 工作流本身,xKG 更像底层可插拔知识基座,可以接入不同 agent 框架。
- vs Paper2Code / AutoReproduce: 这些工作直接从目标论文生成代码,xKG 强调复用相关论文和官方 repo 中的可执行知识,降低从零实现的难度。
- vs ExeKG: 名称接近,但问题不同。早期 ExeKG 面向透明数据分析或工业监控,本文 xKG 面向 AI 论文复现,并采用更轻量的 Paper-Technique-Code 结构。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 将 KG 的节点扩展到可执行代码并服务科研复现,概念清晰且贴合 agent 需求。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖多个 agent/backbone、节点消融和质量分析,但完整 PaperBench 与更广领域验证仍有限。
- 写作质量: ⭐⭐⭐⭐☆ 方法结构易懂,实验表格信息密集;个别实现细节分散在附录,需要来回对照。
- 价值: ⭐⭐⭐⭐⭐ 对自动科研复现、paper-to-code、代码 RAG 和 agent memory 设计都有很高参考价值。