SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models¶
会议: ICLR 2026
arXiv: 2510.24427
代码: GitHub
领域: 机器人
关键词: Knowledge Advantage Gap, Reasoning vs Memorization, Parallel Corpora, Multi-hop QA, RAG Evaluation
一句话总结¶
构建结构完全相同但实体分别映射到真实/合成名称的平行语料库,通过对比两个"平行世界"上的任务表现来量化 LLM 的参数化知识优势差距(Knowledge Advantage Gap),发现即使有 RAG 和 CoT 增强,该差距依然持续存在。
研究背景与动机¶
领域现状:语言模型在多跳问答、网页导航等复杂任务上表现日益出色,但由于训练数据通常未公开,很难判断性能提升究竟来自推理能力还是对训练数据中事实知识的记忆。现有 benchmark 随训练数据扩大而逐渐失效——例如 MuSiQue(2021年发布)设计时模型无法在无文档条件下回答的问题,如今 Llama-3.3-70B 已能达到 26%+ 的 F1。
现有痛点: 1. 人工策展的评估集:成本高、难扩展,需持续更新,且终会被模型训练数据覆盖 2. 合成数据方法:要么直接使用现有内容(如小说)导致参数知识泄漏,要么使用过于简单的模板(如 "The job of David is a farmer"),无法测试复杂关联推理 3. 仅测合成任务的局限:成功只证明模型能推理,失败则模棱两可——可能是推理链太难,也可能是缺少通常依赖的背景知识
核心矛盾:现有评估方法无法同时控制任务推理难度和参数化知识的贡献。如果不把推理和记忆在实验上解耦,就无法回答"模型到底在推理还是在回忆"这个根本问题。
本文方案:提出 SynthWorlds 框架,从知识图谱自动生成两个结构完全相同的平行语料库: - Real-Mapped (RM):实体使用真实名称(如 Geoffrey Hinton、University of Toronto),参数化知识可能有用 - Synth-Mapped (SM):实体使用合成名称(如 Caleb Ardent、University of Metrovale),参数化知识完全无用
在两个语料库上构建难度相同的平行任务,通过性能差距 \(\text{KA} = P_R - P_S\) 精确量化参数化知识的贡献。
方法详解¶
整体框架¶
SynthWorlds 的生成流程分为三个阶段:
- 宇宙构建:从 Wikidata 知识图谱采样连通子图,包含三元组事实(subject → relation → object)
- 实体重命名:将所有命名实体系统性重命名为合成名称,保持类型一致性(人名 → 人名、城市 → 城市、派生名保持一致,如 University of Toronto → University of Metrovale)
- 文档生成:基于合成三元组用 LLM 生成文档,再通过符号引用替换生成 RM 对应文档
最终输出两个平行语料库,每个包含 6,290 篇文档、约 150 万 token、161K 条事实,覆盖 956 种实体类型和 354 种关系。
关键设计1: 类型一致的实体重命名¶
重命名不是简单的随机替换,而需保持语义一致性——表面形式必须与实体的本体论类型兼容: - 人名 → 人名(Geoffrey Hinton → Caleb Ardent) - 城市 → 城市名(Toronto → Metrovale) - 派生名一致(University of Toronto → University of Metrovale,而非 University of Grandvale) - 图书馆保持图书馆名(Central Library → Oakwood Public Library,而非 Central Stadium)
这确保了表面形式差异不会在 RM 和 SM 之间引入额外的信号,使得性能差异真正反映参数化知识的作用。同时保留了常识知识(如"医院有医生")和领域通用知识(如物理定律),仅消除了实体特定的事实知识。
关键设计2: 平行任务构建与难度控制¶
在两个语料库上构建两类平行任务:
多跳问答(Multi-hop QA): - 从事实图谱 \(G_{facts}\) 中采样匹配推理模式(motif)的子图 - 为每个三元组生成单跳问题,再组合为多跳问题 - 通过 6 种不同推理模式(2-4 跳)精确控制难度 - 确保每个推理步骤来自不同文档,需要跨文档推理 - 总计 1,200 个平行问答对
页面导航(Page Navigation): - 将文档间的符号引用作为超链接,构建文档图 \(G_{doc}\) - Agent 需从源页面导航到目标页面,仅能通过点击链接或回溯 - 用期望随机游走距离作为难度代理,分 5 个难度桶(50-10M) - 总计 1,000 个平行导航对
关键设计3: Knowledge Advantage Gap 度量体系¶
定义量化框架: - 基线 KA:\(\text{KA}^{base} = P_R^{base} - P_S^{base}\),纯参数化知识的贡献 - 增强 KA:\(\text{KA}^{ext} = P_R^{ext} - P_S^{ext}\),加入知识增强后的差距 - 差距缩减:\(\text{KA}^{base} - \text{KA}^{ext}\),知识增强能弥补多少差距
在基线设置下,\(P_S^{base}\) 接近随机(参数化知识无用),所以 \(\text{KA}^{base}\) 直接反映模型对记忆的依赖程度。
实验结果¶
主实验¶
评估 6 个模型:GPT-5-mini、Gemini-2.0-Flash、gpt-oss-20B、gpt-oss-120B、Kimi-K2-Instruct、Kimi-K2-Thinking。
多跳 QA (F1 Score):
| 设置 | GPT-5-mini RM | GPT-5-mini SM | KA |
|---|---|---|---|
| Closed-book | ~20 | ~0 | ~20 |
| One-step RAG | 提升 | 提升但少 | 扩大(-4.0) |
| IRCoT + RAG | 进一步提升 | 显著提升 | 缩小 (+5.2) |
| Reading Comprehension | 高 | 持平或更高 | ~0 |
关键发现: - Closed-book 下 SM 准确率几乎为零,验证了合成世界的有效性 - One-step RAG 反而扩大了 KA 差距——RAG 对 RM 的增益大于 SM,说明检索器本身也依赖参数化知识 - IRCoT + RAG 通过交替检索和推理能缩小差距,GPT-5-mini 缩小 5.2,Gemini-2.0-Flash 缩小 10.3
页面导航 (Success Rate):
| 设置 | GPT-5-mini RM | GPT-5-mini SM | KA |
|---|---|---|---|
| Links Only | 高 | 低 | ~30 |
| Content + Links | 高 | 中等提升 | ~20.7 (缩小 9.3) |
- 提供页面内容使 SM 性能显著提升,但差距仍然存在
- 分析外部知识引用:Links Only 条件下 48%(GPT-5-mini)、60%(Gemini-2.0-Flash)的推理步骤提及了当前页面未出现的实体
消融实验¶
推理难度对 KA 的影响:
| 任务难度 | QA 2-hop KA | QA 4-hop KA | Nav Easy KA | Nav Hard KA |
|---|---|---|---|---|
| Closed-book / Links Only | 较大 | 较小(RM 也下降) | 较小 | 较大 |
| With augmentation | 缩小 | 部分缩小 | 显著缩小 | 部分缩小 |
- 简单 QA 任务中 RM 优势更大(更容易直接回忆),困难任务中 RM 也下降
- Reading Comprehension 设置下 SM 性能持平甚至超过 RM,说明参数化知识可能干扰模型基于上下文的推理
- 导航任务中越难的路径,KA 越大——模型依赖参数化知识走"捷径"
论文评价¶
优点¶
- 实验设计精妙:平行世界的构建真正实现了推理与记忆的解耦,这在之前的工作中从未完整实现
- 发现深刻且反直觉:One-step RAG 扩大 KA 差距的发现揭示了 LM-based 检索器自身对参数化知识的依赖
- 框架完全自动可扩展:可任意生成新语料库防止评估集被训练数据覆盖
- 多模型、多设置、多任务:6 个模型 × 多种增强策略 × 2 个任务,覆盖全面
- Knowledge Advantage Gap 量化框架清晰实用,可直接应用于其他评估场景
不足¶
- 当前仅在 Wikidata 构建的语料库上验证,不同知识图谱或领域(如代码、数学)的推广性有待检验
- 合成名称虽类型一致,但可能引入微妙的分布偏移(如名称统计特性不同),影响部分结果
- 论文标题和分类为 robotics 但实际内容是 LLM 评估,分类有误
评分¶
⭐⭐⭐⭐⭐ — 实验设计极其精妙,首次真正实现了 LLM 推理与记忆的可控解耦。KA 框架、One-step RAG 扩大差距等发现对 RAG 和 agent 系统的评估有深远影响。