Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=D9bLUj7wUW
代码: https://github.com/kkkevinkkkkk/CitePretrain
领域: LLM / NLP（知识归因 / 引用生成）
关键词: 内部引用, 知识归因, 持续预训练, 主动索引, 数据增强, 检索无关

一句话总结¶

通过在持续预训练阶段用"主动索引（Active Indexing）"把事实双向绑定到文档标识符，让 LLM 无需任何外部检索就能在闭卷状态下边回答边给出可验证的引用，引用精度最高提升 30.2%。

研究背景与动机¶

领域现状：可信 LLM 需要既正确又可验证的答案。当前主流做法是用外部检索（RAG）在推理时为答案附上引用——要么把检索到的文档喂进上下文生成，要么生成后再做对齐。

现有痛点：(1) LLM 自己直接生成的"内部引用"极不可靠，幻觉率高达 86%~91.4%、误归因率 24%~46%；(2) 外部检索虽然有效，但带来推理延迟、长上下文开销、对外部基础设施（如网络搜索）的依赖、以及检索噪声/与参数化知识冲突时的推理退化；(3) 很多问题本可直接从参数化记忆回答，外部检索是多余成本；(4) 外部检索对"模型内部到底记住/知道什么"提供的可解释性有限。

核心矛盾：要让模型在闭卷（不查检索器）的单次前向中同时产出正确答案与可验证的来源标识符，这比生成式检索（GR，只学 query→docID 映射）严格更难——模型不仅要学映射，还要内化知识、并在生成答案时恰当地使用和引用它。

本文目标：研究 LLM 能否通过改造训练流程，可靠地归因到（持续）预训练阶段见过的文档，而无需测试时检索。为此构建了 CitePretrainBench 基准（混合真实语料 Wikipedia/Common Crawl/arXiv 与全新未见文档，同时考察单事实短答与多事实长答的引用任务）。

核心 idea：先在持续预训练中"建索引"，再用指令微调"激活引用行为"——关键是把被动地把 ID 附在文档末尾（Passive Indexing）升级为双向、形式多样的主动数据增强（Active Indexing），让模型即使事实被改写或跨文档组合也能找对来源。

方法详解¶

整体框架¶

两阶段训练：阶段一持续预训练做索引（让模型吸收语料事实，并学到把任意事实片段 \(s \subset c_i\) 映射到其标题 \(t_i\) 的内部索引），阶段二引用指令微调（让模型回答时输出 \((s_k, C_k)\) 即"事实陈述 + 支撑标题集合"）。推理时把引用解码空间约束到已知标题集合 \(\mathcal{T}\) 以保证可验证。被动索引只是把文档 ID 附到文档末尾作 baseline，主动索引则用合成数据从前后两个方向强化"事实↔来源"绑定。

flowchart TD
    A[语料 D: Wikipedia/CC/arXiv/新文档] --> B[Passive Indexing<br/>文档末尾追加标题 ID]
    A --> C[Active Indexing 数据增强]
    C --> C1[Forward 前向<br/>Source→Fact<br/>文档内实体QA]
    C --> C2[Backward 后向<br/>Fact→Source<br/>跨文档聚类QA]
    B --> D[阶段一: 持续预训练<br/>建立内部索引]
    C1 --> D
    C2 --> D
    D --> E[阶段二: 引用指令微调<br/>激活引用行为]
    E --> F[闭卷推理: 约束解码到标题集合 T<br/>边答边引用]

关键设计¶

1. 被动索引及其失效诊断：为什么"附 ID"不够。 Passive Indexing 把自然语言标题 \(t_i\)（而非数字或结构化 ID，标题更易记忆且可扩展可改名去重）追加到文档内容 \(c_i\) 末尾，让模型学 \(f(c_i)=t_i\)，形成 \(c_i \to t_i\) 的训练样本，这与下游"先生成内容再附引用"的顺序一致。但在真实语料上作者发现两个前人合成数据集上不暴露的硬伤：其一，复杂事实 ≠ 原文引文——很多评测问题需要综合或改写散落在文档各处的信息，模型几乎学不会把这种非逐字事实关联到正确文档；其二，仅靠粒度不够——把 ID 插得离每个事实更近（逐句/逐段）只带来微弱提升，模型仍无法 ground 非逐字内容。这直接催生了主动索引。

2. 前向增强（Source→Fact，文档内召回）。 目标是强化"给定标识符 \(t_i\) 能召回其事实集合 \(S_i=\{s_{i1},\dots,s_{in_i}\}\)"的映射，针对"需精确归因到单一来源"的场景。流程是先用辅助 LLM 从每个文档抽取 \(N\) 个显著实体 \(E_i=\{e_{i1},\dots,e_{iN}\}\)（\(N\) 控制增强规模），再对每个"实体-文档"对生成若干问答对 \(\{(q_{ijk}, a_{ijk})\}\)，其中问题 \(q_{ijk}\) 引用 \(t_i\) 并围绕实体 \(e_{ij}\) 发问（who/what/where/why/how 等），答案基于 \(c_i\) 给出包含 \(S_i\) 中事实的详细回应。这构成一个闭卷训练信号，鼓励模型在被 \(t_i\) 提示时内化并检索事实。

3. 后向增强（Fact→Source，跨文档归因）。 目标是把生成的事实陈述 \(s_k\) 映射回其来源标识符集合 \(C_k \subseteq \mathcal{T}\)，强调跨文档推理，模拟"事实需从多个文档抽取"的真实任务。先把每个文档切成 \(W\) 词的块 \(C_i=\{c_{i1},\dots\}\) 并用 BM25 等检索方法建索引 \(\mathcal{I}\)；然后构造块簇 \(C_\ell\)：从每个文档随机采 \(N\) 个种子块，对每个种子块检索 \(M\sim\text{Uniform}(2,4)\) 个来自不同文档的相关块；最后对每个块簇用 LLM 生成指令-答案对 \((q_\ell, R_\ell)\)，其中 \(R_\ell=\{(s_{\ell k}, C_{\ell k})\}\) 把事实陈述与支撑标题集合配对，正好对齐下游 \(g: q \to \{(s_k, C_k)\}\) 的形态。为控成本，先用 GPT-4.1-mini 引导出种子集，再微调 Qwen-2.5-3B 批量扩增，并过滤约 5% 无效 doc-ID。前向+后向互补，合并后共增强 2.75B token（原始 390M token 的 7.05×）。

4. 标题作为可验证、可扩展的标识符 + 约束解码。 选用文档自然标题而非数字 ID，因为标题浓缩了显著内容、契合模型的文本学习范式，预实验也证明标题记忆效果优于数字/结构化替代；标题空间巨大、可改名去重以应对碰撞。对 Common Crawl 这类缺标题或低质标题的噪声源，用 LLM 生成一致命名并做 LLM 去重合并近重复，保证每个文档有稳定唯一 ID。推理时把引用解码限制在已知标题集合 \(\mathcal{T}\) 内，从机制上保证引用一定指向真实存在的语料文档。

实验关键数据¶

主实验表格¶

Qwen-2.5-7B 在四个 QA 数据集上（Acc=答案正确性，C-Pr=引用精度，C-Re=引用召回）：

方法	ASQA Acc/C-Pr	Eli5 Acc/C-Pr	SciQAG Acc/C-Pr	RepliQA Acc/C-Pr
InsOnly（仅指令微调）	19.1 / 20.0	11.5 / 5.9	65.9 / 0.6	24.2 / 0.9
PassIdx（被动索引）	21.5 / 24.1	14.5 / 8.9	65.7 / 2.4	24.8 / 2.4
Repeat	22.5 / 20.5	14.5 / 11.2	62.4 / 2.5	27.1 / 2.5
ActIdx-F（仅前向）	25.8 / 26.7	14.6 / 18.6	65.6 / 23.6	30.3 / 12.6
ActIdx-B（仅后向）	25.4 / 31.4	17.1 / 28.0	66.5 / 30.8	29.1 / 21.6
ActIdx（前+后）	27.6 / 30.9	17.6 / 29.3	66.6 / 32.6	31.9 / 24.4
GPT-4.1（3-shot，解码不可约束）	52.7 / 23.0	29.6 / 0.0	93.0 / 0.0	-

关键对比：SciQAG 引用精度从被动索引的 2.4 飙升到主动索引的 32.6；GPT-4.1 虽答案正确性远超 Qwen2.5，但内部引用精度在 Eli5/SciQAG 上几乎为 0，说明"规模大"不能替代"针对性训练"。

消融实验表格¶

文档 ID 记忆 vs. 泛化（RepliQA-7B，Acc@1，从纯记忆逐步过渡到下游使用）：

方法	FullDoc	PartialDoc	GoldQA	ModelQA
PassIdx	27.0	5.8	8.6	7.8
PassIdx-REP（多轮重放）	74.6	10.6	6.6	6.0
ActIdx	95.2	72.8	66.4	54.2

标题语义捷径检验（RepliQA，按"真标题与陈述的语义相似排名"分桶）：

桶	Easy	Medium	Hard	Very Hard	Total
C-Pre	55.9	49.6	40.1	40.0	46.7
平均排名	2	10	60	761	208

关键发现¶

前后向互补：合并前向+后向收益最大（如 RepliQA C-Pr 2.4→32.6），后向单独强于前向。
重放有害、主动监督关键：纯 token 重放无益甚至因过拟合掉点；只做改写（PI-SCP）仍落后——必须显式训练模型在 QA 上下文里使用文档 ID。
持续 scaling 不饱和：增强数据扩到原始语料 16× 仍单调上升，源于跨文档合成能造出组合式多样的高价值新 token。
非捷径学习：>90% 情况下真标题不是语义最相似的（平均排第 208/6822），即便在 Hard/Very Hard 桶（语义信号失效）仍有 ~40% 引用精度，证明学到的是真正的"事实→ID"关联。
记忆≠泛化：多轮重放提升 FullDoc 记忆（27.0→74.6）却损害下游 ModelQA（7.8→6.0）；主动索引同时兼顾记忆与下游使用。
内外互补：检索差时内部引用大幅胜出，检索强时外部胜出，Hybrid 在各种检索质量下普遍最优（但离 Hybrid Oracle 上界仍有空间）。内部引用还把每查询输入 token 量降到 RAG 的约 1/130。

亮点与洞察¶

把多组件 RAG 栈"内化"为端到端单模型：契合深度学习历史趋势（把手工管线变成统一模型），内部引用零推理开销、零外部依赖。
双向训练目标的设计很巧：Source→Fact 管"会用来源生成"，Fact→Source 管"会为自己答案归因"，两者刚好覆盖引用的读写两面。
诊断驱动方法：先用真实语料暴露被动索引"复杂事实≠引文""粒度不够"两个失效模式，再针对性提出主动索引，叙事有说服力。
可验证性内建：约束解码到标题集合，从根上杜绝"引用了不存在的来源"这类幻觉。
互补而非替代：明确把内部引用定位为检索失败时的 fallback / 检索噪声下的 safeguard，并给出 Hybrid 方案，落地姿态务实。

局限与展望¶

一次性训练成本高：主动索引增强到原语料 7×（甚至 16×）token，持续预训练开销不小，只是把成本从推理时移到训练时。
依赖辅助 LLM 造数据：实体抽取、QA 生成、去重命名都靠 GPT-4.1-mini / 微调小模型，合成数据质量与潜在偏差未充分讨论。
知识更新难：内部索引绑定在权重里，新增/修订文档需要重新持续预训练，不如外部检索可即时更新——这也是作者保留 Hybrid 的原因。
离 Oracle 有差距：Hybrid 与 Hybrid Oracle 之间仍有 gap，如何更好地调和"检索证据 vs. 记忆知识"（尤其冲突时）是开放问题。
规模与语料范围：主要在 Qwen-2.5-3B/7B 上验证，超大模型与全量预训练规模下的表现仍待考察。

评分¶

新颖性: ⭐⭐⭐⭐ 把"检索无关的内部引用"系统化为两阶段训练 + 双向主动索引，并配套构建真实复杂语料基准，问题设定与方法都新颖。
实验充分度: ⭐⭐⭐⭐ 四数据集 × 多模型（Qwen 3B/7B/14B、Llama、GPT-4.1）、记忆vs泛化探针、语义捷径检验、16× scaling、内外混合谱系分析，相当扎实。
写作质量: ⭐⭐⭐⭐ 动机层层递进、失效诊断→方法→验证逻辑清晰，图1框架与公式表述到位。
价值: ⭐⭐⭐⭐ 面向监管对训练数据透明度的要求，提供可验证、零推理开销的归因路径，对可信 LLM 与可解释性有实际意义。