Critical Confabulation: Can LLMs Hallucinate for Social Good?¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wGFD7ITicm
代码: 待确认（camera-ready 随论文发布，BWTC 数据需 ARTFL 授权）
领域: 幻觉 / 计算人文 / 叙事理解
关键词: 批判性虚构, 受控幻觉, 叙事完形填空, 数据污染审计, 数字人文

一句话总结¶

本文把"幻觉"重新框定为一种可用资源：提出 critical confabulation（批判性虚构），让 LLM 在证据约束下"填补"历史档案中被结构性抹除的空白，并用一个基于未出版黑人历史语料的"叙事完形填空"任务系统评估了 19 个模型，证明受控、良定义的幻觉可以服务于知识生产而不坍缩成虚假。

研究背景与动机¶

领域现状：LLM 幻觉通常被当成纯粹的失败模式来消除，但近期工作发现其中一类被称为 confabulation（虚构填充） 的行为——用自洽的故事去"填补"缺失信息、且与现实保持高度逼真——其实具有叙事价值，已在计算创意、叙事暴露疗法、文化遗产数字叙事等场景显示出社会效用。

现有痛点：人文领域的 critical fabulation（批判性虚构，Hartman 2008） 是一种用思辨叙事修复历史档案不公的成熟方法论，专门为那些因系统性压迫从未获得记录特权的"隐形人物"（hidden figures）发声。但它高度依赖学者对密集史料的逐字细读，劳动密集，无法规模化覆盖浩瀚档案。

核心矛盾：严格事实性 vs 叙事补全。把"档案是否留存"当作真理的代理，本质上是对"什么得以幸存"这一有偏标准的过拟合，会进一步沉默档案中的隐形人物；但放任 LLM 无约束幻觉又会把思辨坍缩成虚假，丧失历史保真度。

本文目标：在严格的证据边界内，把 LLM 已有的虚构行为操作化为可规模化的批判性虚构工作流，既能识别档案中的潜在空白，又能给出多个证据受限的可能性（而非断言单一真理），辅助人文学者扩充历史知识。

核心 idea：【受控幻觉作为资源】 将批判性虚构形式化为开放式叙事完形填空——给定某隐形人物的事件时间线，遮蔽其中一个事件，要求模型在已知上下文约束下重建被遮蔽事件，用叙事嵌入相似度判定是否"足够接近"，从而把"幻觉是缺陷"翻转为"幻觉是可优化的能力"。

方法详解¶

整体框架¶

整个流程分两层目标：known unknowns（空白重建） 与更难的 unknown unknowns（空白检测），本文聚焦前者。系统先用未出版的黑人历史档案 BWTC 作为模型"没见过"的真值，经过双重数据污染审计筛出干净语料，再抽取隐形人物的事件时间线作 ground truth，最后通过遮蔽-重建的完形填空任务、配合不同"诱导幻觉"提示词来评估模型。

flowchart LR
    A[BWTC 档案语料 B] --> B1[双重数据污染审计]
    B1 -->|String Search + 行为探针| C[剔除 SEEN 文档<br/>仅保留 Bunseen]
    C --> D[隐形人物挖掘<br/>NER + Aho-Corasick 长尾过滤]
    D -->|156 个 hidden figures| E[GPT-o3 抽取<br/>事件时间线 T_n + 事件类型]
    E --> F[遮蔽一个事件 → C n,m]
    F --> G[19 个 LLM 在受控提示下重建 ê_m]
    G --> H[story-emb 余弦相似度 ≥ ε*<br/>判定 correct]

关键设计¶

1. 任务形式化：把批判性虚构变成可度量的叙事完形填空。 对每个隐形人物 \(n\)，从其相关档案构造按时间排序的事件时间线 \(T(n)=\langle(t_1,e_1),\dots,(t_{m(n)},e_{m(n)})\rangle\)，每个元素是一个时间戳 \(t_i\) 加一句话事件 \(e_i\)。模拟历史空白的方式是把第 \(m\) 个事件替换成字面量 [MASK]，得到 \(C(n,m)=\langle(t_1,e_1),\dots,(t_m,\text{[MASK]}),\dots\rangle\)。模型 \(f_\theta\) 必须在其余时间线片段和固定指令下重建 \(e_m\)，当生成事件与真值的嵌入相似度满足 \(\text{sim}_{\text{emb}}(\hat e_m,e_m)\ge\epsilon\) 时记为正确。这一设计把模糊的"思辨叙事"转化成可复现、可比较、可优化的指标，同时刻意只遮蔽一个事件以保留充足的证据约束，让幻觉"有边界"。

2. 两阶段数据污染审计：保证"未见历史"假设不被记忆污染。 评估的关键前提是模型没见过这些档案，否则证据约束的虚构就退化成记忆背诵。作者只用训练数据公开的 OLMO-2 全开放模型做主审计：先用 Boyer–Moore 子串匹配把 BWTC 每句话与 OLMO-2 完整训练集逐句对比，文档匹配数 \(\text{matches}(d)=\sum_{x\in O}\sum_{s\in S(d)}\text{BM}(x,s)\) 达到 \(\ge 100\) 即标 SEEN（共 21%）；再用一个行为探针做交叉验证——取前 20 句作上下文让 OLMO-2 续写，若标签可信则 SEEN 文档的续写应更贴近真值，即 \(\text{mean}_{d\in B_{\text{seen}}}[\text{sim}_i(d)]>\text{mean}_{d\in B_{\text{unseen}}}[\text{sim}_i(d)]\)。结果证实 SEEN 的平均相似度 0.3009 高于 UNSEEN 的 0.2782，且优势随续写位置 \(p_1\to p_5\) 单调衰减（符合记忆优势在观测上下文后最强的预期），在多种统计检验下方向稳健。最终保守地剔除全部 SEEN 文档、仅在 \(B_{\text{unseen}}\) 上分析。

3. 隐形人物挖掘 + 证据受限的真值抽取。 即便剔除 SEEN，模型参数化知识仍可能对特定人名构成先验，于是再做一轮 Aho–Corasick 多模式匹配：从 \(B_{\text{unseen}}\) 用 NLTK 抽取最多前 1 万个 PERSON 名，只保留频率 \(<51\)、且至少出现在 3 个文档中的长尾人名，构建自动机扫描 OLMO-2 训练集计数 \(c(n)\)，\(c(n)\ge100\) 记 SEEN-IN-O，配合人工过滤掉仅顺带提及/共指的名字，最终得到 156 个干净的隐形人物。每个人物的所有相关文档被一并送入长上下文抽取器 GPT-o3，在严格"源约束"指令下产出按时间排序、带显式引用的事件时间线，每个事件是一句主动语态、\(\le 30\) 词的句子，并标注 {AGENTIVE, RELATIONAL, OBSERVATIONAL, COGNITIVE, ROLE} 五类之一的事件类型。

4. 叙事专用评估 + 受控诱导提示。 评估不用通用语义嵌入（会被主题相似度混淆），而用强调故事线结构的 narrative embedding 模型 story-emb 算余弦相似度，并在标注验证集上扫描阈值、以 macro-F1 最大化选出全局操作阈值 \(\epsilon^\star=73.13\)（macro-F1=0.805），证明该距离是人类叙事逼真度判断的合理代理。提示侧则在一个统一基线提示之上，叠加 6 个来自前人工作、有意或无意"诱导模型增加幻觉/创造性输出"的系统/指令模板（如 Null-Shot、HaluEval、LLM-Discussion、Eccentric Automatic Prompts 等），并可选地给出被遮蔽事件的类型作为轻量结构监督，以系统考察"什么提示能把幻觉用好"。

实验关键数据¶

主实验表格（叙事完形填空准确率，节选）¶

模型	基线(无类型)	最佳(无类型)	基线(有类型)	峰值(有类型)
GPT-5-chat	51.0	57.4	55.5	59.7
Qwen3-4B-0725	47.1	50.9	50.2	53.8
OLMo-2-7B	33.8	49.1	38.5	58.8
OLMo-2-32B	44.9	46.0	48.4	50.8
Qwen3-4B	44.6	55.0	46.5	56.8
GPT-4o	42.6	45.5	45.4	49.1
gemma-2-27b	40.1	40.1	42.1	46.1

GPT-5-chat 是总体领头羊，也是唯一在多数提示上超过 50% 的模型，峰值 59.7%；小模型 OLMo-2-7B、Qwen3-4B "以小搏大"，反超许多更大基线。
提供 EVENT_TYPE 提示几乎对所有 (模型,提示) 对带来 +2~10 点稳定提升。

消融实验表格（采样温度随机性消融，相对确定性基线的平均变化）¶

温度设定	平均准确率变化
确定性(T=0)	基准
低 (T=0.2)	−0.3
中 (T=0.7)	−0.8
高 (T=1.2)	−2.3

性能对采样随机性整体稳健，模型/提示排名几乎完全保持；OLMO-2 家族中越大的变体在高温下掉点越多。

关键发现¶

任务可行但很难：多数模型停在 50% 以下，强提示下峰值近 60%。
审计无显著记忆优势：OLMO-2 与可比的未审计同行无显著差异（平均 p=0.354），即没观察到记忆带来的优势。
事件类型梯度：模型最擅长 "role"（44.8%，偏传记信息）→ "relational" → "agentive" → "observational"，最差 "cognitive"（24.9%，内在状态/观点缺乏可观测锚点）。
结构敏感性：事件描述越长准确率略升（\(\rho=0.09\)），但时间线越长准确率越低（\(\rho=-0.173\)）；时间线开头事件最易重建（0.45）、结尾最难（0.337）。
错误高度聚集：仅 2.2% 的事件被全部 19 个模型答对，59.1% 被至少 10 个模型答错，错误集的 Jaccard 重叠达 0.6~0.9，说明模型不是各自随机失败，而是集中栽在同一批"难"事件/人物上。

亮点与洞察¶

范式翻转：把幻觉从"要消除的缺陷"重构为"可优化的资源"，并罕见地把人文理论（Hartman 的批判性虚构）严谨地操作化为 NLP 可度量任务，跨学科桥接得很扎实。
审计严谨：用全开放训练数据的 OLMO-2 做主体、双重污染审计（精确子串 + 行为探针）+ 隐形人物的二次去污，把"模型没见过这段历史"这个评估命门钉得很死，方法论上可作其他"未见数据"评估的范本。
评估贴题：用叙事专用嵌入 story-emb 而非通用语义嵌入，并用人工标注调阈值，避免主题相似度混淆，体现对"叙事逼真度 ≠ 语义相近"的细腻把握。
社会价值取向明确：附带人文使命声明与伦理声明，强调不是发明新历史、不坍缩思辨为事实，而是服务于档案沉默的"恢复技术"。

局限与展望¶

预备性强：性能对提示和输入结构高度敏感，结论的稳健性受限。
单语言单文化：实验只覆盖英语 + 黑人历史一个文化传统，泛化性未知。
缺训练/推理期优化：当前全是零样本评估，尚未设计显式优化"良定义、证据约束虚构"的训练或推理方法。
伦理风险：作者自陈需建立溯源追踪与伦理护栏，避免重建反过来"复合档案暴力"；未来方向含更鲁棒的开放式叙事评估、跨语言/文化扩展、provenance 机制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把人文理论"批判性虚构"操作化为 NLP 任务、并把幻觉翻转为可优化资源，概念与问题设定都很原创。
实验充分度: ⭐⭐⭐⭐ 19 个模型 × 多提示 × 类型/温度/长度/位置多维分析，双重污染审计扎实；但限于单语言单文化、零样本，缺少训练/推理期方法验证。
写作质量: ⭐⭐⭐⭐⭐ 跨学科动机讲得清晰有力，研究问题 R1-R3 组织得当，理论与工程衔接自然。
价值: ⭐⭐⭐⭐ 为"有益幻觉"与数字人文打开了一个可量化的研究方向，社会意义与方法论价值兼具，落地仍待后续工作推进。