Literary Evidence Retrieval via Long-Context Language Models¶
会议: ACL 2025
arXiv: 2506.03090
代码: katherinethai/long_context_relic
领域: LLM效率
关键词: 长上下文理解, 文学证据检索, benchmark, 推理模型评测, 开源vs闭源, 文学分析
一句话总结¶
将 RELiC 数据集改造为长上下文文学证据检索 benchmark(292 个高质量样本),要求模型在完整小说文本(45k-125k tokens)中为文学评论找到缺失引用;Gemini Pro 2.5 以 62.5% 准确率首次超越人类专家(55%),但最佳开源模型 DeepSeek-R1 仅 29.1%,揭示了闭源/开源模型在解释性推理上的巨大鸿沟。
研究背景与动机¶
长上下文评测的不足:现有长上下文 benchmark(如 Needle-in-Haystack)主要测试简单信息检索,无法衡量模型对长文本的深度理解和推理能力。
文学分析的独特需求:文学证据检索要求模型同时具备对叙事的全局理解(global narrative reasoning)和对具体段落的精细阅读能力(close textual examination),是检验长上下文真正理解能力的理想测试场景。
RELiC 数据集的局限:原始 RELiC 数据集(Thai et al., 2022)包含 78k 条文学分析摘录,但数据较嘈杂,存在 OCR 错误、引用泄露、数据污染等问题,不适合直接用于 LLM 评测。
核心动机:在长上下文 LLM 能处理百万 token 的今天,探索它们对文学小说的理解到底达到了什么水平。
方法详解¶
整体框架¶
任务定义:给定一部完整小说的全文和一段文学评论(其中某个引用被遮盖),模型需要从小说原文中生成/检索被遮盖的引用段落。这模拟了文学学者在分析中选择支撑性引用的过程。
数据集构建流程¶
从 RELiC 的 78k 条样本出发,经过多步过滤和人工审核,最终得到 292 个高质量样本:
- CLEAN(GPT-4o-mini):清理 OCR 错误、移除暴露引用页码的行内引注
- LEAKAGE(启发式):使用模糊匹配(阈值 95)排除上下文与原文重复的样本,防止模型利用词汇重叠作弊
- LIT ANALYSIS(GPT-4o-mini):分类判断是否为文学分析,排除被错误标注的样本
- LOCATION(GPT-4o-mini):检测上下文是否泄露了引用的位置信息
- FIRST/LAST SENT(启发式):标记首句/末句(可能是名句,容易被记忆)
- OUTLIER(启发式):标记被过度引用的段落
- EZ2MEM(GPT-4):不给原文直接让模型答题,排除仅凭记忆就能回答的样本
- 人工审核:英语文学学位持有者审查 400 条,最终标注 292 条为高质量样本
过滤方案的 F1-score 为 89.8(100 条手工验证,57 TP / 30 TN / 6 FP / 7 FN)。
数据集特点¶
| 统计量 | 原文(7部小说) | 样本(292条) |
|---|---|---|
| 平均 token 数 | 85,526 | 254.9 |
| 最大 token 数 | 124,544 | 492.0 |
| 最小 token 数 | 45,038 | 116.0 |
| 平均每书样本数 | — | 36.0 |
涵盖 7 部经典英语小说:《了不起的盖茨比》《弗兰肯斯坦》《红字》《勇敢新世界》《梅西所知》《伊桑·弗罗姆》《觉醒》。
评测子集设计¶
- Human Eval Set(40 条):由英语文学专家亲自作答并给出推理过程的子集
- Close Reading Set(39 条):标注为"细读"类型的样本——评论中反复引用了目标段落的部分词句,存在词汇重叠
提示策略¶
- Simple Prompt:直接要求模型输出引用
- Explanation Prompt:先要求模型给出选择理由,再输出引用(借鉴自 Nocha benchmark)
Embedding 基线¶
使用 MTEB 排行榜第一的 gte-Qwen2-7B-instruct 作为 embedding 检索基线,计算 recall@1。
实验结果¶
主实验结果¶
| 模型 | Prompt | ALL (n=292) | Human Eval (n=40) | Close Reading (n=39) |
|---|---|---|---|---|
| Gemini Pro 2.5 | Explanation | 64.7% | 62.5% | 79.5% |
| GPT-4.1 | Explanation | 51.0% | 47.5% | 69.2% |
| o3 | Explanation | 50.7% | 50.0% | 66.7% |
| Gemini Pro 1.5 | Explanation | 38.5% | 40.0% | 50.0% |
| Claude Sonnet 3.7 | Explanation | 37.0% | 32.5% | 48.7% |
| DeepSeek-R1(开源最佳) | Explanation | 29.1% | 15.0% | 38.5% |
| GPT-4o | Explanation | 24.3% | 22.5% | 31.8% |
| Qwen 3 (32B) | Explanation | 19.2% | 20.0% | 33.3% |
| Qwen 3 (8B) | Explanation | 8.9% | 5.0% | 10.3% |
| o3-mini | Explanation | 8.3% | 10.0% | 13.6% |
| gte-Qwen2-7B(embedding基线) | — | 4.5% | 2.5% | 6.8% |
| 人类专家 | — | — | 55.0% | — |
关键发现:Gemini Pro 2.5 在全部指标上超越人类专家,且每次调用平均仅需 45 秒(人类平均 12 分钟)。
过度生成分析¶
| 模型 | 准确率 | 平均长度比 |
|---|---|---|
| 人类专家 | 55.0% | 2.1 |
| Gemini Pro 2.5 | 62.5% | 3.0 |
| o3 | 50.0% | 2.7 |
| GPT-4.1 | 47.5% | 4.8 |
| Claude Sonnet 3.7 | 32.5% | 4.0 |
| DeepSeek-R1 | 15.0% | 3.6 |
| Llama 3.1 (8B) | 5.0% | 5.9 |
| Llama 3.3 (70B) | 0.0% | 5.7 |
长度比 = 模型输出长度 / 真实引用长度(字符数),越接近 1.0 越好。所有模型都超过人类的 2.1,小模型(Llama 系列 >5.7)过度生成更严重——弱模型倾向于用更长的输出来弥补不确定性。
关键实验发现¶
- LLM 远超 embedding 基线:gte-Qwen2-7B 仅 4.5%,比三年前 RELiC 论文的最佳 recall@1 仅高 1.6%,说明此任务需要全文推理,而非简单语义匹配
- 闭源远超开源:最佳开源 DeepSeek-R1(29.1%)不到最佳闭源 Gemini Pro 2.5(64.7%)的一半
- 小模型无法利用细读线索:>8B 模型在 Close Reading 子集上普遍提升 10-20%+,但 7B/8B 模型几乎无提升甚至下降
- 代际进步显著:Gemini Pro 2.5 vs 1.5(64.7% vs 38.5%),GPT-4.1 vs GPT-4o(51.0% vs 24.3%),o3 vs o1(50.7% vs 32.2%)
- Explanation prompt 效果不一:对 Gemini Pro 1.5 有帮助,对 GPT-4o 反而下降;推理模型(如 o3、Gemini Pro 2.5)自带内部推理 token,额外的解释提示影响不大
案例分析¶
案例一:模型失败 / 人类成功¶
在《红字》(>80k 词)中,评论暗指对 Roger Chillingworth 认出 Hester Prynne 的场景描写。人类专家考虑了两个候选段落,通过判断哪个更好地展现评论提到的"melodrama"(夸张的人物描写、暗示动作的词汇、情感张力)最终选对。三个顶级 LLM 都选了人类专家排除的那个候选段。
案例二:模型与人类同选"错误"答案¶
在《弗兰肯斯坦》中,人类和 Gemini Pro 2.5 选了同一个"错误"引用——两者都将评论解读为对陪审团反应的引入,但真实引用实际上支持的是 Frankenstein 自身的心理状态。说明:(1) 文学证据检索本质上具有多义性;(2) 模型能找到合理的替代证据,对文学学者有辅助价值。
亮点与洞察¶
- 高质量的真实长上下文 benchmark:比 Needle-in-Haystack 等合成任务更有说服力,需要真正的叙事理解+解释性推理
- 首次在文学任务上 LLM 超越人类专家:Gemini Pro 2.5 以 62.5% vs 55.0% 胜出,且速度提升 16 倍
- 开源/闭源鸿沟的定量证据:不是长上下文能力不够,而是解释性推理能力不足
- 严谨的数据清理流程:8 步过滤 + 人工审核,对 benchmark 构建有方法论参考价值
- 过度生成现象的系统性量化:所有模型都倾向输出过长,弱模型尤为严重
局限性¶
- 数据规模有限:仅 292 条测试样本,7 部小说,统计效力有限
- 仅限英语/西方文学:主要来自公版经典,不代表全球文学传统
- 单人标注:人类基线由单一标注者(论文作者之一)完成,存在个人偏差
- 任务与真实场景有差距:真实文学分析中学者是逐步形成论点并选择引用,而非给定评论去填空
- 评估依赖模糊匹配:自动评估使用 partial ratio fuzzy matching,可能遗漏表述略有不同但语义正确的答案
相关工作¶
- 长上下文 Benchmark:Nocha (Karpinska et al., 2024)、FABLES (Kim et al., 2024)
- 原始数据集:RELiC (Thai et al., 2022) — 78k 文学分析摘录及引用
- 计算文学分析:BookWorm(角色分析)、STORYSUMM(故事摘要忠实度)、Reading Subtext(短篇理解)
- 叙事理解:HEART-felt(叙事元素提取)、Agents' Room(叙事生成)
评分¶
- 新颖性: ⭐⭐⭐⭐ 将文学分析引入长上下文评测,角度独特
- 实验充分度: ⭐⭐⭐⭐ 15+ 模型对比 + 人类基线 + 过度生成分析 + 案例研究
- 写作质量: ⭐⭐⭐⭐ 结构清晰,案例分析生动
- 价值: ⭐⭐⭐⭐ 对长上下文理解和解释性推理研究有重要参考意义