Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary Themes¶

会议: ACL2025
arXiv: 2505.23166
代码: lucy3/tell_dont_show
作者: Li Lucy, Camilla Griffiths, Sarah Levine, Jennifer L. Eberhardt, Dorottya Demszky, David Bamman 机构: UC Berkeley, Stanford University 领域: 文本生成
关键词: topic modeling, literary analysis, abstractive retelling, LDA, cultural analytics

一句话总结¶

提出 Retell 方法：利用小型 LM 对文学段落进行抽象复述（abstractive retelling），将叙事中"展示"（show）的感官细节转化为"告知"（tell）的高层概念，再对复述文本运行 LDA 主题建模，在资源受限条件下显著优于直接 LDA 和直接向 LM 询问主题标签的基线方法。

研究背景与动机¶

文学文本分析中的主题建模是文化分析（cultural analytics）的重要任务。传统的词袋方法如 LDA 在处理文学文本时面临独特挑战：文学创作的黄金法则是 "展示，而非告知"（show, don't tell）—— 好的叙事通过低层次的感官细节（角色动作、对话、场景描写）而非高层次的抽象说明来传达主题。这导致 LDA 依赖的词汇级特征难以捕捉跨文档的深层主题。

例如，一段描写角色拖着身体缓慢移动的文字， LDA 只能看到 "sluggishly"、"arms"、"legs" 等表面词汇，而无法提炼出"暴力后果"或"身体创伤"这样的高层主题。

同时存在一个实际问题：虽然强大的 LM（如 GPT-4）开辟了新可能，但人文学科的研究者往往受限于 API 成本和计算资源。已有的 LM 主题建模方法（如 TopicGPT）需要复杂的多步提示链，且小型 LM 在直接生成主题标签时表现不稳定： Llama 3.1 8B 在 TopicGPT 框架下为 100 个文档产生了 486 个主题，生成的标签容易过于宽泛（如 "life" 覆盖 32.9% 段落）。

核心洞察：与其让 LM 直接输出主题标签，不如让 LM "告诉"（tell）我们文学段落在"展示"（show）什么—— 即做抽象复述，将叙事的表面形式翻译为高层概念，然后将经典 LDA 应用于这些复述文本上。

方法详解¶

Retell 框架¶

方法分为两步：

步骤一：抽象复述

用小型指令微调 LM 对每个文学段落（不超过 250 词）生成复述。使用简短的单次提示模板，核心指令为： "In one paragraph, [VERB] the following book excerpt for a literary scholar analyzing narrative content."

尝试三种动词 VERB： - describe（描述）：鼓励高层抽象 - summarize（摘要）：鼓励高层抽象 - paraphrase（改写）：保留更多原文低层细节

复述平均长度约 105-170 词。

步骤二：LDA 主题建模

在复述文本上运行 Mallet LDA，预处理步骤包括： - 小写化，去除少于 3 字符的词 - 去除出现在超过 25% 文档中的高频词 - 去除出现在少于 5 篇复述中的低频词 - 用 spaCy NER 去除角色名字（避免按书聚类）

测试模型¶

四个资源高效的小型指令微调 LM： - GPT-4o mini（闭源） - Llama 3.1 8B（开源） - Phi-3.5-mini / 3.8B（开源） - Gemma 2 2B（开源）

基线方法¶

Default LDA：直接在原始段落上运行 LDA
TopicGPT-lite：改编自 TopicGPT 的两阶段方案
- 阶段一（主题生成）：LM 在 N=1000 采样文档上逐文档提出一个主题
- 阶段二（主题分配）：LM 为所有文档分配主题标签
- 限制单标签生成以缓解小型 LM 的主题数爆炸问题

Retell 的实际优势¶

每段文本仅需一次 LM 推理加 LDA，运行效率高于 TopicGPT-lite
主题数 k 可快速调整而无需重新运行 LM
单条提示即可完成，无需复杂的提示工程

实验关键数据¶

实验一：段落集标签相关性评估（Table 2）¶

数据集构建： - 从 Project Gutenberg 和当代畅销书列表收集 50.7k 标题 - 使用 Goodreads 读者标签、SparkNotes 和 LitCharts 主题标签作为金标准 - 人工将标签归为 27 个通用主题（如 gender, race, war, love 等） - 最终获得 11.6k 标注段落（732 本书，21.1k 主题-段落对） - 补充等量随机段落以稳定 LDA 估计，数据总计 5.02M 词

评估方式： Prolific 众包标注者评判预测主题与金标准的语义相关性，采用 3 分制评分，时薪 $16，标注者一致性加权 Cohen's kappa = 0.70。

方法	非常相关	不相关
Retell-describe	0.60	0.10
Retell-summarize	0.59	0.11
Retell-paraphrase	0.50	0.14
Default LDA	0.38	0.27
TopicGPT-lite	0.22-0.35	0.17-0.68

关键发现： - Retell-describe/summarize 大幅优于所有基线 - 抽象动词 describe/summarize 优于 paraphrase（0.60 vs 0.50），验证了 telling > showing 假设 - Default LDA 的主题充斥功能词（如 n't, got, say），语义模糊 - TopicGPT-lite 产生过于宽泛的标签（如 loneliness 覆盖 education 主题）

实验二：段落级主题入侵测试（Table 3）¶

由具有影视和文学标注经验的内部标注者评估（加权 Cohen's kappa = 0.66），对 50 段文本的 top-3 预测主题加入侵主题评分：

方法	Top-1	Top-2	Top-3	入侵者
Retell-desc (GPT-4o mini, k=50)	2.81	2.51	2.23	1.63
Retell-desc (GPT-4o mini, k=89)	2.60	2.53	2.40	1.77
TopicGPT-lite (GPT-4o mini, k=89)	2.59	2.48	2.51	1.52
Retell-summ (Llama 8B, k=50)	2.36	2.30	2.12	1.67

所有方法的 top 主题得分显著高于入侵者（U 检验 p<0.05）， Retell 在段落级与 TopicGPT-lite 表现可比，但 Retell 更轻量高效。

案例研究：ELA 教材中的种族主题（Table 4-5）¶

数据： 396 本美国高中英语教材（AP Literature 考题书目加教师推荐书目）， 1,645 段人工标注段落（401 mention + 198 discuss + 其余 neither），由社会心理学专家领导的本科生团队历时四个月编码。

发现： - Retell 产生了与种族身份高度相关的主题词如 "black, racial, white, community, individuals" - 这些主题在 discuss 段落中概率显著高于 mention（U 检验 p<0.001） - Retell 的两个相关主题联合使用可提高召回率而不降低精度 - Default LDA 的对应高频词（"black, people, white"）区分力弱 - TopicGPT-lite 的标签（Identity, Family, Work）在三类段落中无显著差异

亮点¶

概念创新：巧妙利用文学创作 "show vs. tell" 原则转化为计算方法论，让 LM 充当叙事细节到抽象概念的"翻译层"
极简设计：一条提示加标准 LDA，无需复杂提示链或模型微调，对人文学者和资源受限场景极为友好
跨学科价值：在 NLP 方法创新与人文教育应用之间搭建了优秀桥梁，案例研究展示了对种族议题的实际分析能力
多维评估：众包评估加专家标注加主题入侵测试加案例研究，覆盖主题级和段落级两个粒度

局限与展望¶

LM 的复述只代表一种解读，文学阅读本质上是主观且文化建构的过程
LM 可能利用预训练中的书籍知识补充段落中未出现的信息，引入上下文偏差
仅关注显式种族提及，隐式种族线索的识别需更深入研究
复述可能遗漏关键内容（如种族刻板印象描写），摘要内容选择行为值得研究
未充分探索更大模型表现（GPT-4o 初步结果显示强 LM 直接生成标签也很有效）
金标准标签来自特定在线资源，可能存在内容生产和覆盖偏差

与相关工作的对比¶

LDA (Blei et al., 2003)：经典概率主题模型，依赖词汇表面形式，是本文的基础组件，运行于 LM 复述之上
TopicGPT (Pham et al., 2024)：直接从 LM 获取主题标签，多步提示，是本文基线，小型 LM 上表现不稳定
BERTopic 等嵌入主题模型：基于文档嵌入聚类，与 Retell 不同路线，后者利用生成式 LM 的抽象能力
隐含信息补全 (Zhong et al., 2022; Hoyle et al., 2023)：用 LM 描述文档以挖掘隐含信息，最接近的先驱工作
计算人文 (Piper, 2018; Underwood, 2019)：远读（distant reading）传统，Retell 为远读提供了新工具

评分¶

新颖性: ⭐⭐⭐⭐ "show to tell" 隐喻转化为方法论极具巧思，抽象复述加 LDA 的组合简洁新颖
实验充分度: ⭐⭐⭐⭐ 多模型多动词多 k 值的系统比较，众包加专家加案例研究多层评估
写作质量: ⭐⭐⭐⭐⭐ 跨学科论文写作范例，动机清晰，叙述流畅，伦理讨论周全
价值: ⭐⭐⭐⭐ 对人文计算和文化分析有直接应用价值，方法简洁易推广至其他叙事文本分析