CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels¶

会议: ACL 2025
arXiv: 2412.02819
代码: GitHub
领域: LLM效率
关键词: long-context summarization, Chinese novels, benchmark, LLM evaluation, RoPE extrapolation

一句话总结¶

构建了 CNNSum——基于中文小说的多尺度长文本摘要基准（695 样本，16k-128k tokens），通过人工标注确保质量，系统测评了 20+ 个 LLM，发现高级 LLM 倾向生成主观评述导致摘要模糊、小模型性价比更高、Base 版微调效果优于 Chat 版，且用短文本数据微调即可显著提升长文本摘要能力。

研究背景与动机¶

领域现状：长上下文 LLM 快速发展（128k 上下文已常见），但长文本摘要研究进展缓慢，现有长文本摘要数据集严重不足。

现有痛点： - 现有基准多基于旧数据集（BookSum、CNNDM 等），存在高泄露风险 - 数据量小（几十条）、平均/最大长度短（通常 <16k） - 缺乏多尺度长度子集，无法评估不同上下文长度下的表现 - 标注质量差——网上收集（泄露风险高）或 LLM 合成（各种错误）

核心矛盾：128k 上下文已标配，但 LLM 在长文本摘要中性能随长度急剧下降，输出可能混乱无义或无法遵循指令——核心瓶颈在于缺乏高质量数据集和系统性研究指导。

本文目标：构建高质量多尺度中文长文本摘要基准，系统探索 LLM 长文本摘要的能力边界和改进策略。

切入角度：从中文网络小说出发（原创性高、泄露风险低），分 L/XL/2XL/3XL 四个尺度采样，人工+LLM 协同标注。

核心 idea：好的长文本摘要研究需要好的 benchmark——CNNSum 通过严格的多尺度设计和人工标注，填补了中文长文本摘要基准的空白。

方法详解¶

整体框架¶

CNNSum 构建流程：语料收集 → 多尺度采样 → 摘要标注 → 基准测评与探索

关键设计¶

1. 语料收集与过滤

收集 103 本中文网络小说，每本有清晰章节结构
排除多个独立短故事或缺乏主线的书
用 Qwen2-72B-Instruct 检测潜在热门书籍（高泄露风险），过滤掉 27 本
正则+人工修正非标准标点和无关插入内容

2. 多尺度采样策略

基于 Yi tokenizer 定义四个目标长度及范围：

子集	目标长度	采样范围	样本数	源书数
L	16k	[12k, 18k]	190	76
XL	32k	[26k, 34k]	195	71
2XL	64k	[54k, 66k]	200	60
3XL	128k	[112k, 130k]	110	45

采用滑动窗口按章节采样，优先保留稀有书籍的样本以保持多样性。

3. 摘要标注

先让 LLM 对每个章节生成情节摘要
23 名人工标注员阅读摘要，选取关键情节并重写
2XL/3XL 样本由一人标注、另一人审核
要求：(1) 用自己的话重写而非简单删减合并；(2) 避免主观评论，聚焦客观情节
字数上限：L/XL 500 字，2XL/3XL 600 字

4. 两种 Prompt 类型

Prompt-IB：指令放在文本开头
Prompt-IE：指令放在文本末尾
发现不同 prompt 类型对输出质量影响很大（MSE 差异显著）

评估指标¶

主要使用 ROUGE-L，辅以人工细粒度检查分析异常输出类型。

实验关键数据¶

主实验：ROUGE-L 得分¶

模型	L (16k)	XL (32k)	2XL (64k)	3XL (128k)
GPT-4o	15.5	14.2	12.5	-
Gemini-1.5-pro	19.3	18.1	16.8	14.6
Qwen-plus	20.5	18.5	16.4	14.8
Moonshot-v1-128k	22.4	20.3	18.0	15.2
Qwen2.5-72B-Inst	19.6	17.6	13.6	13.4
InternLM2.5-7B-Chat-1M	18.0	17.1	14.7	13.0
Yi-1.5-34B-32K	11.6	10.5	9.6	0.1
Yi-6B-200K	9.9	9.4	8.8	4.0
Llama3.1-8B-Inst	15.6	14.3	12.8	9.9
LWM-Text-1M	3.3	3.0	2.5	1.1

Prompt 类型影响（MSE between P-IB and P-IE）¶

模型	MSE
Yi-6B-200K	4.5
Yi-1.5-34B-32K	14.5
Yi-1.5-34B-Chat-16K	7.8
Qwen1.5-7B	34.4
Qwen2-72B	16.3
GPT-4o	0.0
Gemini-1.5-pro	0.1

MSE ≥ 5.0 表明 prompt 类型对该模型影响极大，商业模型通常更稳定。

关键发现¶

GPT-4o 偏好主观评述，导致摘要模糊，ROUGE-L 反而不如 Moonshot、Qwen 等
大模型未必更好：推理和理解优势在长文本摘要中难以发挥，小模型性价比更高
Chat/Instruct 版本可能损害 Base 模型的摘要能力：微调实验中 Base 版表现更好
RoPE ABF 缩放模型有强外推潜力：用短文本数据微调即可显著提升长文本摘要性能
混合长度样本可能导致误导性评估结果：多尺度分离评估更可靠

亮点与洞察¶

"长文本摘要主要依赖记忆能力"——这个洞察深刻，解释了为何大模型的推理优势无法在此任务中体现
数据集构建方法论价值高：多尺度采样+滑动窗口+人工标注的流程可复用
Prompt 类型的影响被量化：MSE 指标直观展示了 prompt 位置对不同模型的影响差异，对实际使用有指导意义
泄露风险控制充分：新书+LLM 检测+过滤，多管齐下
微调探索系统全面：从 Base vs Chat、短文本训练长文本、RoPE 外推多角度验证

局限与展望¶

仅中文小说领域：摘要风格和结构可能不适用于学术论文、新闻等其他领域
ROUGE-L 评估的局限：论文自身也承认 ROUGE-L 与人类偏好差异大，但未提出更好的替代方案
3XL 子集仅 110 条：128k 长度下的评估统计可靠性较有限
标注质量依赖标注员理解力：长文本标注本身对人工要求极高，个体差异难完全消除
缺乏对 o1/Claude 等最新模型的评测

评分¶

新颖性: ⭐⭐⭐ — 核心贡献是 benchmark 构建，方法论上无特别新颖之处
实验充分度: ⭐⭐⭐⭐⭐ — 20+ 模型全面测评，商业+开源覆盖，微调+外推探索系统
写作质量: ⭐⭐⭐⭐ — 发现总结清晰，图表丰富，结构条理
价值: ⭐⭐⭐⭐ — 填补中文长文本摘要基准空白，洞察对实际应用有指导意义