CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels¶
会议: ACL 2025
arXiv: 2412.02819
代码: GitHub
领域: LLM效率
关键词: long-context summarization, Chinese novels, benchmark, LLM evaluation, RoPE extrapolation
一句话总结¶
构建了 CNNSum——基于中文小说的多尺度长文本摘要基准(695 样本,16k-128k tokens),通过人工标注确保质量,系统测评了 20+ 个 LLM,发现高级 LLM 倾向生成主观评述导致摘要模糊、小模型性价比更高、Base 版微调效果优于 Chat 版,且用短文本数据微调即可显著提升长文本摘要能力。
研究背景与动机¶
领域现状:长上下文 LLM 快速发展(128k 上下文已常见),但长文本摘要研究进展缓慢,现有长文本摘要数据集严重不足。
现有痛点: - 现有基准多基于旧数据集(BookSum、CNNDM 等),存在高泄露风险 - 数据量小(几十条)、平均/最大长度短(通常 <16k) - 缺乏多尺度长度子集,无法评估不同上下文长度下的表现 - 标注质量差——网上收集(泄露风险高)或 LLM 合成(各种错误)
核心矛盾:128k 上下文已标配,但 LLM 在长文本摘要中性能随长度急剧下降,输出可能混乱无义或无法遵循指令——核心瓶颈在于缺乏高质量数据集和系统性研究指导。
本文目标:构建高质量多尺度中文长文本摘要基准,系统探索 LLM 长文本摘要的能力边界和改进策略。
切入角度:从中文网络小说出发(原创性高、泄露风险低),分 L/XL/2XL/3XL 四个尺度采样,人工+LLM 协同标注。
核心 idea:好的长文本摘要研究需要好的 benchmark——CNNSum 通过严格的多尺度设计和人工标注,填补了中文长文本摘要基准的空白。
方法详解¶
整体框架¶
CNNSum 构建流程:语料收集 → 多尺度采样 → 摘要标注 → 基准测评与探索
关键设计¶
1. 语料收集与过滤
- 收集 103 本中文网络小说,每本有清晰章节结构
- 排除多个独立短故事或缺乏主线的书
- 用 Qwen2-72B-Instruct 检测潜在热门书籍(高泄露风险),过滤掉 27 本
- 正则+人工修正非标准标点和无关插入内容
2. 多尺度采样策略
基于 Yi tokenizer 定义四个目标长度及范围:
| 子集 | 目标长度 | 采样范围 | 样本数 | 源书数 |
|---|---|---|---|---|
| L | 16k | [12k, 18k] | 190 | 76 |
| XL | 32k | [26k, 34k] | 195 | 71 |
| 2XL | 64k | [54k, 66k] | 200 | 60 |
| 3XL | 128k | [112k, 130k] | 110 | 45 |
采用滑动窗口按章节采样,优先保留稀有书籍的样本以保持多样性。
3. 摘要标注
- 先让 LLM 对每个章节生成情节摘要
- 23 名人工标注员阅读摘要,选取关键情节并重写
- 2XL/3XL 样本由一人标注、另一人审核
- 要求:(1) 用自己的话重写而非简单删减合并;(2) 避免主观评论,聚焦客观情节
- 字数上限:L/XL 500 字,2XL/3XL 600 字
4. 两种 Prompt 类型
- Prompt-IB:指令放在文本开头
- Prompt-IE:指令放在文本末尾
- 发现不同 prompt 类型对输出质量影响很大(MSE 差异显著)
评估指标¶
主要使用 ROUGE-L,辅以人工细粒度检查分析异常输出类型。
实验关键数据¶
主实验:ROUGE-L 得分¶
| 模型 | L (16k) | XL (32k) | 2XL (64k) | 3XL (128k) |
|---|---|---|---|---|
| GPT-4o | 15.5 | 14.2 | 12.5 | - |
| Gemini-1.5-pro | 19.3 | 18.1 | 16.8 | 14.6 |
| Qwen-plus | 20.5 | 18.5 | 16.4 | 14.8 |
| Moonshot-v1-128k | 22.4 | 20.3 | 18.0 | 15.2 |
| Qwen2.5-72B-Inst | 19.6 | 17.6 | 13.6 | 13.4 |
| InternLM2.5-7B-Chat-1M | 18.0 | 17.1 | 14.7 | 13.0 |
| Yi-1.5-34B-32K | 11.6 | 10.5 | 9.6 | 0.1 |
| Yi-6B-200K | 9.9 | 9.4 | 8.8 | 4.0 |
| Llama3.1-8B-Inst | 15.6 | 14.3 | 12.8 | 9.9 |
| LWM-Text-1M | 3.3 | 3.0 | 2.5 | 1.1 |
Prompt 类型影响(MSE between P-IB and P-IE)¶
| 模型 | MSE |
|---|---|
| Yi-6B-200K | 4.5 |
| Yi-1.5-34B-32K | 14.5 |
| Yi-1.5-34B-Chat-16K | 7.8 |
| Qwen1.5-7B | 34.4 |
| Qwen2-72B | 16.3 |
| GPT-4o | 0.0 |
| Gemini-1.5-pro | 0.1 |
MSE ≥ 5.0 表明 prompt 类型对该模型影响极大,商业模型通常更稳定。
关键发现¶
- GPT-4o 偏好主观评述,导致摘要模糊,ROUGE-L 反而不如 Moonshot、Qwen 等
- 大模型未必更好:推理和理解优势在长文本摘要中难以发挥,小模型性价比更高
- Chat/Instruct 版本可能损害 Base 模型的摘要能力:微调实验中 Base 版表现更好
- RoPE ABF 缩放模型有强外推潜力:用短文本数据微调即可显著提升长文本摘要性能
- 混合长度样本可能导致误导性评估结果:多尺度分离评估更可靠
亮点与洞察¶
- "长文本摘要主要依赖记忆能力"——这个洞察深刻,解释了为何大模型的推理优势无法在此任务中体现
- 数据集构建方法论价值高:多尺度采样+滑动窗口+人工标注的流程可复用
- Prompt 类型的影响被量化:MSE 指标直观展示了 prompt 位置对不同模型的影响差异,对实际使用有指导意义
- 泄露风险控制充分:新书+LLM 检测+过滤,多管齐下
- 微调探索系统全面:从 Base vs Chat、短文本训练长文本、RoPE 外推多角度验证
局限与展望¶
- 仅中文小说领域:摘要风格和结构可能不适用于学术论文、新闻等其他领域
- ROUGE-L 评估的局限:论文自身也承认 ROUGE-L 与人类偏好差异大,但未提出更好的替代方案
- 3XL 子集仅 110 条:128k 长度下的评估统计可靠性较有限
- 标注质量依赖标注员理解力:长文本标注本身对人工要求极高,个体差异难完全消除
- 缺乏对 o1/Claude 等最新模型的评测
相关工作与启发¶
- 与 BookSum 相比:CNNSum 更新、多尺度、中文、人工标注,设计上全面优于旧基准
- 与 CLongEval-LStSum 相比:后者用 GPT-4 合成标注且混合长度,CNNSum 在外推评估中更可靠
- 微调策略的启发:短文本训练→长文本推广在 RoPE ABF 缩放模型上特别有效,是廉价提升长文本能力的好路径
- "主观评述 vs 客观情节"的发现对 prompt 设计有指导意义——应明确要求 LLM 避免评论性语言
评分¶
- 新颖性: ⭐⭐⭐ — 核心贡献是 benchmark 构建,方法论上无特别新颖之处
- 实验充分度: ⭐⭐⭐⭐⭐ — 20+ 模型全面测评,商业+开源覆盖,微调+外推探索系统
- 写作质量: ⭐⭐⭐⭐ — 发现总结清晰,图表丰富,结构条理
- 价值: ⭐⭐⭐⭐ — 填补中文长文本摘要基准空白,洞察对实际应用有指导意义