跳转至

CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels

会议: ACL 2025
arXiv: 2412.02819
代码: GitHub
领域: LLM效率
关键词: long-context summarization, Chinese novels, benchmark, LLM evaluation, RoPE extrapolation

一句话总结

构建了 CNNSum——基于中文小说的多尺度长文本摘要基准(695 样本,16k-128k tokens),通过人工标注确保质量,系统测评了 20+ 个 LLM,发现高级 LLM 倾向生成主观评述导致摘要模糊、小模型性价比更高、Base 版微调效果优于 Chat 版,且用短文本数据微调即可显著提升长文本摘要能力。

研究背景与动机

领域现状:长上下文 LLM 快速发展(128k 上下文已常见),但长文本摘要研究进展缓慢,现有长文本摘要数据集严重不足。

现有痛点: - 现有基准多基于旧数据集(BookSum、CNNDM 等),存在高泄露风险 - 数据量小(几十条)、平均/最大长度短(通常 <16k) - 缺乏多尺度长度子集,无法评估不同上下文长度下的表现 - 标注质量差——网上收集(泄露风险高)或 LLM 合成(各种错误)

核心矛盾:128k 上下文已标配,但 LLM 在长文本摘要中性能随长度急剧下降,输出可能混乱无义或无法遵循指令——核心瓶颈在于缺乏高质量数据集和系统性研究指导。

本文目标:构建高质量多尺度中文长文本摘要基准,系统探索 LLM 长文本摘要的能力边界和改进策略。

切入角度:从中文网络小说出发(原创性高、泄露风险低),分 L/XL/2XL/3XL 四个尺度采样,人工+LLM 协同标注。

核心 idea:好的长文本摘要研究需要好的 benchmark——CNNSum 通过严格的多尺度设计和人工标注,填补了中文长文本摘要基准的空白。

方法详解

整体框架

CNNSum 构建流程:语料收集多尺度采样摘要标注基准测评与探索

关键设计

1. 语料收集与过滤

  • 收集 103 本中文网络小说,每本有清晰章节结构
  • 排除多个独立短故事或缺乏主线的书
  • 用 Qwen2-72B-Instruct 检测潜在热门书籍(高泄露风险),过滤掉 27 本
  • 正则+人工修正非标准标点和无关插入内容

2. 多尺度采样策略

基于 Yi tokenizer 定义四个目标长度及范围:

子集 目标长度 采样范围 样本数 源书数
L 16k [12k, 18k] 190 76
XL 32k [26k, 34k] 195 71
2XL 64k [54k, 66k] 200 60
3XL 128k [112k, 130k] 110 45

采用滑动窗口按章节采样,优先保留稀有书籍的样本以保持多样性。

3. 摘要标注

  • 先让 LLM 对每个章节生成情节摘要
  • 23 名人工标注员阅读摘要,选取关键情节并重写
  • 2XL/3XL 样本由一人标注、另一人审核
  • 要求:(1) 用自己的话重写而非简单删减合并;(2) 避免主观评论,聚焦客观情节
  • 字数上限:L/XL 500 字,2XL/3XL 600 字

4. 两种 Prompt 类型

  • Prompt-IB:指令放在文本开头
  • Prompt-IE:指令放在文本末尾
  • 发现不同 prompt 类型对输出质量影响很大(MSE 差异显著)

评估指标

主要使用 ROUGE-L,辅以人工细粒度检查分析异常输出类型。

实验关键数据

主实验:ROUGE-L 得分

模型 L (16k) XL (32k) 2XL (64k) 3XL (128k)
GPT-4o 15.5 14.2 12.5 -
Gemini-1.5-pro 19.3 18.1 16.8 14.6
Qwen-plus 20.5 18.5 16.4 14.8
Moonshot-v1-128k 22.4 20.3 18.0 15.2
Qwen2.5-72B-Inst 19.6 17.6 13.6 13.4
InternLM2.5-7B-Chat-1M 18.0 17.1 14.7 13.0
Yi-1.5-34B-32K 11.6 10.5 9.6 0.1
Yi-6B-200K 9.9 9.4 8.8 4.0
Llama3.1-8B-Inst 15.6 14.3 12.8 9.9
LWM-Text-1M 3.3 3.0 2.5 1.1

Prompt 类型影响(MSE between P-IB and P-IE)

模型 MSE
Yi-6B-200K 4.5
Yi-1.5-34B-32K 14.5
Yi-1.5-34B-Chat-16K 7.8
Qwen1.5-7B 34.4
Qwen2-72B 16.3
GPT-4o 0.0
Gemini-1.5-pro 0.1

MSE ≥ 5.0 表明 prompt 类型对该模型影响极大,商业模型通常更稳定。

关键发现

  1. GPT-4o 偏好主观评述,导致摘要模糊,ROUGE-L 反而不如 Moonshot、Qwen 等
  2. 大模型未必更好:推理和理解优势在长文本摘要中难以发挥,小模型性价比更高
  3. Chat/Instruct 版本可能损害 Base 模型的摘要能力:微调实验中 Base 版表现更好
  4. RoPE ABF 缩放模型有强外推潜力:用短文本数据微调即可显著提升长文本摘要性能
  5. 混合长度样本可能导致误导性评估结果:多尺度分离评估更可靠

亮点与洞察

  1. "长文本摘要主要依赖记忆能力"——这个洞察深刻,解释了为何大模型的推理优势无法在此任务中体现
  2. 数据集构建方法论价值高:多尺度采样+滑动窗口+人工标注的流程可复用
  3. Prompt 类型的影响被量化:MSE 指标直观展示了 prompt 位置对不同模型的影响差异,对实际使用有指导意义
  4. 泄露风险控制充分:新书+LLM 检测+过滤,多管齐下
  5. 微调探索系统全面:从 Base vs Chat、短文本训练长文本、RoPE 外推多角度验证

局限与展望

  1. 仅中文小说领域:摘要风格和结构可能不适用于学术论文、新闻等其他领域
  2. ROUGE-L 评估的局限:论文自身也承认 ROUGE-L 与人类偏好差异大,但未提出更好的替代方案
  3. 3XL 子集仅 110 条:128k 长度下的评估统计可靠性较有限
  4. 标注质量依赖标注员理解力:长文本标注本身对人工要求极高,个体差异难完全消除
  5. 缺乏对 o1/Claude 等最新模型的评测

相关工作与启发

  • BookSum 相比:CNNSum 更新、多尺度、中文、人工标注,设计上全面优于旧基准
  • CLongEval-LStSum 相比:后者用 GPT-4 合成标注且混合长度,CNNSum 在外推评估中更可靠
  • 微调策略的启发:短文本训练→长文本推广在 RoPE ABF 缩放模型上特别有效,是廉价提升长文本能力的好路径
  • "主观评述 vs 客观情节"的发现对 prompt 设计有指导意义——应明确要求 LLM 避免评论性语言

评分

  • 新颖性: ⭐⭐⭐ — 核心贡献是 benchmark 构建,方法论上无特别新颖之处
  • 实验充分度: ⭐⭐⭐⭐⭐ — 20+ 模型全面测评,商业+开源覆盖,微调+外推探索系统
  • 写作质量: ⭐⭐⭐⭐ — 发现总结清晰,图表丰富,结构条理
  • 价值: ⭐⭐⭐⭐ — 填补中文长文本摘要基准空白,洞察对实际应用有指导意义