NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment¶
会议: ACL2026
arXiv: 2604.11543
代码: https://github.com/njust-winchy/llm4novelty
领域: AIGC检测 / 自动同行评审 / 学术文本评估
关键词: 学术新颖性评估, 自动同行评审, LLM评测, 评审文本生成, 语义评价指标
一句话总结¶
NovBench 把“论文引言中的新颖性主张”和“审稿人对新颖性的文字评价”配对成 1,684 条基准样本,并用相关性、正确性、覆盖度、清晰度四个维度系统揭示:当前通用 LLM 和审稿专用 LLM 都能写出流畅评价,但仍难以真正理解和完整判断学术新颖性。
研究背景与动机¶
领域现状:学术论文评审长期把 novelty 视为核心标准之一,尤其在 NLP、机器学习等投稿量快速增长的领域,审稿人需要判断一篇论文是否提出了新的任务、方法、资源、实验设置或理论观察。已有自动化同行评审研究主要关注总体评分、完整 review 生成或 paper-level recommendation,也有一些工作用 bibliometric 指标、文本嵌入或 LLM 给论文新颖性打分。
现有痛点:这些方法大多把“新颖性”处理成一个分数或泛化的评审片段,缺少对自由文本 novelty evaluation 的专门评测。ROUGE、BLEU、BERTScore 这类指标偏词面或句向量相似,不能判断模型是否覆盖了审稿人真正关心的新颖性点;LLM-as-judge 又不透明,容易把评价权交给另一个未校准模型。
核心矛盾:新颖性评价既要忠实理解作者在引言中声明的贡献,又要像审稿人一样判断这些贡献是否充分、是否只是常规组合、是否存在夸大或遗漏。模型如果只复述 introduction,会有高表面相关性但缺少审稿判断;如果模仿 review 语气,又可能产生看似专业但无依据的批评。
本文目标:作者希望把 novelty assessment 从宽泛的自动审稿任务中单独拆出来,建立一个可复现 benchmark;同时设计比词面重叠更可解释的评价维度,能分别检查模型是否理解来源文本、是否与人类审稿判断一致、是否覆盖人类指出的新颖性点,以及输出是否清楚具体。
切入角度:论文没有要求模型读完整论文,而是选择 introduction 中的 novelty description 作为输入,因为引言通常最明确地陈述论文声称的贡献;再把公开审稿文本中与 novelty 相关的评价抽取出来,作为人类判断的参考。这一设计牺牲了一部分全文信息,但换来了任务输入的标准化和大规模可构建性。
核心 idea:用“作者声称的新颖性”到“审稿人评价的新颖性”的配对数据,专门测 LLM 生成 novelty review text 的能力,而不是只看总体 review 或单个 novelty 分数。
方法详解¶
NovBench 的方法贡献可以拆成两层:第一层是数据集构建,得到 paper-level novelty claims 与 reviewer novelty evaluations 的配对;第二层是评价协议,给定 novelty description 后让 LLM 生成结构化 novelty evaluation,再用四个维度自动衡量输出质量。
整体框架¶
输入端,作者从 NLPeer 和 OpenReview 收集 COLING 2020 与 EMNLP 2023 的论文解析结果和审稿文本。
对于每篇论文,系统先从 parsed paper 的 Introduction 部分抽取作者写出的 novelty description,即论文自己声称的创新点。
然后系统从 reviewer comments 中抽取与 novelty aspect 相关的评价句,并按正向、中性、负向情感极性去重和组织。
最终任务定义为:给定一篇论文的 novelty description,要求 LLM 生成按 sentiment polarity 组织的新颖性评价文本。
评测端,作者不只比较生成文本和 gold review 的整体相似度,而是分别计算 Relevance、Correctness、Coverage、Clarity,让每个维度对应一种失败模式。
实验端,论文把 11 个通用 LLM 和 8 个审稿领域专用 LLM 放到同一协议下,在 zero-shot、few-shot、RAG 三种 prompting 策略中比较。
关键设计¶
-
从引言和审稿文本构建双源 novelty benchmark:
- 功能:把作者端的“我有什么创新”和审稿端的“这个创新是否成立”对齐起来,形成 NovBench 的核心样本。
- 核心思路:作者先人工标注 COLING 2020 的 87 篇论文,用来选择 novelty description 抽取方法;在多种 prompt 下比较后,采用带上下文 prompt 的 GPT-5 批量抽取 EMNLP 2023 引言中的 novelty sentences。审稿文本侧,作者利用已有 peer review aspect identification 资源中的 novelty aspect 数据,评测模型后选择 GPT-4o-mini 抽取 EMNLP 2023 review 中的新颖性评价。最后用 GPT-4o 对重复评价进行合并,并按 positive、neutral、negative 组织。
- 设计动机:只依赖人工标注很难扩大到上千篇论文;只依赖论文引言又缺少审稿判断。双源构建让 benchmark 同时保留作者声明和专家评价,使模型不能只靠流畅复述过关。
-
四维自动评价协议:
- 功能:把 LLM 生成的 novelty evaluation 分解成四个可解释质量维度,而不是给一个混合分数。
- 核心思路:Relevance 用 Maximum Matching Average IMS 衡量生成评价是否覆盖输入 novelty description,形式上是对每个来源句取最相似生成句的 IMS 后求平均。Correctness 用情感分布距离 \(DistAcc=1-\sum_i |p_i-t_i|/2\) 比较模型评价与人类评价的正/中/负比例。Coverage 用句向量余弦相似度检查 human novelty evaluations 中有多少点被模型评价覆盖,阈值设为 \(\tau=0.7\)。Clarity 则综合关键词覆盖、句长充分性和基于 perplexity 的流畅度。
- 设计动机:novelty evaluation 的错误并不单一。模型可能很相关但立场错误,可能立场相似但漏掉关键 novelty point,也可能覆盖很多点却写得空泛。四维拆解能定位不同模型的具体短板。
-
统一比较通用模型、审稿专用模型和提示策略:
- 功能:回答“现成 LLM 是否已经会评 novelty”“审稿数据 fine-tuning 是否有用”“few-shot/RAG 是否能补足能力”三个实际问题。
- 核心思路:通用模型覆盖 GPT-4o、GPT-5、Gemini-2.5-flash、DeepSeek-R1、Qwen3、gpt-oss 等;专用模型覆盖 CycleReviewer、DeepReviewer、Llama-OpenReviewer、Reviewer2、SEA-E、SEA-S 等。所有模型使用 greedy decoding,最大 4096 token,并在 zero-shot、few-shot、RAG 下生成同一格式的 novelty evaluation。
- 设计动机:自动审稿领域常默认“更强 LLM”或“用 review 数据微调”就会更像审稿人,但 novelty 是细粒度判断任务,需要在相同输入和相同指标下才能看清能力来源。
损失函数 / 训练策略¶
本文本身不训练新的 novelty evaluation 模型,也没有提出新的监督损失。
它的“训练/推理策略”主要体现在数据抽取和基线推理设置上:novelty description 抽取阶段选择 GPT-5 context prompt,novelty evaluation 抽取阶段选择 GPT-4o-mini zero-shot,情感结构化阶段使用 GPT-4o 去重归并。
在模型评测阶段,所有被测 LLM 都使用确定性的 greedy decoding,并限制最大输出长度为 4096 token,以减少采样波动和截断造成的干扰。
RAG 设置的检索库来自 ACL Anthology 中 2019-2022 年 ACL、EMNLP、NAACL 论文标题与摘要,每个样本检索 5 条相关标题和摘要作为额外上下文。
实验关键数据¶
主实验¶
NovBench 的最终数据来自 EMNLP 2023,共 1,684 篇论文;COLING 2020 的 87 篇子集主要用于人工标注和抽取方法选择。
| 数据资源 | 论文数 | 平均 novelty description 句数 | 平均 novelty evaluation 数 | 主要用途 |
|---|---|---|---|---|
| COLING 2020 子集 | 87 | 6.1 | - | 人工标注抽取 novelty description,选择自动抽取模型 |
| NovBench / EMNLP 2023 | 1,684 | 5.3 | 7.7 | 正式 benchmark,配对作者创新声明与审稿人新颖性评价 |
核心模型结果显示,闭源通用模型在 Relevance 上整体强,SEA 系列等专用模型在 Coverage 和 DistAcc 上有优势,但没有任何模型在四个维度上全面接近理想 novelty reviewer。
| 模型 / 策略 | Relevance | Coverage | Clarity | DistAcc | 关键解读 |
|---|---|---|---|---|---|
| GPT-4o / zero-shot | 3.6983 | 0.2332 | 0.6595 | 0.6979 | 通用模型中相关性最强,能较好抓住引言中的创新声明 |
| GPT-4o / few-shot | 3.5609 | 0.2391 | 0.6587 | 0.7091 | few-shot 提升人类情感分布一致性,但相关性下降 |
| Gemini-2.5-flash / RAG | 3.5089 | 0.2270 | 0.6682 | 0.5923 | RAG 下清晰度较高,但 DistAcc 不突出 |
| SEA-S / zero-shot | 3.6304 | 0.2576 | 0.6630 | 0.7162 | 专用模型中综合表现强,尤其 DistAcc 较高 |
| SEA-E / RAG | 3.3807 | 0.2712 | 0.6585 | 0.5965 | Coverage 很高,说明能覆盖更多审稿人 novelty 点 |
| Reviewer2 / RAG | 0.1556 | 0.0000 | 0.0184 | 0.0709 | 指令跟随严重失败,几乎无法按任务输出有效评价 |
作者还用 100 个样本做人工偏好验证,证明四维自动指标不是单纯的工程拼凑,而是与人类判断有可观一致性。
| 验证项 | 数值 | 含义 |
|---|---|---|
| 人类评估样本数 | 100 | 随机抽样比较两个模型输出优劣 |
| 评估者 | 4 名 NLP 专家 | 包括博士生、副教授和讲师 |
| Fleiss' \(\kappa\) | 0.72 | 标注者之间达到 substantial agreement |
| Spearman \(\rho\) | 0.61 | 自动指标与人类偏好显著相关,\(p<0.001\) |
| Agreement | 78% | 自动指标选择的更优输出与多数人类判断一致 |
消融实验¶
论文没有对某个新模型做模块消融,而是把 prompting strategy 和模型类型作为核心分析变量。
| 配置 / 对比 | 关键指标变化 | 说明 |
|---|---|---|
| zero-shot | GPT-4o Relevance 3.6983,SEA-S Relevance 3.6304 | 多数模型在相关性上最好,说明直接让模型围绕 novelty description 评价时,最不容易偏离来源文本 |
| few-shot | GPT-4o DistAcc 0.7091,SEA-S DistAcc 0.7149,Qwen3-32B DistAcc 0.6944 | 示例能帮助模型模仿人类评价格式和情感分布,但也会让模型更像在学表达模板,而不是更深入理解 novelty |
| RAG | GPT-4o Relevance 从 zero-shot 3.6983 降到 3.4481,Gemini RAG Clarity 0.6682 | 检索内容让输出更清晰,但也可能把注意力从当前论文的新颖性主张上带偏 |
| 通用模型 vs 专用模型 | SEA-S/SEA-E 在 Coverage、DistAcc 上常优于同规模通用模型,但 Reviewer2 等模型崩溃 | 审稿数据微调能学习人类 review 风格,却不保证鲁棒指令跟随和真实 novelty 理解 |
| 人类 reviewer 的 Relevance | Human Relevance 2.7899 | 人类不会逐句复述引言,而是依赖领域知识做高层判断,所以自动相关性指标不能简单等同于审稿质量上限 |
关键发现¶
- LLM 的主要优势是信息抽取和表述清晰:它们可以从 novelty description 中抓住主要方法、任务或资源贡献,并写出结构化评价。
- 当前模型最明显的短板是“审稿式判断”:Coverage 普遍偏低,说明模型常漏掉审稿人关注的某些新颖性点,也不擅长区分不同类型 novelty 的权重。
- few-shot 更像让模型学会 human review 的口吻和情感分布;它提升 DistAcc 和部分 Coverage,但牺牲 Relevance,暗示模型可能在模拟样式而非增强理解。
- RAG 并不天然帮助 novelty assessment。外部论文标题和摘要会让生成文本更具体、更清楚,但如果检索结果与当前论文创新点不完全匹配,模型会出现 focus drift。
- 专用审稿模型的风险比预期更大:一些模型在特定 prompt 上微调后,遇到 NovBench 的结构化输出要求会重复、空输出或完全不按指令作答。
亮点与洞察¶
- 这篇论文最有价值的地方,是把“评 review 文本”这件事从总体自动审稿中剥离出来。相比判断一篇 review 好不好,单独看 novelty evaluation 更容易暴露模型是否真正理解学术贡献。
- NovBench 的双源设计很聪明:introduction 代表作者的显式创新声明,review text 代表专家对这些声明的外部判断。二者之间的张力正是 novelty assessment 的难点。
- 四维指标不是完美 gold standard,但比 ROUGE/BLEU 更贴近任务结构。尤其 DistAcc 和 Coverage 把“立场是否像人类”和“点是否覆盖人类”分开,避免一个高相似度分数掩盖不同错误。
- Human Relevance 低这个现象很有启发:好审稿不一定逐句贴合作者自述,真正的 novelty 判断往往依赖外部知识和领域经验。因此未来 benchmark 需要区分“忠实复述型评价”和“知识增强型审稿判断”。
- 对专用 LLM 的负面结果也很重要。审稿数据 fine-tuning 如果只学固定 prompt 和固定格式,可能牺牲通用指令跟随能力;自动审稿系统不能只看微调后在原任务上的分数。
局限与展望¶
- 最大局限是输入只使用 introduction。引言确实最集中地陈述贡献,但方法细节、实验设置和相关工作比较常常分散在全文其他部分,只看 introduction 可能低估或误判真实 novelty。
- 数据主要来自 COLING 和 EMNLP,且公开 review 多对应 accepted papers。这会带来选择偏差,也限制了结论向 ICLR、NeurIPS、跨学科会议或 rejected submissions 的推广。
- Benchmark 的 novelty 类型还比较粗。资源型论文、方法型论文、分析型论文的新颖性标准不同,而本文只做了较粗的 methodological/resource 额外分析,没有形成细粒度 taxonomy。
- 自动指标仍有近似性。Coverage 依赖 embedding 相似度和阈值,Clarity 中的关键词覆盖与 perplexity 也只是输出清晰度的代理,不能完全替代专家判断。
- RAG 设置比较朴素,只检索标题和摘要,没有系统探索多代理审稿、领域知识图谱、引用网络或全文 evidence retrieval。未来可以把 novelty claim 与相关工作证据显式对齐,减少模型凭空批评。
- 论文没有纳入 reviewer confidence score 到主评价中。事实上高置信审稿人和低置信审稿人的 novelty 判断权重应不同,这一点只在附录 disagreement analysis 中被初步观察。
相关工作与启发¶
- vs 自动同行评审生成: PeerRead、ReviewRobot、KID-review、MARG、AgentReview、TreeReview 等工作关注完整 review 或总体评分,本文只盯住 novelty 这一维,因此评测目标更窄但诊断更清楚。
- vs 新颖性分数预测: bibliometric novelty indicator、FastText + outlier detection、LLM novelty scoring 等方法通常输出数值分数,本文强调生成可解释文字评价,更接近真实审稿过程对作者有用的反馈。
- vs LLM-as-judge 评测: 许多自动审稿研究用另一个 LLM 评价生成 review 的质量,NovBench 选择可解释自动指标并做人类相关性验证,透明度更高,也便于定位错误类型。
- vs aspect identification in peer review: Lu et al. 的工作识别 review 中的方面标签,NovBench 在此基础上进一步把 novelty aspect 抽成可生成、可评测的 benchmark,可作为 aspect-level review generation 的后续任务。
- 启发: 如果要构建更可靠的 AI 审稿助手,应让模型输出 evidence-grounded novelty claims、与相关工作差异、正/负/中性理由和置信度,而不是只生成一段流畅的总体评价。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 首个大规模专门评测 LLM 学术新颖性文字评价的 benchmark,问题切得准;但数据构建仍大量依赖 LLM 自动抽取。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖 19 个模型、3 种 prompting 策略和多项附加分析,并有人类一致性验证;不足是指标和数据源仍偏 NLP accepted-paper 场景。
- 写作质量: ⭐⭐⭐⭐☆ 论文结构清楚,数据构建、指标和实验分析都较完整;部分表格编号和文字存在小瑕疵,但不影响主线理解。
- 价值: ⭐⭐⭐⭐⭐ 对自动同行评审、LLM 科研辅助和学术文本评测都很有参考价值,尤其提醒社区不要把“写得像 review”误认为“真的会评 novelty”。