Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review¶

会议: ACL 2026
arXiv: 2602.11173
代码: https://github.com/UKPLab/acl2026-respgen-respeval
领域: 对话/科学文档处理
关键词: 作者回复生成, 同行评审, 人在回路, 可控文本生成, 评估框架

一句话总结¶

本文将学术论文作者回复（rebuttal）生成重新定义为"作者在回路"任务，提出 Re3Align 数据集（3.4K 论文、440K 句级编辑标注、15K 审稿-回复-修改三元组）、REspGen 可控生成框架和 REspEval 20+ 指标评估套件，在 5 个 SOTA LLM 上系统验证了作者输入、可控性和评估引导精修的效果。

研究背景与动机¶

领域现状：作者回复（rebuttal）写作是学术同行评审中的关键环节，需要大量作者精力。NLP 辅助自动生成作者回复（ARG）是新兴但未充分探索的研究方向。

现有痛点：(1) 现有 ARG 工作仅使用审稿意见作为输入，忽略了作者的领域专业知识、独有信息和回复策略——但实际中许多审稿关切只有作者才能回答（如具体实验设计、澄清定义等）；(2) 缺乏提供细粒度作者信号的数据集——现有数据集无句级编辑标注、无审稿-回复段落对齐、无修改映射；(3) 评估仅限于表面相似度指标（ROUGE/BLEU），缺乏对可控性、输入利用率、回复质量和话语结构的多维评估。

核心矛盾：作者回复写作本质上需要整合作者专属信号（修改计划、领域知识、回复策略），但现有 NLP 方法将其视为通用的"审稿→回复"文本生成问题，产出的回复缺乏具体细节和作者独有信息。

本文目标：(1) 形式化定义"作者在回路"ARG 范式；(2) 构建支撑该范式的大规模三元组数据集；(3) 提供支持灵活作者输入和多属性控制的生成框架；(4) 建立 20+ 指标的全面评估体系。

切入角度：利用论文修改版本作为作者信号的代理——会议场景中回复描述计划的修改，修改版论文中的实际编辑可回溯代理作者的意图和专业知识。

核心 idea：将论文修改中的句级编辑作为作者专属信息的代理，构建审稿意见-作者回复-论文编辑三元组对齐数据集，使 ARG 模型可以利用作者的真实修改意图来生成高质量回复。

方法详解¶

整体框架¶

本文围绕"作者在回路"范式搭了数据集、生成、评估三件套，闭环地把作者的真实修改意图注入回复生成。输入端是一篇论文的审稿-回复-修改版完整记录：Re3Align 先把它对齐成句级的"审稿意见–作者回复–论文编辑"三元组；REspGen 以审稿意见为主输入，可选接入作者编辑信号、v1 论文段落检索、回复计划和长度约束，产出可控回复，并支持把评估反馈拿回来做迭代精修；REspEval 则在话语、可控性、输入利用、回复质量四个维度用 20+ 指标量化这份回复到底答没答到点子上、用没用上作者信息。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["论文记录<br/>审稿 + 回复 + v1→v2 修改"]
    subgraph DATA["Re3Align 三元组数据集构建"]
        direction TB
        A["引用匹配<br/>抽审稿-回复段落对"] --> B["修改分析<br/>句级编辑标注"] --> C["双向对齐<br/>审稿/回复 → 编辑"]
    end
    IN --> DATA
    DATA --> GEN
    subgraph GEN["REspGen 可控生成框架"]
        direction TB
        D["输入配置<br/>审稿意见 + 作者编辑 + v1 段落检索"] --> E["回复计划 + 长度约束<br/>立场/策略/篇幅可控"] --> F["生成可控回复"]
    end
    GEN --> EVAL["REspEval 多维评估<br/>话语/可控性/输入利用/质量 20+ 指标"]
    EVAL -->|反馈理由 + 改进建议迭代精修| D
    EVAL --> OUT["最终作者回复"]

关键设计¶

1. Re3Align 三元组数据集构建：用论文修改作为作者信号的代理

活跃地向作者要"你为什么这么回复"在伦理和工程上都不现实，但论文的修改版本本身就是作者意图的事后落地——回复里承诺的改动，在 v1→v2 的句级编辑中都能找到对应。基于这一观察，作者从 EMNLP24（679 篇）和 PeerJ（2,715 篇）收集完整论文记录，用三步流水线把它对齐成三元组：(a) 引用匹配算法抽出 16,071 对审稿-回复段落（人工验证 98% 准确率）；(b) SOTA 修改分析模型标注 439,798 个句级编辑（对齐 F1 > 90%，意图分类 84.3 F1）；(c) 双向对齐策略（审稿→编辑 + 回复→编辑，微调 LLM 分类器 >90% 准确率）生成 15,521 个句级三元组。这是首个同时带句级编辑标注、审稿-回复段落对齐和修改映射的大规模数据集。

2. REspGen 可控生成框架：把作者的语气、策略、长度做成可拨的旋钮

此前 ARG 工作只喂审稿意见、产出"通用回复"，作者实际写 rebuttal 时却要同时拿捏立场、策略和篇幅。REspGen 因此叠了三层控制：回复计划控制把审稿意见分成 Criticism/Question/Request 三类，每类挂 16 种回复动作标签（归为合作、防御、对冲、社交、其他 5 大立场），作者可逐条指定回复策略序列；长度约束设上界词数（实验取人类回复长度 \(+50\)）；输入配置让作者编辑以"编辑字符串"（粗糙想法）或"编辑字符串 + 段落上下文 + 章节标题"（精细定位）两种粒度接入，并额外支持基于检索-重排的 v1 论文段落检索。这套配置让同一份审稿意见可以被引导出语气、策略、信息量都不同的回复。

3. REspEval 多维评估套件：用原子事实检验替代表面相似度

ROUGE/BLEU 只比字面重合，看不出回复有没有真正回应关切、有没有用上作者信息、有没有守住计划。REspEval 因此在四个维度铺了 20+ 指标：话语分析给出 5 类立场比例（%Coop/%Defe/%Hed/%Soc/%Other）、ArgumentLoad 及转换流；可控性测长度遵守率（%met + median diff）和计划保真度（P/R/F1 + 基于 LCS 的 Order Fidelity）；输入利用用原子事实检验算生成事实精确度（GFP，生成事实中被输入支持的比例）和输入覆盖召回率（ICR，作者编辑事实在回复中出现的比例）；回复质量用基于评审准则的 GPT-5 给针对性（Targ）、具体性（Spec）、说服力（Conv）5 分制打分。12 位研究者、1,365 条人工判断验证了这套指标，一致性评分 > 4.17/5，Krippendorff \(\alpha = 0.81\text{-}0.89\)。

损失函数 / 训练策略¶

REspGen 是提示驱动的大语言模型，不涉及参数训练，输入配置和属性控制全靠提示模板实现。评估引导的迭代精修构成闭环：把 REspEval 返回的指标、理由和改进建议，连同原始输入和初始草稿一起回灌给 REspGen，生成改进版回复——这也是实验里 Targ 从 .85 升到 .94 的来源。

实验关键数据¶

主实验¶

不同 LLM 和设置下的回复质量对比（选取 GPT-4o 和 DeepSeek）

设置	GFP %sup	ICR %sup	Targ	Spec	Conv
Human baseline	.458	.200	.788	.575	.575
GPT-4o noAIx（无作者输入）	.443	.033	.842	.508	.554
GPT-4o wAIx(S)	.689	.668	.826	.638	.654
GPT-4o wAIx(+v1)	.781	.432	.847	.721	.717
GPT-4o +Refine(planC)	.695	—	.938	.771	.742
DeepSeek noAIx	.412	.046	.779	.433	.496
DeepSeek wAIx(+v1)	.738	.452	.861	.692	.700
DeepSeek +Refine(planC)	.734	—	.913	.746	.742

消融实验¶

作者输入粒度对事实利用的递进影响（Phi-4 模型）

设置	GFP %sup ↑	GFP %unsup ↓	GFP %con	ICR %sup ↑
noAIx（无作者输入）	.362	.542	.096	.300
wAIx 编辑字符串	.575	.374	.051	.509
+段落上下文	.577	.364	.059	.470
+v1 检索	.705	.236	.059	.358

长度和计划控制的交互效果（Llama-3.3）

设置	lenC %met	planC F1	Targ	Conv
+lenC only	1.00	—	.771	.638
+lenC & planC	1.00	.619	.850	.638
+planC only	—	.486	.892	.671

关键发现¶

作者输入显著提升事实精确度（GFP %sup 从 .36-.44 提升到 .58-.78），不支持事实比例大幅降低
评估引导精修有效提升针对性（Targ 从 .85 提升到 .94）和说服力，但可能降低事实精确度——揭示质量-事实性权衡
长度和计划控制的同时施加存在质量-可控性权衡——同时控制两个属性时质量略低于仅控制一个
ICR 在加入更多上下文后反而下降，说明信息过载导致模型无法优先处理核心编辑内容
所有模型在无作者输入时生成大量无支撑事实（>50%），证实了"作者在回路"的必要性

亮点与洞察¶

"作者在回路"范式的提出是对 ARG 任务的本质性重新定义——从通用生成变为人机协作
利用论文修改版本作为作者信号的代理是巧妙的方法论创新，规避了实时采集的伦理和实践障碍
REspEval 中基于原子事实检验的 GFP/ICR 指标比 ROUGE 更有意义地衡量了回复对作者信息的利用
Order Fidelity 指标基于 LCS 的设计既简洁又合理，可推广到其他序列控制评估场景
Table 1 对比先前工作在数据/生成/评估三维的差距，清晰展示了贡献的系统性

局限与展望¶

代理信号（论文编辑）与实际作者意图之间存在固有差距——并非所有修改都对应审稿关切
仅在英语学术文本上验证，其他语言和领域未测试
评估引导精修可能导致过拟合 REspEval 指标而非真实质量提升
未来可探索交互式多轮精修、与实际作者的用户研究、以及更细粒度的作者控制接口

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统定义"作者在回路"ARG 范式，数据集、框架和评估三位一体
实验充分度: ⭐⭐⭐⭐⭐ 5 个 LLM、9 种设置、20+ 指标、12 人人工验证，极为全面
写作质量: ⭐⭐⭐⭐ 结构完整、技术细节充分，但信息密度极高导致阅读门槛较高
价值: ⭐⭐⭐⭐⭐ 对学术写作 NLP 辅助具有重要推动作用，数据集和工具的实用价值高