Improving Attributed Long-form Question Answering with Intent Awareness¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fRCm5c8x0j
代码: https://github.com/colinzhaoust/intent-aware-deep-research
领域: 文本生成 / 长文问答 / 归因生成
关键词: 意图感知, 引用归因, 长文报告生成, 深度研究系统, 知识蒸馏
一句话总结¶
针对深度研究系统生成的长文报告"引用质量差、可读性低"的问题,本文提出一套基于标签的双层意图(段落意图 + 引用意图)写作框架,既能在推理时通过 prompt 直接提升大模型,又能用带意图的合成数据蒸馏小模型——在三个科学报告生成基准上,大模型平均涨 +2.9 分、小模型涨 +12.3 分,引用指标提升尤为显著。
研究背景与动机¶
领域现状:深度研究系统(deep research)让 LLM 从几十上百个来源里汇总信息、生成带引用的多段落长报告,已经成为知识密集型问答的主流形态。和老式 QA 只检索几篇文档给个简短答案不同,这类任务要求组织结构、论证编织、来源归因三者兼顾。
现有痛点:现有方法基本都是 RAG 范式——把检索到的文档塞进上下文让模型一边写一边加引用。但模型只学到了人类写作的"文字风格",却没学到人写作时背后的"思维过程"。一项记录学者在 Overleaf 上写作的研究发现,近 10% 的击键花在大纲、规划和组织上,可这些高层意图在最终文本里全被抹掉了,自然也不在训练语料里。结果是模型会模仿文风,却不会显式地规划"这段为什么这么写、这个引用为什么放这"。
核心矛盾:人类写作"每一段、每一句都有目的"(intent),但这种目的在成稿里是隐形的。模型从没被暴露过这些意图,因此在长文归因任务上引用召回低、引用精度不稳、报告读起来像一堆孤立段落的堆砌,缺乏论证的连贯性。
本文目标:把写作意图显式地注入生成过程,分解为两个子问题——(i) 怎么在写作时表示意图;(ii) 怎么把意图感知分别注入推理阶段(大模型)和训练阶段(小模型)。
切入角度:作者借鉴人类 sensemaking 与写作理论,假设"增强模型的意图意识能显著提升长文报告质量"。意图分两个粒度:段落级(这段是背景/对比/因果……)和引用级(这个引用是用于背景/动机/方法借用……),并用文献里成熟的引用意图与篇章模式分类体系来落地。
核心 idea:用一套内联的"标签 + 理由"意图模式(tag-based schema),在生成报告时显式吐出每段和每个引用的意图,作为写作的脚手架;推理时当作 test-time scaling,训练时当作高质量蒸馏信号。
方法详解¶
整体框架¶
方法的核心是一个意图感知写作框架:给定用户查询 \(q\),系统要生成多段落报告 \(R\),每段 \(p_i\) 含若干句子,句中需要外部依据处插入引用 \(c_j \in C\)(来自参数化知识或检索片段)。框架不改动底层 RAG 架构,只在"怎么写"这一层做文章——先定义一套双层意图标注模式,再把这套模式分别注入两条路径:推理路径(直接 prompt 大模型边写边吐意图)和训练路径(让大教师模型生成带意图的数据,蒸馏给小学生模型)。最终产出的是嵌入了意图标签的、归因更可靠、可读性更高的长文报告。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["用户查询 q<br/>+ 检索片段集 C"] --> B["双层意图标注模式<br/>段落意图 + 引用意图<br/>(标签 + 理由)"]
B -->|大模型·推理时| C["推理时 verbalized intents<br/>prompt 模型边写边吐意图"]
B -->|小模型·训练时| D["意图感知 SFT 蒸馏<br/>教师产数据→学生学写作"]
C --> E["带意图标签的<br/>归因长文报告"]
D --> E
关键设计¶
1. 双层意图标注模式:用"标签+理由"把隐形写作目的显式化
这一步直击"模型从没见过写作意图"的痛点。作者设计了两个粒度的意图:段落意图(paragraph intent)刻画整段在报告叙事中的功能(如背景铺垫、两种 SOTA 方法的对比),引用意图(citation intent)更细,刻画某个引用 \(c_j\) 为什么被用来支撑某句话(如借用其方法、表达异同)。表示形式借鉴 STaR 与 ToW 的思路,用内联标签模板 <begin intent> [意图类型] 理由 <end intent>——引用意图用 <bcit>...<ecit> 包裹放在句子和内联引用之间,段落意图用 <bpit>...<epit> 放在每段正文之前。意图类型不是随意定的:引用意图直接采用 ACL-ARC 的六类体系(Background / Motivation / Uses / Extension / Comparison / Future),段落意图则取自篇章模式研究里的功能类别(Exposition / Definition / Argumentation / Compare-contrast / Cause-effect / Problem-solution / Evaluation / Narration,去掉了情感表达类)。关键在于每个标签都配一句自然语言理由,让意图不只是个类别符号,而是带着"为什么"的可读注释——这既是给模型的写作提示,也是给读者的导航。
2. 推理时 verbalized intents:把意图当作一种针对性的 test-time scaling
对已经很强的大商用模型,作者不做任何训练,只在推理时改 prompt:让模型直接输出嵌入了段落意图和引用意图标签的报告。作者把这种策略称为 verbalized intents,本质是 test-time scaling 的一个变体——但和 CoT 那种泛化的"想一想"不同,它专门诱导出"意图"这一类特定思维。直觉是:模型在落笔每段前先声明这段的功能、在每个引用前先声明引用的作用,相当于先做了一次轻量的写作规划,从而更克制地组织论证、更准确地把引用绑到它真正支撑的论点上。实验证实这主要提升了归因质量(引用精度/召回),而 rubric、答案精度这类不涉及引用的指标基本持平——因为 SOTA 大模型本就擅长抽取要点。
3. 意图感知 SFT 蒸馏:先让教师产意图数据,再分三种粒度喂给小模型
小模型本就落后大模型,直接让它边写边吐意图反而被额外复杂度拖累。作者的解法是:先用 verbalized intents 提示一个大教师模型(gemini-2.5-pro)生成带意图标签和理由的训练数据,再对小模型做 SFT,并设计三种逐级降低指令复杂度的变体。intent-implicit SFT 在训练前把意图标签和理由全删掉——数据是"带着意图想法"产出的,但学生只学直接写报告这件事,不学生成意图。intent-explicit SFT 保留意图标签和理由,让显式标签充当额外解释,帮小模型理解怎么组织段落、怎么用引用。intent-multiview SFT 进一步把意图感知生成拆成多个子任务:对每条数据产出四个"指令-报告"对(完整意图版、仅段落意图版、仅引用意图版、无意图版),在四者上联合训练,以降低单条数据点的指令复杂度。为公平起见,multiview 虽有 4 倍数据点,但训练步数压到 1/4,保证算力可比。两条 baseline 分别是:直接 prompt 不训练,以及在同一教师生成但不带意图的数据上做普通 SFT。
⚠️ 框架↔关键设计一致性:框架图里的"双层意图标注模式 → 推理路径 / 训练路径 → 归因报告"三块,分别对应上面设计 1、2、3;训练路径内部的三种 SFT 变体收在设计 3 里统一讲。
一个完整示例¶
以图 1 的例子说明意图怎么改变生成:查询是"哪些实证研究考察了科研项目中重大思路转变(pivot)的成因?"。默认深度研究 agent 写出的某段,把"职业生涯转向"当成了研究方向转变来谈,离题且引用用得含糊。加上意图标注后,模型先在段前打出段落意图 [PIT-Cause-Effect] 本段说明意外结果如何导致研究方向的重大改变,落笔时就被这个"因果"功能约束住;写到引用处,又分别标出 [1][2]: [CIT-Motivation] 意外发现 和 [3]: [CIT-Background] 假设重构——于是模型清楚每个引用各自承担什么角色,写出的段落聚焦在"意外发现驱动 pivot"这一真正切题的因果链上,引用也各归其位。读者据此能一眼判断要不要展开读这段、要不要点进某个引用。
实验关键数据¶
主实验¶
三个长文报告生成基准:SQA-CS-V2(AstaBench 科学问答,rubric / 答案精度 / 引用精度 / 引用召回四指标)、DeepScholar Bench(生成 related-work 章节)、ResearchQA(综述派生的 rubric 评分,仅用段落意图、无检索)。检索集对每条查询固定,以排除检索质量干扰、只看写作差异。
推理时给大模型加意图(+intent)的效果:
| 模型 (SQA-CS-V2) | Overall | 引用精度 | 引用召回 |
|---|---|---|---|
| o3 | 85.1 | 89.4 | 63.4 |
| o3 + intent | 86.0 | 89.9 | 66.9 |
| gemini-2.5-pro | 88.1 | 93.2 | 82.4 |
| gemini-2.5-pro + intent | 89.7 | 95.7 | 86.1 |
| Claude opus-4 | 85.4 | 89.6 | 79.6 |
| Claude opus-4 + intent | 89.0 | 95.1 | 86.0 |
Claude 的引用精度/召回提升 5-7 个绝对点;配对 t 检验显示 gemini 的 Overall 提升 \(p=0.013\)、o3 \(p=0.072\)(\(\alpha=0.1\) 下显著)。大模型跨基准宏平均 +2.9 分,其中引用指标 +3.7 分。
小模型意图感知 SFT(SQA-CS-V2):
| 基座 / 变体 | Overall | 引用精度 | 引用召回 |
|---|---|---|---|
| gemini-2.5-pro (参考) | 88.1 | 93.2 | 82.4 |
| qwen3-8b 无训练 | 80.7 | 83.2 | 66.9 |
| qwen3-8b baseline SFT | 83.2 | 85.8 | 73.9 |
| qwen3-8b intent-multiview | 88.6 | 93.7 | 84.7 |
| llama3.1-8b 无训练 | 66.4 | 67.2 | 56.1 |
| llama3.1-8b intent-multiview | 89.2 | 95.4 | 86.7 |
| qwen3-4b 无训练 | 80.9 | 82.8 | 68.1 |
| qwen3-4b intent-explicit | 87.5 | 91.5 | 81.3 |
qwen3-8b / llama3.1-8b / qwen3-4b 相对各自基座分别 +7.9 / +22.8 / +6.1 分;8B 模型的 multiview 变体甚至反超 gemini-2.5-pro。小模型跨任务平均 +12.3 分,引用指标平均 +18.7 分。
消融实验¶
gemini-2.5-pro 在 SQA-CS-V2-dev 上的意图类别消融与方法对比:
| 配置 | Overall | 引用精度 | 引用召回 | 说明 |
|---|---|---|---|---|
| 无意图 | 88.1 | 93.2 | 82.4 | baseline |
| 仅引用意图 | 88.6 | 95.3 | 86.2 | 引用指标已大涨 |
| 仅段落意图 | 89.1 | 95.2 | 85.6 | 单用也有效 |
| 全部意图 | 89.7 | 95.7 | 86.1 | 两类正交叠加最优 |
| CoT | 81.3 | 83.3 | 76.1 | 反而掉点 |
| ReAct | 77.6 | 76.5 | 72.0 | 更差 |
关键发现¶
- 引用是涨点主战场:rubric / 答案精度基本不动,提升几乎全来自引用精度和召回——意图主要修的是"归因"而非"找要点"。
- 两类意图正交互补:段落意图、引用意图单独用都涨,合起来最优;且都明显优于 CoT、ReAct 这类通用推理 prompt(后者在长文报告上甚至掉点)。
- 意图让小模型"像大模型一样用引用":分析显示加意图后小模型用到的检索候选比例大幅上升(baseline SFT ~34% → multiview ~64%)且不掉精度,与 gemini 的引用重叠覆盖度也从 ~58 升到 ~87。
- multiview 对 8B 最稳:把意图生成拆成多视图子任务、降低单点指令复杂度,对 8B 模型一致最优;4B 上 explicit/multiview 明显优于 implicit,印证"保留意图标签=额外解释"的假设。
- o3 引用行为反常:约 60% 的 claim 掺入了 o3 自身记忆而非上下文片段,加引用意图在 DeepScholar 上反而掉引用质量,只用段落意图才稳(+2.5 分)。
- 意图分布暴露模型差异:模型整体复现了人类"Background/Uses 主导"的趋势,但严重低用 Comparison/Contrast(~5% vs 人类 17%),说明当前系统倾向"陈述"而非"综合对比"。
- 用户研究证实可读性:20 名被试、71 份报告,读带意图版本的段落/引用 Likert 评分 4.47 / 4.46,显著高于 baseline 的 3.84 / 3.62,意图能帮读者快速决定是否展开某段或点进某引用。
亮点与洞察¶
- 意图既是生成脚手架,也是诊断探针:同一套标签,推理时拿来 test-time scaling、训练时拿来蒸馏、事后还能统计分布来诊断"模型 vs 人类"的写作差异(如缺对比),一物三用。
- 不动 RAG、纯靠解码与蒸馏:方法是 plug-and-play 的,保留现有 RAG 架构,只在写作层加意图,迁移成本低。
- "标签+理由"的双重价值:理由不仅给模型当写作提示,还直接成了给读者的导航注释,把可解释性顺手做进了产物里——这个把"训练信号"和"用户体验"合二为一的设计很巧。
- 可迁移 trick:当大模型的某种隐式技能(这里是写作意图)难以蒸馏时,让教师显式吐出该技能的中间表示、再用多视图拆解降低学生学习难度,是个通用的蒸馏配方。
局限与展望¶
- 作者承认意图模式是纯合成的,只有段落和引用两层,而人类写作是多层、层级化的意图(段落间相互支撑、引用承担批判/预期/语境化等更细的修辞角色),未来可用人工标注或写作过程日志来 grounding,并探索树/图结构的意图表示。
- 研究局限在科学领域,写作结构相对规范;政策、法律、人文等领域的引用可能承担修辞、历史、伦理等本模式覆盖不到的功能,schema 可能需要领域自适应。
- o3 的反常案例说明方法对模型自身引用行为依赖较大:当模型倾向用参数化记忆而非上下文时,引用意图可能反噬,需要按模型挑意图类型。
- 评测重度依赖 LLM-judge 流水线,引用精度/召回这类指标本身的可靠性会传导到结论上;用户研究规模(20 人)也偏小。
相关工作与启发¶
- vs 普通 RAG 归因生成:以往工作训练 LLM 在生成时结合外部/参数化知识并加引用,关注引用质量本身;本文不改 RAG,而是在写作层注入"为什么这么写/为什么引这篇"的意图,把归因问题转化为意图规划问题。
- vs CoT / ReAct:同属推理时增强,但 CoT/ReAct 诱导的是通用"思考/行动",在长文报告上反而掉点;本文 verbalized intents 专门诱导"写作意图"这一类思维,更贴合报告组织与归因,实验上明显占优。
- vs STaR / ToW 等 rationale 方法:借用了"标签+理由"的表示形式,但把 rationale 从"解题推理"换成"写作意图",并首次系统地把它同时用于推理增强和小模型蒸馏。
- vs 引用意图分类 / 篇章解析:以往把意图理解当成分类或解析任务(事后分析既有文本);本文反过来把意图类别当成生成时的前置规划信号,让模型先声明意图再写作。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"写作意图"从分析任务转成生成脚手架,并打通推理增强与蒸馏两条路,视角新颖
- 实验充分度: ⭐⭐⭐⭐ 三基准 + 多基座 + 意图类别消融 + 引用行为分析 + 用户研究,较完整;但 judge 依赖与用户规模偏小
- 写作质量: ⭐⭐⭐⭐ 动机清晰、图 1 例子直观、意图分布分析有洞见
- 价值: ⭐⭐⭐⭐ 即插即用、对小模型增益巨大(+12.3),对深度研究/长文归因系统有直接实用价值