Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=faECRsdRav
代码: https://github.com/HKUSTDial/LiteCoST
领域: 信息检索 / 长文档问答 / 结构化信息抽取
关键词: 长文档 QA, 结构化思维链 (CoST), 小语言模型, SFT, GRPO, 结构化输出

一句话总结¶

LiteCoST 用强 LLM 把"长文档 QA"重写成"先抽结构再答题"的可审计轨迹，再用 SFT→GRPO 双信号把这种结构优先行为蒸馏进 3B/7B 小模型，让小模型在金融/法律/科研长文档 QA 上逼平 GPT-4o，同时延迟降低 2–4 倍。

研究背景与动机¶

领域现状：LLM 越来越多被用于文档数据分析，但直接在长、噪声大、多源的文档上推理既脆弱又不透明——在金融、法律这类高风险场景里容易漏掉证据、产生幻觉、格式漂移。一条被验证有效的路线是"先把分散证据固化成结构化数据（表/图/分块），再从结构里推导答案"，因为结构让证据可见、可核验、可复用。

现有痛点：(1) 证据分散在跨文档的长上下文里，直接 prompt 容易遗漏或幻觉；(2) 数值的单位/格式异构，需要归一化；(3) 长上下文推理要在整个结构上保持一致。直接让 GPT-4 / DeepSeek-R1 输出结构化产物虽然准，但反复调用大模型 = 高 token/算力成本 + 高延迟 + 低吞吐，还把敏感数据送上托管 API 带来隐私风险。

核心矛盾：换成可本地部署的小模型（SLM）能省成本、保隐私，但现成 SLM 恰恰缺乏 CoST 所需的技能——长上下文的 schema 感知抽取、单位/实体归一化、记录对齐、分步一致的序列化，所以朴素的 LLM→SLM 直接替换行不通。

本文目标：在"准确可验证"（G1）和"小模型低延迟"（G2）之间取得平衡，让 SLM 生成的结构 $S_{SLM}$ 对答题和 LLM 生成的 $S_{LLM}$ 一样有用，但延迟远低：$\text{LLM}(Q, S_{SLM}) \approx \text{LLM}(Q, S_{LLM})$ 且 $\text{Latency}(S_{SLM}) \ll \text{Latency}(S_{LLM})$。

核心 idea：结构优先蒸馏——先用强 LLM 当一次性"结构优先轨迹生成器"产出可审计的 CoST 轨迹 + 机器可校验的结构化输出（SSO），再用轻量两阶段（SFT→GRPO，带双层奖励）把这种 schema 感知的结构化推理灌进紧凑模型。

方法详解¶

整体框架¶

LiteCoST 是一个两大支柱（two-pillar）框架。Stage A（CoST）：强 LLM 以 CoST 模板为输入，对每个问题动态选结构、抽证据、归一化、对齐、序列化、自检自修，产出一条可审计的 CoST 轨迹（<reasoning>）和一个查询专属的序列化结构化输出 SSO（<answer>，表/图/分块），作为监督信号。Stage B（SLM 微调）：先 SFT 让小模型学会 schema/格式/分步纪律，再用 GRPO 配双层奖励（结果奖励 + 过程奖励）强化答案质量与推理一致性。最终 3B/7B 小模型内化"结构优先"行为，推理快且可审计。

flowchart LR
    Q[问题 Q + 长文档 D] --> T[CoST 模板]
    T --> A1[A1 结构分析<br/>选表/图/分块 + 动态 schema]
    A1 --> A2[A2 轨迹生成<br/>抽取/对齐/序列化]
    A2 --> A3[A3 质量验证<br/>LLM-as-Judge]
    A3 --> A4[A4 迭代精修<br/>Iterative Structuralizer]
    A4 --> DATA["(CoST 轨迹 c*, SSO S*)"]
    DATA --> SFT[Stage B-1: SFT<br/>结构/格式/分步对齐]
    SFT --> GRPO[Stage B-2: GRPO<br/>结果奖励 + 过程奖励]
    GRPO --> M[LiteCoST 小模型 3B/7B]

关键设计¶

1. CoST 模板：把 QA 重写成"四步结构化"的可审计轨迹——这是 Stage A 的核心。给定问题、文档、真值答案和 CoST 模板，强 LLM 走四步：(A1) 结构分析先做面向问题的结构选择（统计比较选表、关系推理选图），再让 LLM 解析问题枚举任务相关的属性/实体（如 Company、Asset、Year）动态构建 schema，避免穷举整篇语料；(A2) 轨迹生成在 schema 指导下分步抽取、对齐、序列化成确定性结构，同时吐出推理轨迹和最终结构；(A3) 质量验证因为没有结构化真值，改用 LLM-as-Judge——用 GPT-4o 评估"结构能否答对原问题"，命中参考答案的样本才保留；(A4) 迭代精修的核心是 Iterative Structuralizer，对低质量样本不丢弃，而是把它们连同问题/上下文递归重用、重构成"补充抽取"任务再生成，比普通微调提供更丰富的监督。最终产出 $(c^*, S^*)$ 这对高质量监督。

2. SFT→GRPO 两阶段适配：先学结构纪律，再强化推理一致性——Stage B 把 Stage A 的能力迁进 SLM。每个训练样本 $z=(i,d,c^*,y^*)$ 含问题、文档、CoST 轨迹和结构化输出。先做 SFT（LoRA，rank 16），让通用底座获得 CoT 驱动的信息抽取基本功，缓解直接部署时的抽取错误；再用 GRPO 做 RL。GRPO 对每个问题从旧策略采一组输出 $\{o_1,\dots,o_G\}$，按组内相对优势 $A_i=\frac{r_i-\text{mean}(r)}{\text{std}(r)}$ 优化目标 $J_{GRPO}$（带 clip 信任域和 $\beta D_{KL}$ 约束），无需价值网络即可稳定更新。

3. 双层（结果 + 过程）奖励：把稀疏的"答对"细化到分步监督——这是把结构化行为灌进小模型的关键奖励设计。结果奖励含两部分：格式合规用分层奖励——只有 <reasoning>+<answer> 且无冗余给软奖励 0.5，进一步有显式 Step 标签给硬奖励 1.0，否则 0；答案正确用混合度量 $f_{score}=\alpha\cdot S_{struct}+(1-\alpha)\cdot S_{sem}$（$\alpha=0.3$），$S_{struct}$ 用规则检查行列对齐，$S_{sem}$ 用 GPT-4o-mini 比对语义相似度。过程奖励针对"结果奖励太稀疏"的问题，从实体级和元组级判断每步 $s_i$ 是否与真值 $s_i^*$ 一致：$R_{process}=\frac{1}{N}\sum_{i=1}^{N}\mathbb{1}[\text{Cons}(s_i,s_i^*\mid I_{consistency})]$，提供稠密的分步信号。总奖励是三者之和，并对过程奖励乘一个轨迹级系数 $\tilde{R}_{process}(s_i)=R_{process}(s_i)\cdot\gamma(T_i)$——正确轨迹取正值强化推理、错误/过度思考取负值抑制、格式错误取 1 把惩罚隔离到具体步骤。

实验关键数据¶

主实验表格（Loong 金融子集，AS=平均分 0–100，PR=完美率）¶

模型	规模	Overall AS	Overall PR
LLaMA-3.2-3B (Base)	3B	49.37	0.11
LLaMA-LiteCoST (Ours)	3B	76.95 (↑27.58)	0.40 (↑0.29)
Qwen2-7B (Base)	7B	62.10	0.26
Qwen-LiteCoST (Ours)	7B	79.93 (↑17.83)	0.48 (↑0.22)
GPT-4o-mini	8B	78.08	0.51
Qwen2.5-14B-Instruct	14B	75.60	0.38
GPT-4o	200B	79.32	0.54
DeepSeek-R1	671B	78.18	0.46

Qwen-LiteCoST(7B) 的 Overall AS 超过 GPT-4o-mini(+1.85)、DeepSeek-R1(+1.75)、GPT-4o(+0.61)，用 7B 参数逼平/反超百倍量级大模型。

对比 SOTA 方法（Loong 金融子集 Overall AS / PR）¶

方法	LLaMA-3B 底座	Qwen-7B 底座
StructRAG	36.04 / 0.01	49.68 / 0.03
Struc-bench	49.90 / 0.11	73.72 / 0.44
IEpile	61.90 / 0.22	69.19 / 0.35
LiteCoST	76.95 / 0.40	79.93 / 0.48

相对最强基线 StructRAG 提升 (+30.91/+0.39) 和 (+30.47/+0.46)；相对最优微调方法分别 +15.05(over IEpile) 和 +6.41(over Strucbench)。

消融实验表格（奖励设计，Overall AS / PR）¶

配置	LLaMA-Ours	Qwen-Ours
完整	76.95 / 0.40	79.93 / 0.48
w/o Process Reward	75.52 / 0.37	77.39 / 0.46
w/o Outcome Reward	72.55 / 0.32	75.43 / 0.39

去掉任一奖励都掉点，去掉结果奖励掉得更狠（LLaMA 掉 4.4 分），说明结果与过程奖励互补。

关键发现¶

结构化数据普遍提升 LLM 推理：用 LiteCoST 生成的 SSO 替代原始长文档后，Qwen2-72B/GPT-4o-mini/GPT-4o/Claude-3.5 的 Overall 分别 +12.41/+8.77/+9.04/+8.47，完美率同步上升。
效率：Qwen-LiteCoST 单样本延迟 12.09s，低于 LLaMA-3.1-8B(13.19s) 和 Qwen2.5-14B(14.71s)，比 GPT-4o(21.15s) 快约 2×、比 DeepSeek-R1(44.44s) 快约 4×；要更快可用 LLaMA-LiteCoST(8.04s)。
低成本：两阶段训练（LoRA 3 epoch + GRPO）总成本约 $20，最大生成长度 2048 token。

亮点与洞察¶

把"答题"换成"先造结构再答题"：用结构化中间产物当接口，天然带来证据可见、可核验、可复用，比直接长上下文推理更鲁棒，也把幻觉/格式漂移压下去。
强 LLM 只调用一次：把昂贵的大模型当"一次性教师"产出可审计监督，而非在线推理依赖，从根上解决成本/延迟/隐私三难。
过程奖励填补 RL 稀疏信号：实体级 + 元组级的分步一致性奖励，加上轨迹级正负缩放系数，把"只看最终答对"的稀疏监督细化成稠密的分步引导，这是小模型能逼平大模型的关键。

局限与展望¶

依赖 GPT-4o 当教师 + 评委：CoST 数据生成、质量验证、语义评分都用 GPT-4o(-mini)，监督质量和评测都受其能力与偏见影响（LLM-as-Judge 的固有问题）。
只适用可结构化的问题：方法显式排除开放式叙事类问题（不适合表/图表示），适用范围受限于"答案可从结构直接导出"的查询。
评测范围：主分析集中在 Loong 的金融子集（法律/科研在附录），跨更多领域、更长上下文的稳健性仍需更广验证；2-hop 评测用下游 QA 间接衡量结构质量，存在间接性。
结构选择粒度：结构类型限于表/图/分块，更复杂的混合结构或层级结构尚未覆盖。

评分¶

新颖性: ⭐⭐⭐⭐ — CoST 模板把 QA 重写成可审计的结构化轨迹，配双层（结果+过程）奖励的 SFT→GRPO 蒸馏，组合有新意；单个组件（结构化 RAG、GRPO、过程奖励）均有先例，故非满分。
实验充分度: ⭐⭐⭐⭐ — 覆盖效果/效率/消融/泛化多维度，含与 LLM 和 SOTA IE 方法的对比及延迟分析；主分析偏金融子集、评测依赖 LLM-as-Judge 略减分。
写作质量: ⭐⭐⭐⭐ — 两支柱 + 四步 + 双层奖励的结构清晰，图表充分，动机递进流畅。
价值: ⭐⭐⭐⭐ — 用 $20 训练成本让 7B 小模型在长文档 QA 上逼平 GPT-4o 且快 2–4×、可本地部署保隐私，对金融/法律等高风险落地场景实用价值高。