RISE: Reasoning Enhancement via Iterative Self-Exploration in Multi-hop Question Answering¶

会议: ACL 2025
arXiv: 2505.21940
代码: 无
领域: NLP理解

一句话总结¶

提出 RISE——结合 RAG 与自迭代训练的多跳问答框架，通过问题分解、检索阅读、自我批判三个动作的自我探索循环，迭代生成训练数据并多目标优化模型，在 2Wiki/HotpotQA/MuSiQue 上超越 GPT-3.5 和所有 8B 级基线。

背景与动机¶

多跳问答（MHQA）仍是 LLM 难题：需要整合多源证据并管理复杂逻辑依赖，小模型尤其容易出错。
RAG 存在两类核心错误：(a) 证据聚合错误——模型未能准确整合多个检索片段导致幻觉；(b) 推理分解错误——子问题与原问题意图不一致导致推理链偏离。
全模型梯度方法代价过高：蒸馏和人工标注微调虽有效但成本高，且人工偏差可能损害效果。
自迭代与 RAG 结合的空白：自迭代方法在代码生成和 Agent 中成功，但在 RAG 多跳问答中尚未探索。

方法详解¶

整体框架¶

RISE 是一个自迭代闭环框架，每轮包含两个阶段：自我探索（生成训练数据） → 迭代优化（多目标微调模型）。

1. 自我探索机制¶

对每个问题 $q_0$，模型执行最多 20 轮探索节点：

问题分解：模型根据已有历史 $\mathcal{H} = \{(subq_1, suba_1), \ldots\}$ 和原问题 $q_0$，生成下一个子问题 $subq_t$；若历史信息足够则直接输出最终答案。

检索阅读（Retrieve-then-Read）：对子问题用检索器获取相关片段 $r_t$，模型基于检索结果生成子答案 $suba_t$。

自我批判（Self-Critique）：模型评估 $(subq_t, suba_t)$ 对解决原问题的相关性，输出二元判断 $\sigma_t \in \{0, 1\}$。若判为 False，回退到上一个有效节点重新生成。

三个动作分别收集数据集 $\mathcal{D}_d$（分解）、$\mathcal{D}_r$（阅读）、$\mathcal{D}_c$（批判），每类 2K~8K 样本。

2. 多目标联合优化¶

三个数据集联合训练，总损失： $$\mathcal{L} = \alpha \mathcal{L}_d + \beta \mathcal{L}_r + \gamma \mathcal{L}_c$$

$\mathcal{L}_d$：子问题生成的自回归损失
$\mathcal{L}_r$：基于检索上下文的子答案生成损失
$\mathcal{L}_c$：True/False 二分类的交叉熵损失
实验中采用等权 $\alpha = \beta = \gamma = 1$，避免过拟合

3. 问题扩展¶

每轮优化后，用更新的模型对种子问题做上下文学习扩展，生成更多样的训练问题，供下一轮自我探索使用。

实验结果¶

表2：主要结果（Accuracy %）¶

方法	模型	2Wiki	HotpotQA	MuSiQue	NQ	WebQ	TriviaQA
Naive LLM	LLaMA-3.1-8B	35.90	27.30	11.30	57.50	61.25	71.50
GPT-3.5-turbo	GPT-3.5	47.10	41.50	19.10	57.25	58.30	80.25
CoT	LLaMA-3.1-8B	43.00	34.60	16.20	56.75	62.00	71.75
GenGround	LLaMA-3.1-8B	37.90	36.10	17.80	48.50	44.50	75.25
RISE	LLaMA-3.1-8B	49.40	40.50	21.70	59.50	62.50	80.25

RISE 在所有 MHQA 数据集上超越 GPT-3.5，比同模型 Naive RAG 提升 6-14 个百分点。

消融实验（Round 1 数据，Accuracy %）¶

配置	2Wiki	HotpotQA	MuSiQue
w/o 分解	37.63	33.89	11.08
w/o 检索阅读	40.59	33.06	9.46
w/o 自我批判	38.98	33.89	10.27
分别训练	40.86	34.72	10.54
RISE（联合训练）	41.13	35.83	11.89

三个子任务缺一不可，联合训练优于分别训练。

迭代提升¶

精度随迭代轮次持续上升（4 轮），推理链长度先升后降，表明分解能力逐步优化
与 GPT-4o 的批判一致性从 Round 1 的 60-74% 提升至 Round 4 的 78-81%

亮点¶

自迭代 + RAG 的创新结合：首次将自迭代训练范式引入 RAG 多跳问答，无需大模型蒸馏或人工标注
三任务协同自我探索：分解、阅读、批判形成闭环，自动生成高质量训练数据
多目标联合优化：三类数据互补学习，联合训练效果 > 分别训练
8B 模型超越 GPT-3.5：在 MHQA 任务上 LLaMA-3.1-8B 经 RISE 训练后全面超越 GPT-3.5

局限性¶

检索器未优化：框架依赖外部检索器但未对其进行自改进，检索质量是瓶颈
仅在 LLaMA-3.1-8B 上验证：未测试更大/更小模型的效果
自我探索效率问题：每个问题最多 20 轮探索节点，大规模应用时训练数据收集成本较高
等权策略非最优：作者为避免过拟合选择等权，但 Table 1 显示 (α=2,β=2,γ=2) 达 44.27% vs 等权 41.13%

评分¶

⭐⭐⭐⭐ 新颖性：RAG + 自迭代的结合是新探索方向，三任务闭环自我探索设计完整
⭐⭐⭐ 实用性：需 4 轮迭代训练，成本仍非微调级别的最优，但不依赖大模型标注
⭐⭐⭐⭐ 实验充分度：3 个 MHQA + 3 个 SHQA 数据集，消融+迭代分析+三能力单独评估覆盖全面
⭐⭐⭐ 写作质量：结构清晰但部分公式符号不一致，相关工作与方法的区分度可更强

维度	RISE	Self-RAG	GenGround	CoT
检索	多轮 RAG	自适应检索	交替生成+检索	无
自改进	自迭代微调	反思标记训练	无	无
问题分解	显式分解+批判	无	子问题引导	隐式链式
训练数据	自我探索生成	人工标注+GPT4	无	无
多跳能力	强（迭代增强）	弱	中	中