MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation¶

会议: ACL 2025
arXiv: 2501.00332
代码: 未公开
作者: Chia-Yuan Chang, Zhimeng Jiang, Vineeth Rakesh, Menghai Pan, Chin-Chia Michael Yeh, Guanchu Wang, Mingzhi Hu, Zhichao Xu, Yan Zheng, Mahashweta Das, Na Zou
机构: Texas A&M University, Visa Research, WPI, University of Utah, University of Houston
领域: 检索增强生成 (RAG)
关键词: 多Agent过滤, 文档噪声, 自适应阈值, training-free, 相关性评分

一句话总结¶

提出 MAIN-RAG，一个无需训练的多 Agent RAG 过滤框架，通过 Predictor→Judge→Final-Predictor 三个 LLM Agent 协作评估检索文档的相关性，并设计自适应阈值（基于分数均值和标准差）动态过滤噪声文档，在 4 个 QA 基准上实现 2-11% 的准确率提升。

研究背景与动机¶

RAG 中的噪声问题： - 检索器返回的文档常包含不相关或有噪声的内容 - 噪声文档可能误导 LLM，降低回答准确性 - 现有研究（Chen et al., 2024; Yu et al., 2024）表明 LLM 对噪声缺乏鲁棒性

现有方案不足： - 训练型 RAG（Self-RAG、REALM）：效果好但需大量计算资源和训练数据 - 无训练型 RAG：简单高效但对噪声敏感，简单拼接 top-k 文档到 prompt 中 - 缺乏有效的后处理过滤机制

文档顺序影响： - LLM 存在"lost in the middle"问题——倾向关注输入的开头和结尾 - 随机打乱文档顺序导致性能方差很大（max 远高于 min），说明存在最优排序

核心动机：设计一个 training-free 的多 Agent 框架，通过协作评估和自适应过滤提升 RAG 的噪声鲁棒性

方法详解¶

整体框架¶

MAIN-RAG 在标准 RAG 流程的检索阶段之后增加一个多 Agent 过滤层，由三个 LLM Agent 协作完成：

Agent 定义¶

Agent-1: Predictor（预测者）¶

对每个查询 q，逐一读取每个检索文档 dᵢ
生成基于每个文档的初步回答 aᵢ
形成 Document-Query-Answer 三元组 (dᵢ, q, aᵢ)

Agent-2: Judge（评判者）¶

接收每个 (dᵢ, q, aᵢ) 三元组
判断文档是否为查询和回答提供了相关支持信息
输出 "Yes" 或 "No" 的判断

关键创新——相关性分数量化： - 不使用 "Yes"/"No" 的离散判断 - 而是计算 log P("Yes") - log P("No") 的差值 - 这个差值作为文档的连续相关性分数 rᵢ - 使文档可排序，为过滤提供连续阈值基础

Agent-3: Final-Predictor（最终预测者）¶

接收过滤和排序后的文档列表
基于高质量文档生成最终回答

自适应阈值 τ_q¶

核心观察： - 相关文档的分数分布：偏高、标准差小（LLM 对相关文档更确定） - 噪声文档的分数分布：更均匀、标准差大（LLM 不确定，可能误判） - 最优过滤阈值随查询不同而变化

设计： - 对每个查询 q，计算所有候选文档的平均相关性分数作为自适应阈值 τ_q - 保留分数 rᵢ ≥ τ_q 的文档 - 可通过 τ_q - n·σ 引入灵活性（n 是唯一超参数） - 直觉：相关文档多时平均分高→过滤掉低分异常值；相关文档少时平均分低→约过滤一半文档

文档排序¶

过滤后的文档按相关性分数降序排列——高分文档排在前面，利用 LLM 倾向关注上下文开头的偏置。

实验结果¶

数据集与设置¶

4 个 QA 基准：TriviaQA (开放域)、PopQA (长尾实体)、ARC-Challenge (科学推理)、ALCE-ASQA (长篇 QA)
Agent 实例化：预训练 Mistral-7B 或 Llama3-8B（无微调）
检索器：Contriever-MS MARCO，每个查询检索最多 20 个文档
零样本评估

主实验结果¶

方法	TriviaQA	PopQA	ARC-C	ASQA (em/rg/mau)
无检索
Mistral-7B	54.8	26.2	55.5	11.2/18.1/27.6
Llama3-8B	68.4	29.2	58.8	19.4/30.3/54.3
标准 RAG
Mistral-7B + RAG	69.4	55.5	57.1	32.4/34.8/54.3
Llama3-8B + RAG	73.1	61.8	55.6	37.1/36.5/63.0
训练型方法
Self-RAG-7B	66.4	54.9	67.3	30.0/35.7/74.3
MAIN-RAG
MAIN-RAG (Mistral)	71.0	58.9	58.9	35.7/36.2/60.0
MAIN-RAG (Llama3)	74.1	64.0	61.9	39.2/42.0/70.6

核心结论： 1. MAIN-RAG 在所有基准上超越 training-free 基线，提升 2-11% 2. 在 TriviaQA 和 PopQA 上，training-free 的 MAIN-RAG 接近甚至超越 training-based 的 Self-RAG 3. PopQA（长尾实体）上优势最大——因为检索器未在目标数据上微调，噪声文档更多，过滤的价值更大

变体消融（Figure 7）¶

变体	作用
Naïve Multi-agent RAG	Judge 用 Yes/No 离散判断替代连续分数 → 性能下降，证明分数量化的必要性
MAIN-RAG (Random)	过滤后随机排序 → 性能下降，证明按分数降序排列的重要性
标准 RAG	无过滤 → 基线

自适应阈值消融¶

方法	TriviaQA	PopQA	ARC-C
τ_q (默认)	71.0	58.9	58.9
τ_q - 0.5σ	71.2	58.6	59.0
τ_q - 1.0σ	70.8	58.0	58.5
τ_q - 1.5σ	70.4	58.4	57.7
升序排列	70.2	53.5	57.4

发现： - 默认 τ_q 在所有基准上至少排名第二，是最稳定的选择 - 降序排列一致优于升序排列，验证了 LLM "primacy bias" 的存在 - 调整 σ 的效果因数据集而异，默认设置最通用

Case Study：τ_q 值的直觉¶

Case 1 (τ_q = 9.575)：高置信度，大多数文档相关 → 严格过滤 → 正确回答
Case 2 (τ_q = -8.425)：低置信度，大多数文档噪声 → 宽松保留 → 从少量有信息文档中找到答案
Case 3 (τ_q = 0.4875)：中等置信度 → 部分文档相关但缺少目标信息 → 回答错误

亮点与洞察¶

Training-free 的竞争力：无需微调或额外标注数据，仅通过推理时的多 Agent 协作就能接近 Self-RAG 等 training-based 方法的性能
相关性分数量化的巧妙设计：利用 log P("Yes") - log P("No") 将二值判断转为连续分数，是连接 Agent 判断与传统信息检索排序的桥梁
自适应阈值的鲁棒性：唯一超参数 n 默认为 0 就能稳定工作，且对不同查询自动调整，比固定阈值更通用
文档排序的实证验证：系统验证了文档顺序对 RAG 性能的显著影响，降序排列一致最优
可扩展性：三个 Agent 可用不同 LLM 实例化，框架对 LLM 选择无特殊要求

局限性¶

三个 Agent 各需一次 LLM 推理，计算开销约为标准 RAG 的 3 倍（每个文档需 Agent-1 推理一次 + Agent-2 判断一次）
仅在 QA 任务上验证，未测试摘要、对话等其他 RAG 应用场景
仅测试了 Mistral-7B 和 Llama3-8B 两种模型
未考虑文档压缩、更高级的解码策略等正交优化方向
自适应阈值基于分数均值，对分数分布严重偏斜的情况可能不理想
未考虑检索器选择和重排序器的影响

评分 ⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐ 多 Agent 过滤 + 自适应阈值的组合新颖实用，log-prob 差值量化相关性简洁有效
实验充分性: ⭐⭐⭐⭐ 4 个基准、多种基线对比、消融实验充分、case study 直观
实用价值: ⭐⭐⭐⭐⭐ Training-free、即插即用、超参数少（仅 n=0），对 RAG 实践有直接价值
写作质量: ⭐⭐⭐⭐ 框架图清晰，自适应阈值的动机从分数分布观察自然推导