Towards Self-Improving Error Diagnosis in Multi-Agent Systems¶
会议: ACL 2026
arXiv: 2604.17658
代码: 无
领域: LLM评测
关键词: 多智能体故障归因, 错误定位, 自改进诊断, 验证记忆, 后向追踪
一句话总结¶
提出 ErrorProbe 框架,通过 MAST 分类驱动的结构化分解、症状驱动的后向追踪和验证式记忆机制,在多智能体系统中实现自改进的语义故障归因,尤其在步骤级错误定位上大幅超越基线。
研究背景与动机¶
领域现状:基于 LLM 的多智能体系统(MAS)已在软件工程、Web 导航、科学推理等领域展现强大能力,但其调试问题日益突出。当系统由多个角色(架构师、工程师、测试员等)协作完成任务时,一旦失败,需要回答"哪个 agent 导致了错误?错误源于哪一步?"
现有痛点:现有诊断方法有三类缺陷:(1)基于分类学的人工标注方法(如 MAST)需要大量专家工作,难以规模化;(2)基于训练数据的专用追踪器依赖昂贵的数据生成管线,且需不断重训;(3)LLM-as-a-Judge 范式在长上下文的步骤级定位中表现不佳,特别是错误延迟显现的场景。
核心矛盾:MAS 中的错误归因面临多重挑战——交互轨迹极长(数十至上百轮)、错误延迟显现(早期错误在后期才暴露)、智能体间的因果依赖链复杂、故障模式多样化。这使得单次 LLM 判断无法有效穿透长上下文定位根因。
本文目标:设计一种无需人工标注、可自我改进的多智能体故障归因框架,能精确识别责任 agent 和错误起源步骤。
切入角度:模拟人类专家的调试过程——先将问题分解为多个专业角色(假设生成、验证执行、仲裁决策),通过后向追踪剪枝无关上下文,并利用经过验证的记忆库实现跨域模式复用。
核心 idea:将 MAST 分类法操作化为轻量检测器提供局部异常线索,结合症状驱动的后向追踪压缩上下文,再由"策略师-调查员-仲裁者"三人团队通过工具执行验证假设,最终通过验证门控更新记忆库实现自我改进。
方法详解¶
整体框架¶
ErrorProbe 是一个三阶段管线:输入为失败的多智能体交互轨迹和故障症状描述,输出为责任 agent、错误起源步骤和故障类型。首先通过 MAST 分类法检测局部异常标签,然后从症状出发进行后向追踪剪枝上下文,最后由三个专业 agent 协作诊断并更新验证式记忆。
关键设计¶
-
MAST 引导的结构化分解:
- 功能:将原始交互轨迹转化为结构化表示,检测局部异常信号
- 核心思路:先解析轨迹提取每步的 agent 身份、角色和动作类型,再用分类法条件提示检测步骤级偏差(如"工具输出被忽略"、"推理-动作不匹配")。这些弱信号作为启发式先验,将搜索空间从 \(L\) 步缩小到少量候选区域
- 设计动机:原始轨迹噪声大且无结构,直接分析容易迷失。通过 MAST 的14种错误模式(规范问题、对齐失败、验证缺陷)提供语义锚点
-
症状驱动的后向追踪:
- 功能:从故障症状出发反向重建因果链,压缩无关上下文
- 核心思路:构建消息间的依赖图 \(G=(V,E)\),从症状节点 \(v_L\) 做广度优先搜索确定错误的有效感受野,屏蔽不相关的并行分支。这将原始长轨迹 \(x\) 压缩为因果子集 \(x' \subset x\)
- 设计动机:根因(如第5步的错误参数)和症状(如第50步的崩溃)之间可能跨越数十步,直接处理全部历史会导致"中间迷失"现象
-
验证式记忆与三 Agent 诊断团队:
- 功能:通过"策略师-调查员-仲裁者"团队执行诊断,并维护经验证的错误模式记忆库
- 核心思路:策略师检索记忆库中的历史模式并生成假设集合;调查员必须通过工具(CodeExec 沙箱、LogicProbe 条件验证)为每个假设提供可执行证据;仲裁者聚合证据做出最终判断,并决定是否将模式写入记忆。记忆更新需满足严格验证门控:\(\text{Verify}(E_t) \land c_t > \tau\),防止幻觉污染
- 设计动机:单纯的 LLM 判断容易产生错误归因幻觉,工具执行验证可提供客观证据;验证门控防止分布偏移下的记忆腐败
损失函数 / 训练策略¶
ErrorProbe 是一个无需训练的推理时框架。通过流式处理失败任务,每次诊断后根据验证结果选择性更新记忆状态 \(\mathcal{M}_i \leftarrow \text{Update}(\mathcal{M}_{i-1}, x_i, \hat{y}_i, \text{Verify}(\hat{y}_i))\),实现自我改进。记忆检索使用结构匹配与质量加权的 RFI-Δ 评分组合,冷启动时退化为第一原理推理。
实验关键数据¶
主实验¶
| 基准 | 方法 | Agent 准确率 | Step 准确率 |
|---|---|---|---|
| TracerTraj | LLM-as-a-Judge (Claude) | 67.7% | 8.7% |
| TracerTraj | ErrorProbe+Memory (Claude) | 73.2% | 39.4% |
| Who&When-Algo | LLM-as-a-Judge (Claude) | 55.6% | 41.3% |
| Who&When-Algo | ErrorProbe+Memory (Claude) | 60.3% | 59.5% |
| 三基准平均 | ErrorProbe+Memory (Claude) | 59.6% | 42.7% |
| 三基准平均 | LLM-as-a-Judge (Claude) | 57.0% | 21.3% |
消融实验¶
| 配置 | Agent 平均 | Step 平均 | 说明 |
|---|---|---|---|
| LLM-as-a-Judge | 57.0% | 21.3% | 单次判断基线 |
| Agent-as-a-Judge (基线) | 46.4% | 24.7% | 工具增强但无结构化 |
| ErrorProbe (无记忆) | 56.3% | 41.9% | 有分解+追踪 |
| ErrorProbe (有记忆) | 59.6% | 42.7% | 完整框架 |
关键发现¶
- 步骤级定位是最大亮点:ErrorProbe 将 Claude 的 Step 准确率从 21.3% 提升至 42.7%,提升超过一倍
- 记忆模块对弱模型帮助更大:GPT-OSS-120B 从 25.8% 提升至 31.1%,Qwen3-32B 从 29.2% 提升至 34.9%
- 跨域迁移有效:从 KodCode 学到的模式可改善 TracerTraj 的诊断,验证门控成功过滤域特异性噪声
- GSM8K 域内记忆增益最大(Step +35%),因为该域错误模式重复性高
亮点与洞察¶
- 验证门控设计精巧:只有经工具执行确认的诊断模式才写入记忆,避免了朴素缓存在分布偏移下的记忆腐败问题,这一思路可迁移到其他需要经验积累的 LLM agent 系统
- 后向追踪解决"中间迷失":通过依赖图剪枝将长轨迹压缩为因果子集,这一方法适用于所有需要在长上下文中定位因果关系的场景
- 三 Agent 团队模拟人类调试流程:假设生成-证据收集-仲裁决策的分工设计使各环节可独立优化
局限与展望¶
- 依赖显式故障信号,对"静默失败"(技术正确但语义错误的输出)无法检测
- 多 Agent 诊断团队的推理开销较大,不适用于超低延迟场景
- 仅在三个模型族上验证,未覆盖更多架构
- 未来可引入测试时预言反馈机制来暴露潜在错误
相关工作与启发¶
- vs LLM-as-a-Judge: LLM-as-a-Judge 在步骤定位上严重不足(<10% on TracerTraj),ErrorProbe 通过结构化分解+后向追踪解决了长上下文中的因果定位难题
- vs TracerTraj 训练式追踪器: 训练式方法依赖昂贵的反事实重播数据,且需持续重训。ErrorProbe 无需训练,通过验证记忆实现渐进式改进
评分¶
- 新颖性: ⭐⭐⭐⭐ 验证式记忆和后向追踪的组合很有新意,但核心思路(多 Agent 协作诊断)不算全新
- 实验充分度: ⭐⭐⭐⭐ 三个基准+三个模型+丰富消融+记忆缩放分析,较为充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详细,但部分内容略显冗长
代码: 待确认
领域: llm_evaluation
关键词: 待补充
一句话总结¶
待深读论文后补充
研究背景与动机¶
待深读论文后补充
方法详解¶
待深读论文后补充
实验关键数据¶
待深读论文后补充
亮点与洞察¶
待深读论文后补充
局限性 / 可改进方向¶
待深读论文后补充
相关工作与启发¶
待深读论文后补充
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评