Aegis: Automated Error Generation and Attribution for Multi-Agent Systems¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=zqcYoxXiN3
代码: 开源(论文承诺释放全部 code/data/models)
领域: 多智能体系统 / 错误归因 / 数据集与基准
关键词: 多智能体系统, 错误归因, 自动数据合成, 错误注入, 对比学习
一句话总结¶
Aegis 用一个 LLM 操纵器把成功的多智能体轨迹"主动注入"成带标签的失败轨迹,自动造出 9,533 条标注了"出错智能体 + 错误模式"的数据,从而把昂贵的人工标注瓶颈变成可规模化的工程问题,并支持 SFT / RL / 对比学习三种范式训练错误归因模型。
研究背景与动机¶
领域现状:基于 LLM 的多智能体系统(MAS)通过把任务拆给多个专职智能体协作,在数学推理、科学发现、软件工程等复杂任务上取得显著进展。但这种"agentic 分解"带来了结构性脆弱:单个智能体的错误会沿着交互链级联放大,最终观测到的失败往往离最初的肇事点很远,使得根因分析和系统化调试极其困难。
现有痛点:MAS 错误归因研究被数据稀缺死死卡住。现有基准小得惊人——Who&When 只有 184 条标注错误,MASFT 只分析了 150 多个任务总结出 14 种错误模式,TRAIL 只有 148 条轨迹。它们全都依赖专家手工标注复杂执行日志,代价高、不可扩展。
核心矛盾:这形成了一个"可扩展性死锁"——SOTA LLM 当前的错误归因能力本就有限,本来需要大规模任务专用数据来突破,但手工造这种数据又贵到离谱。与此同时,AI 社区已经在推理、代码等领域大量用合成数据打破了数据稀缺,唯独 MAS 错误归因这块还是空白。
本文目标:把"人工标注瓶颈"转化为"可规模化的工程问题",自动生成大规模、多样、标签可复现的 MAS 错误轨迹数据集。
核心 idea:逆向造数据——与其从真实失败里艰难标注根因,不如从已知正确的轨迹出发,用 LLM 操纵器主动注入符合错误模式分类的故障;因为故障是"我亲手注入的",所以 ground-truth 标签(哪个智能体、犯了什么错)by construction 天然已知,无需任何人工标注。
方法详解¶
整体框架¶
Aegis 分两大块:数据构造管线(左)把成功轨迹变成带标注的失败轨迹,学习方法(右)在这份数据上用三种范式训练归因模型。数据构造遵循三阶段:(1) 在多种 MAS 框架下收集确定性的成功基线轨迹;(2) 用自适应操纵器注入定向干预,造出每条基线的多个故障变体;(3) 验证结果,只保留"如预期失败"且标签可靠的轨迹。最终覆盖 6 个 MAS 框架 + 6 个基准,产出 9,533 条标注错误轨迹。
flowchart LR
A[确定性成功轨迹<br/>τ_corr, Z=0<br/>temp=0+固定seed] --> B[LLM 自适应操纵器<br/>Prompt Injection / Response Corruption<br/>按注入计划 P_inj 拦截目标智能体]
B --> C{验证 Z=1?}
C -->|失败注入<br/>仍成功| X[丢弃]
C -->|成功注入<br/>如期失败| D[标注轨迹<br/>G τ = P_inj]
D --> E1[SFT: seq2seq 学 JSON 归因]
D --> E2[RL: 层级奖励 + GRPO]
D --> E3[DCL: 正负对对比学习]
关键设计¶
1. 问题形式化:把错误归因定义为"智能体–错误模式对"的集合预测。 MAS 记为 \(M\),由 \(k\) 个智能体 \(N=\{n_1,\dots,n_k\}\) 组成,调度策略 \(\sigma:S\to N\) 在每步决定活跃智能体,交互产生轨迹 \(\tau=(s_0,a_0,\dots,s_T)\),结果由二值函数 \(Z(\tau)\in\{0,1\}\) 评判(\(Z=1\) 为失败)。当失败发生时,ground-truth 是一个结构化标签 \(G(\tau)=\{(n^*_1,Y^*_1),(n^*_2,Y^*_2),\dots\}\),其中 \(n^*_i\) 是肇事智能体、\(Y^*_i\subseteq Y\) 是它犯下的错误模式集合(\(Y\) 是 \(M=14\) 种错误模式的分类)。诊断模型 \(f_\theta:\tau\mapsto\hat G(\tau)\approx G(\tau)\)。这套形式化把模糊的"调试"变成了可量化、可多粒度评测的多标签预测任务。
2. LLM 自适应操纵器:上下文感知地注入"真实感"故障。 操纵器 \(M_{\text{manip}}\) 的关键是生成与任务相关、且对齐错误模式分类的修改——编码任务里可能注入死循环,数学任务里则给出"看似合理但错误"的计算。它在两种攻击策略间随机选择:Prompt Injection(在智能体行动前篡改其输入状态)和 Response Corruption(用错误行动替换正确输出)。对每条正确轨迹 \(\tau_{\text{corr}}\),定义一组注入计划 \(P_{\text{inj}}=\{P^{(1)}_{\text{inj}},\dots,P^{(K)}_{\text{inj}}\}\),每个计划指定一组目标 \((n^*,Y^*)\) 对;在每一步,操纵器拦截目标智能体并把原行动 \(a_t\) 替换成被操纵的 \(a'_t=M(s_t,\pi_{n_t},P^{(j)}_{\text{inj}})\)。注入故障锚定在 MAST 分类的 14 种错误模式(从 150+ 真实失败轨迹里实证总结而来),分三大类:Specification Issues(偏离角色)、Inter-Agent Misalignment(隐瞒关键信息)、Task Verification Failures(跳过验证),确保注入的错误来自真实失败模式而非凭空捏造。
3. 非侵入式 wrapper + 验证保证标签因果性。 实现基于 MASLab 统一代码库,用 monkey patching 等技术做非侵入式包装,在不改 MAS 源码的前提下拦截目标智能体的行为。为保证因果性,所有智能体统一用 GPT-4o-mini + temperature 0 确定性执行,而操纵器用 temperature 0.7 生成多样攻击。验证阶段只保留 \(Z(\tau^{(j)}_{\text{inj}})=1\)(真的如期失败)的轨迹,此时 \(G(\tau^{(j)}_{\text{inj}})=P^{(j)}_{\text{inj}}\)——标签就等于当初注入的计划,无需任何标注。这把"成功→故障"的成对结构天然保留下来,为后续三范式(尤其对比学习的正负对)提供基础。
4. 三范式学习方法:一份数据喂三种范式。 SFT 把归因当 seq2seq,最小化 \(L_{\text{SFT}}(\theta)=-\sum_{(\tau,G(\tau))}\log p_\theta(o|x)\),让 LLM 直接从日志生成 JSON 格式归因。RL 设计层级奖励提供稠密反馈:解析输出与 GT 为属性对集合,原始分 \(S_{\text{raw}}=c_{\text{bonus}}+\sum_{(\hat n,\hat y)}\text{score}(\hat n,\hat y)-S_{\text{dup}}-S_{\text{quant}}\),打分函数对"完整对/仅对智能体/仅对错误模式/假阳性"给不同的不可重复部分分(防退化利用),再用 \(R=S_{\text{raw}}/S_{\text{max}}\) 归一后用 GRPO 优化。CL 提出 Disentangled Contrastive Learning(DCL),把轨迹当 turn 的 bag、用 MIL attention 加权显著 turn,再对齐到智能体原型库 \(B_A\) 与错误模式原型库 \(B_E\) 做解耦,复合损失 \(L_{\text{DCL}}(\theta)=\lambda_{\text{cls}}L_{\text{cls}}+\lambda_{\text{con}}L_{\text{con}}+\lambda_{\text{hier}}L_{\text{hier}}\) 同时兼顾多标签分类、对比表示、以及"对概率不超过其组成的智能体/错误概率最小值"的层级一致性约束。
实验关键数据¶
主实验表格¶
Aegis-Bench(每个基准采样 100 条作测试集)+ Who&When(OOD),报告 Pair/Agent/Error 三层级的 Micro-F1(µF1)与 Macro-F1(MF1),Avg 为平均分(%):
| 模型 | Aegis Pair µF1 | Aegis Agent µF1 | Who&When Agent µF1 | Avg |
|---|---|---|---|---|
| Random | 0.33 | 4.54 | 1.06 | 4.08 |
| DCL (Ours, 小模型) | 8.33 | 22.93 | 8.40 | 12.61 |
| Qwen2.5-14B-Instruct | 5.47 | 35.78 | 49.88 | 13.99 |
| + SFT (Aegis-SFT) | 16.62 | 76.53 | 51.14 | 26.51 |
| + GRPO (Aegis-GRPO) | 6.84 | 49.74 | 54.43 | 18.41 |
| o3 | 7.86 | 40.31 | 53.10 | 20.24 |
| Gemini-2.5-Flash | 6.99 | 42.02 | 55.56 | 19.55 |
| Claude-Sonnet-4 | 7.68 | 40.73 | 44.76 | 18.16 |
| GPT-4.1 | 7.44 | 37.48 | 42.29 | 15.27 |
Aegis-SFT(26.51)超过所有 baseline,几乎把基座 Qwen2.5-14B 翻倍(13.99→26.51),且击败规模大一个数量级的专有模型(o3 20.24)。
消融实验表格¶
DCL 各组件消融(删去后 Avg 下降):
| 变体 | Avg | 说明 |
|---|---|---|
| DCL (完整) | 12.61 | — |
| only-mix head | 12.42 ↓ | 仅混合头 |
| w/o intent | 10.16 ↓ | 去掉意图建模 |
| only-bilinear | 10.01 ↓ | 仅双线性 |
| w/o consistency | 9.52 ↓ | 去掉层级一致性,掉最多 |
层级一致性约束(\(L_{\text{hier}}\))贡献最大,验证了解耦 + 一致性正则的设计价值。
关键发现¶
- Micro-F1 显著高于 Macro-F1:错误模式呈长尾分布,模型擅长高频失败、对罕见类别吃力,Macro-F1 才是泛化的真实指标。
- Agent 级准确率 > Error 级:识别"谁出错"比诊断"为什么错"更容易,后者需要更深的语义理解。
- 任务/架构影响显著:在 Debate、AgentVerse 等结构化框架上表现好,在 Dylan、MacNet 等复杂拓扑上吃力;越难的拓扑,Aegis 微调带来的提升越大。
- 泛化性:仅在 Aegis 上训练就能迁移到 OOD 的 Who&When,证明合成数据学到的归因能力可迁移。
亮点与洞察¶
- 逆向造数据的范式转换:把"从真实失败标注根因"(昂贵、不可扩展)翻转成"从正确轨迹注入已知故障"(标签 by construction 免标注),是打破 MAS 错误归因可扩展性死锁的关键巧思。
- 一份数据撑三范式:成对的"正确–故障"结构天然适配 SFT(input-target 对)、RL(多级奖励信号)、CL(正负对),数据设计的复用性极高。
- 小模型逆袭:7B–14B 微调模型打平甚至超过大一个数量级的专有模型,说明 MAS 错误归因更吃"任务对齐的数据"而非单纯模型规模。
- 非侵入式 wrapper:monkey patching 不改 MAS 源码即可插入故障,工程上让管线能 plug-and-play 接入任意框架。
局限与展望¶
- 注入故障 vs 自然故障的分布差:主动注入的错误未必完全覆盖真实世界中自发涌现的失败模式,OOD 泛化虽然正向但绝对分数(Who&When Pair µF1 仅个位数)仍很低。
- 绝对性能天花板低:即便最好的 Aegis-SFT,Pair 级 µF1 也只有 16.62,说明"智能体+错误模式"的联合精确归因仍是远未解决的难题。
- 依赖 MAST 分类:错误模式锚定在 14 种 MAST 类别,新型/跨类别失败可能落在分类之外。
- 统一用 GPT-4o-mini 造数据:基座智能体单一,不同能力等级智能体的失败特征可能未被充分覆盖。
- 论文也坦承部分细微失败模式(Figure 6)下所有模型(含自己)仍会失败,是开放挑战。
相关工作与启发¶
- MAS 错误归因基准:Who&When、MASFT、TRAIL 提供了分类和评测,但都受限于人工标注的小规模;Aegis 正是补上"大规模自动数据"这块短板。
- 自动合成数据:与推理、代码领域的 challenger-solver 自博弈、闭环验证生成一脉相承,Aegis 把这条技术线延伸到了 MAS 错误归因。
- 分布式系统异常检测:tracing、根因分析、拓扑感知异常检测是诊断大型服务失败的方法论背景,给 MAS 调试提供借鉴。
- 启发:凡是"标注贵但前向过程可控"的任务,都可以考虑"从正确样本反向注入已知扰动"来零成本造标签——这套思路可迁移到代码缺陷定位、对话安全归因等场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「逆向注入造可验证标签」打破 MAS 错误归因数据死锁的思路简洁有力,DCL 的解耦+层级一致性也有设计感。
- 实验充分度: ⭐⭐⭐⭐ 6 框架×6 任务×三范式,覆盖小/中/大模型与 8 个专有模型对比,含 OOD 泛化与消融,相当扎实。
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,三阶段管线与三范式叙述有条理,图 1 概览到位。
- 价值: ⭐⭐⭐⭐ 开源 9,533 条数据 + 代码 + 模型,是可调试、可靠 MAS 研究的重要基础设施;但绝对归因精度仍低,离实用有距离。