Aegis: Automated Error Generation and Attribution for Multi-Agent Systems¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=zqcYoxXiN3
代码: 开源（论文承诺释放全部 code/data/models）
领域: 多智能体系统 / 错误归因 / 数据集与基准
关键词: 多智能体系统, 错误归因, 自动数据合成, 错误注入, 对比学习

一句话总结¶

Aegis 用一个 LLM 操纵器把成功的多智能体轨迹"主动注入"成带标签的失败轨迹，自动造出 9,533 条标注了"出错智能体 + 错误模式"的数据，从而把昂贵的人工标注瓶颈变成可规模化的工程问题，并支持 SFT / RL / 对比学习三种范式训练错误归因模型。

研究背景与动机¶

领域现状：基于 LLM 的多智能体系统（MAS）通过把任务拆给多个专职智能体协作，在数学推理、科学发现、软件工程等复杂任务上取得显著进展。但这种"agentic 分解"带来了结构性脆弱：单个智能体的错误会沿着交互链级联放大，最终观测到的失败往往离最初的肇事点很远，使得根因分析和系统化调试极其困难。

现有痛点：MAS 错误归因研究被数据稀缺死死卡住。现有基准小得惊人——Who&When 只有 184 条标注错误，MASFT 只分析了 150 多个任务总结出 14 种错误模式，TRAIL 只有 148 条轨迹。它们全都依赖专家手工标注复杂执行日志，代价高、不可扩展。

核心矛盾：这形成了一个"可扩展性死锁"——SOTA LLM 当前的错误归因能力本就有限，本来需要大规模任务专用数据来突破，但手工造这种数据又贵到离谱。与此同时，AI 社区已经在推理、代码等领域大量用合成数据打破了数据稀缺，唯独 MAS 错误归因这块还是空白。

本文目标：把"人工标注瓶颈"转化为"可规模化的工程问题"，自动生成大规模、多样、标签可复现的 MAS 错误轨迹数据集。

核心 idea：逆向造数据——与其从真实失败里艰难标注根因，不如从已知正确的轨迹出发，用 LLM 操纵器主动注入符合错误模式分类的故障；因为故障是"我亲手注入的"，所以 ground-truth 标签（哪个智能体、犯了什么错）by construction 天然已知，无需任何人工标注。

方法详解¶

整体框架¶

Aegis 分两大块：数据构造管线（左）把成功轨迹变成带标注的失败轨迹，学习方法（右）在这份数据上用三种范式训练归因模型。数据构造遵循三阶段：(1) 在多种 MAS 框架下收集确定性的成功基线轨迹；(2) 用自适应操纵器注入定向干预，造出每条基线的多个故障变体；(3) 验证结果，只保留"如预期失败"且标签可靠的轨迹。最终覆盖 6 个 MAS 框架 + 6 个基准，产出 9,533 条标注错误轨迹。

flowchart LR
    A[确定性成功轨迹<br/>τ_corr, Z=0<br/>temp=0+固定seed] --> B[LLM 自适应操纵器<br/>Prompt Injection / Response Corruption<br/>按注入计划 P_inj 拦截目标智能体]
    B --> C{验证 Z=1?}
    C -->|失败注入<br/>仍成功| X[丢弃]
    C -->|成功注入<br/>如期失败| D[标注轨迹<br/>G τ = P_inj]
    D --> E1[SFT: seq2seq 学 JSON 归因]
    D --> E2[RL: 层级奖励 + GRPO]
    D --> E3[DCL: 正负对对比学习]

关键设计¶

1. 问题形式化：把错误归因定义为"智能体–错误模式对"的集合预测。 MAS 记为 \(M\)，由 \(k\) 个智能体 \(N=\{n_1,\dots,n_k\}\) 组成，调度策略 \(\sigma:S\to N\) 在每步决定活跃智能体，交互产生轨迹 \(\tau=(s_0,a_0,\dots,s_T)\)，结果由二值函数 \(Z(\tau)\in\{0,1\}\) 评判（\(Z=1\) 为失败）。当失败发生时，ground-truth 是一个结构化标签 \(G(\tau)=\{(n^*_1,Y^*_1),(n^*_2,Y^*_2),\dots\}\)，其中 \(n^*_i\) 是肇事智能体、\(Y^*_i\subseteq Y\) 是它犯下的错误模式集合（\(Y\) 是 \(M=14\) 种错误模式的分类）。诊断模型 \(f_\theta:\tau\mapsto\hat G(\tau)\approx G(\tau)\)。这套形式化把模糊的"调试"变成了可量化、可多粒度评测的多标签预测任务。

2. LLM 自适应操纵器：上下文感知地注入"真实感"故障。 操纵器 \(M_{\text{manip}}\) 的关键是生成与任务相关、且对齐错误模式分类的修改——编码任务里可能注入死循环，数学任务里则给出"看似合理但错误"的计算。它在两种攻击策略间随机选择：Prompt Injection（在智能体行动前篡改其输入状态）和 Response Corruption（用错误行动替换正确输出）。对每条正确轨迹 \(\tau_{\text{corr}}\)，定义一组注入计划 \(P_{\text{inj}}=\{P^{(1)}_{\text{inj}},\dots,P^{(K)}_{\text{inj}}\}\)，每个计划指定一组目标 \((n^*,Y^*)\) 对；在每一步，操纵器拦截目标智能体并把原行动 \(a_t\) 替换成被操纵的 \(a'_t=M(s_t,\pi_{n_t},P^{(j)}_{\text{inj}})\)。注入故障锚定在 MAST 分类的 14 种错误模式（从 150+ 真实失败轨迹里实证总结而来），分三大类：Specification Issues（偏离角色）、Inter-Agent Misalignment（隐瞒关键信息）、Task Verification Failures（跳过验证），确保注入的错误来自真实失败模式而非凭空捏造。

3. 非侵入式 wrapper + 验证保证标签因果性。 实现基于 MASLab 统一代码库，用 monkey patching 等技术做非侵入式包装，在不改 MAS 源码的前提下拦截目标智能体的行为。为保证因果性，所有智能体统一用 GPT-4o-mini + temperature 0 确定性执行，而操纵器用 temperature 0.7 生成多样攻击。验证阶段只保留 \(Z(\tau^{(j)}_{\text{inj}})=1\)（真的如期失败）的轨迹，此时 \(G(\tau^{(j)}_{\text{inj}})=P^{(j)}_{\text{inj}}\)——标签就等于当初注入的计划，无需任何标注。这把"成功→故障"的成对结构天然保留下来，为后续三范式（尤其对比学习的正负对）提供基础。

4. 三范式学习方法：一份数据喂三种范式。 SFT 把归因当 seq2seq，最小化 \(L_{\text{SFT}}(\theta)=-\sum_{(\tau,G(\tau))}\log p_\theta(o|x)\)，让 LLM 直接从日志生成 JSON 格式归因。RL 设计层级奖励提供稠密反馈：解析输出与 GT 为属性对集合，原始分 \(S_{\text{raw}}=c_{\text{bonus}}+\sum_{(\hat n,\hat y)}\text{score}(\hat n,\hat y)-S_{\text{dup}}-S_{\text{quant}}\)，打分函数对"完整对/仅对智能体/仅对错误模式/假阳性"给不同的不可重复部分分（防退化利用），再用 \(R=S_{\text{raw}}/S_{\text{max}}\) 归一后用 GRPO 优化。CL 提出 Disentangled Contrastive Learning（DCL），把轨迹当 turn 的 bag、用 MIL attention 加权显著 turn，再对齐到智能体原型库 \(B_A\) 与错误模式原型库 \(B_E\) 做解耦，复合损失 \(L_{\text{DCL}}(\theta)=\lambda_{\text{cls}}L_{\text{cls}}+\lambda_{\text{con}}L_{\text{con}}+\lambda_{\text{hier}}L_{\text{hier}}\) 同时兼顾多标签分类、对比表示、以及"对概率不超过其组成的智能体/错误概率最小值"的层级一致性约束。

实验关键数据¶

主实验表格¶

Aegis-Bench（每个基准采样 100 条作测试集）+ Who&When（OOD），报告 Pair/Agent/Error 三层级的 Micro-F1（µF1）与 Macro-F1（MF1），Avg 为平均分（%）：

模型	Aegis Pair µF1	Aegis Agent µF1	Who&When Agent µF1	Avg
Random	0.33	4.54	1.06	4.08
DCL (Ours, 小模型)	8.33	22.93	8.40	12.61
Qwen2.5-14B-Instruct	5.47	35.78	49.88	13.99
+ SFT (Aegis-SFT)	16.62	76.53	51.14	26.51
+ GRPO (Aegis-GRPO)	6.84	49.74	54.43	18.41
o3	7.86	40.31	53.10	20.24
Gemini-2.5-Flash	6.99	42.02	55.56	19.55
Claude-Sonnet-4	7.68	40.73	44.76	18.16
GPT-4.1	7.44	37.48	42.29	15.27

Aegis-SFT（26.51）超过所有 baseline，几乎把基座 Qwen2.5-14B 翻倍（13.99→26.51），且击败规模大一个数量级的专有模型（o3 20.24）。

消融实验表格¶

DCL 各组件消融（删去后 Avg 下降）：

变体	Avg	说明
DCL (完整)	12.61	—
only-mix head	12.42 ↓	仅混合头
w/o intent	10.16 ↓	去掉意图建模
only-bilinear	10.01 ↓	仅双线性
w/o consistency	9.52 ↓	去掉层级一致性，掉最多

层级一致性约束（\(L_{\text{hier}}\)）贡献最大，验证了解耦 + 一致性正则的设计价值。

关键发现¶

Micro-F1 显著高于 Macro-F1：错误模式呈长尾分布，模型擅长高频失败、对罕见类别吃力，Macro-F1 才是泛化的真实指标。
Agent 级准确率 > Error 级：识别"谁出错"比诊断"为什么错"更容易，后者需要更深的语义理解。
任务/架构影响显著：在 Debate、AgentVerse 等结构化框架上表现好，在 Dylan、MacNet 等复杂拓扑上吃力；越难的拓扑，Aegis 微调带来的提升越大。
泛化性：仅在 Aegis 上训练就能迁移到 OOD 的 Who&When，证明合成数据学到的归因能力可迁移。

亮点与洞察¶

逆向造数据的范式转换：把"从真实失败标注根因"（昂贵、不可扩展）翻转成"从正确轨迹注入已知故障"（标签 by construction 免标注），是打破 MAS 错误归因可扩展性死锁的关键巧思。
一份数据撑三范式：成对的"正确–故障"结构天然适配 SFT（input-target 对）、RL（多级奖励信号）、CL（正负对），数据设计的复用性极高。
小模型逆袭：7B–14B 微调模型打平甚至超过大一个数量级的专有模型，说明 MAS 错误归因更吃"任务对齐的数据"而非单纯模型规模。
非侵入式 wrapper：monkey patching 不改 MAS 源码即可插入故障，工程上让管线能 plug-and-play 接入任意框架。

局限与展望¶

注入故障 vs 自然故障的分布差：主动注入的错误未必完全覆盖真实世界中自发涌现的失败模式，OOD 泛化虽然正向但绝对分数（Who&When Pair µF1 仅个位数）仍很低。
绝对性能天花板低：即便最好的 Aegis-SFT，Pair 级 µF1 也只有 16.62，说明"智能体+错误模式"的联合精确归因仍是远未解决的难题。
依赖 MAST 分类：错误模式锚定在 14 种 MAST 类别，新型/跨类别失败可能落在分类之外。
统一用 GPT-4o-mini 造数据：基座智能体单一，不同能力等级智能体的失败特征可能未被充分覆盖。
论文也坦承部分细微失败模式（Figure 6）下所有模型（含自己）仍会失败，是开放挑战。

评分¶

新颖性: ⭐⭐⭐⭐ 「逆向注入造可验证标签」打破 MAS 错误归因数据死锁的思路简洁有力，DCL 的解耦+层级一致性也有设计感。
实验充分度: ⭐⭐⭐⭐ 6 框架×6 任务×三范式，覆盖小/中/大模型与 8 个专有模型对比，含 OOD 泛化与消融，相当扎实。
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，三阶段管线与三范式叙述有条理，图 1 概览到位。
价值: ⭐⭐⭐⭐ 开源 9,533 条数据 + 代码 + 模型，是可调试、可靠 MAS 研究的重要基础设施；但绝对归因精度仍低，离实用有距离。