跳转至

MAS²: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qumy27hMDY
代码: https://github.com/yeyeyeah2/MAS2
领域: 多智能体系统 / 自动化 MAS 设计 / LLM Agent
关键词: Multi-Agent System, Meta-Agent, Self-Generation, Self-Rectification, Offline RL

一句话总结

MAS² 让一个"元多智能体系统"(生成器–实现器–校正器三元组)为每个任务现场架构、配置并在运行时动态纠错另一个多智能体系统,用协同树优化(CTO)离线 RL 专业化这三个元智能体,在 8 个 benchmark 上比 SOTA MAS 最高提升 19.6%,并稳居成本–性能 Pareto 前沿。

研究背景与动机

领域现状:LLM 多智能体系统(MAS)正从"手工配置 prompt/工具/角色/通信协议"(AutoGen、MetaGPT)走向"自动编排"。自动化路线又分两支:一支靠外部模块生成(GNN、贝叶斯优化、MCTS,如 GPTSwarm、AFlow、MaAS),另一支靠单个 LLM agent 生成(MAS-GPT、ScoreFlow、FlowReasoner)。

现有痛点:外部模块路线被限制在预定义的原子算子搜索空间(CoT、Reflexion、Debate),缺乏架构创新能力;agent 生成路线虽能做到任务级自适应,但几乎都遵循"generate-once-and-deploy"(生成一次即部署)范式——系统一旦实例化就原封不动地执行,无论成败。

核心矛盾:真实环境是动态且易错的(网络故障、工具崩溃、文件丢失),"一次生成即部署"的系统在单个意外扰动下就可能整体崩溃,且没有任何在初始实例之外自适应的能力。

本文目标:提出第三种范式,让 MAS 同时具备自生成自适应能力——一个多智能体系统自主构造另一个多智能体系统,并在运行中持续监控、实时纠错。

核心 idea递归自生成(recursive self-generation)——把"造系统"的职责拆解到专门训练的元智能体团队中:生成器画高层工作流模板、实现器填具体 LLM backbone 让模板可执行、校正器在运行时监控执行状态并即时修正,三者各司其职,从而既突破外部模块的创造力天花板,又克服"生成一次即部署"的僵化。

方法详解

整体框架

MAS² 的元 MAS 由三个元智能体串联:推理时,生成器 \(A_{gen}\) 接收任务查询 \(Q\) 产出 MAS 模板 → 实现器 \(A_{imp}\) 把模板实例化为可执行系统 → 校正器 \(A_{rec}\) 在运行时持续监控并实时调整(§3.1)。这三个元智能体由协同树优化(CTO)框架训练:先通过路径级信用传播收集偏好信号(§3.2),再用值引导的偏好对齐专门化每个元智能体(§3.3)。

flowchart LR
    Q[任务查询 Q] --> G[♣生成器<br/>画 MAS 模板]
    G -->|Mtemp=⟨R,P,T⟩| I[❡实现器<br/>分配 LLM backbone]
    I -->|可执行 MAS M| EXE[执行]
    EXE -->|状态 st| R{♠校正器<br/>触发?}
    R -->|资源超预算 或 执行失败| FIX[修正配置 Mt+1]
    FIX --> EXE
    R -->|正常| OUT[输出结果]
    subgraph 训练 CTO
        TREE[协同决策树<br/>路径信用传播] --> OPT[值引导偏好对齐<br/>专门化三个策略]
    end

关键设计

1. 目标 MAS 的四元组形式化与生成器–实现器解耦:先画蓝图再填资源。MAS² 把待构造的目标系统统一形式化为 \(M = \langle R, P, T, B \rangle\),其中 \(R\) 是分配的智能体集合、\(P=\{\rho_{ij}\}\) 是规定智能体间合法消息结构的通信协议、\(T\) 是可用工具集(Python 解释器、playwright 浏览器等)、\(B=\{b_i \mapsto r_i\}\) 是每个智能体的具体 LLM backbone。关键巧思在于把"造系统"拆成两阶段:生成器只负责架构层面,产出抽象掉计算资源的工作流模板 \(M_{temp} = \langle R, P, T \rangle \sim \pi_{gen}(\cdot|Q)\)——一个完整但未实例化的 MAS 蓝图;实现器再定义分配策略 \(\phi: R \to L,\ r_i \mapsto b_{j(i)}\),从候选 LLM 池 \(L=\{b_1,\dots,b_{|L|}\}\) 给每个角色挑 backbone,最终系统由 \(M = M_{temp} \oplus \{(r_i, \phi(r_i))\}\) 组合而成。这种解耦让"架构创新"和"资源分配"两个本质不同的决策被不同的专家模型负责,也正是 Pareto 高效的来源——简单子任务交给小模型,复杂推理留给大模型。

2. 校正器的触发–干预闭环:把"生成即部署"变成运行时自纠错。这是 MAS² 区别于所有前作的核心。实例化的 \(M\) 部署后开始执行,校正器 \(A_{rec}\) 担任在线监控角色,其触发函数 \(A_R(s_t) = \mathbb{1}[C(s_t) > \theta_C \vee O(s_t) = \text{Failure}]\) 监控执行状态 \(s_t\):一旦累积资源消耗 \(C(s_t)\)(token 数、执行步数)超出预算 \(\theta_C\),或操作结果 \(O(s_t)\) 出现显式失败(搜索引擎失效、代码执行错误),就被激活。激活后校正器生成对当前配置的修改 \(M_{t+1} \sim \pi_{rec}(\cdot|M_t, s_t)\),修改幅度可大可小——局部调整(重新分配工具、改 agent prompt,如把 Safari 换成 Chrome+Crawler)到全局架构变更(重写工作流代码)。系统随后用更新后的 \(M_{t+1}\)\(s_t\) 继续执行。这个触发–干预闭环让生成的系统不仅为任务定制,还具备实时自我纠正能力,对长程、不可预测任务尤为关键。

3. 协同树优化(CTO)与路径信用传播:把团队最终成败归因到每个元智能体的局部决策。三个元智能体怎么训?CTO 为每个查询 \(Q\) 构造一棵有根有向树 \(G_Q=(V,E)\):根是查询节点,往下依次是生成器节点层、实现器节点层、以及执行中自适应出现的校正器节点,叶子是终止节点。树通过顺序采样展开——生成器从根分出 \(K\) 个候选模板,实现器对每个模板扩展 \(N\) 个可执行实例,校正器在调整 MAS 时再引入分支。一条轨迹 \(\tau\) 是从根到叶的唯一路径。评估时引入成本敏感的条件奖励 \(R(\tau) = \mathbb{1}[R_p(\tau)] \cdot \frac{1}{C_{norm}(\tau)}\):失败轨迹奖励为零,成功轨迹按归一化资源消耗 \(C_{norm}(\tau) = C(\tau) / \frac{1}{|T|}\sum_{\tau'} C(\tau')\) 给分,既奖励成功又惩罚浪费。叶子拿到奖励后通过路径信用传播反向归因到中间决策节点:节点价值 \(V(v) = \mathbb{E}_{\tau \in T(v)}[R(\tau)] \approx \frac{1}{|T(v)|}\sum_{\tau \in T(v)} R(\tau)\),即所有经过该节点的轨迹的期望奖励,用蒙特卡洛估计把终局结果摊回到上游每个决策上。

4. 值缩放的偏好对齐:让模型从"赢得最干净"的决策里学得最多。标注好价值的决策树被翻译成偏好数据,但不同于标准二元偏好对,CTO 的元组带上了胜出幅度 \(\Delta V = V(v') - V(v'') > 0\)(赢家后继节点与输家后继节点的价值差),即 \(D_\pi = \{(c_v, a_{win}, a_{lose}, \Delta V)\}\)\(\Delta V\) 量化了"这个决策到底比另一个好多少"。训练时把参考策略 \(\pi_{ref}\)(原始 LLM)精炼成专门策略,损失函数 \(L_{CTO} = -\mathbb{E}[\Delta V \cdot \log\sigma(\beta\log\frac{\pi_\theta(a_{win}|c)}{\pi_{ref}(a_{win}|c)} - \beta\log\frac{\pi_\theta(a_{lose}|c)}{\pi_{ref}(a_{lose}|c)})]\)\(\Delta V\) 加权每一项,让模型对高置信度(价值差显著)的偏好对学得最多,对低边际对不那么敏感。该优化独立施加于生成器、实现器、校正器,得到三个专门化策略 \(\pi^*_{gen}, \pi^*_{imp}, \pi^*_{rec}\)。实现上用 Qwen3-8B 做三者 backbone,LoRA 微调(rank=8, alpha=16)。

实验关键数据

主实验表格

8 个 benchmark(多跳搜索 HotpotQA/Bamboogle/NQ、深度研究 BrowseComp+、代码 HumanEval/MBPP、数学 MATH),对比 13 个 baseline,每格为三次随机运行均值:

Model HotpotQA Bamboogle NQ BrowseComp+ HumanEval MBPP MATH
GPT-4o 69.5 49.6 71.1 13.2 89.6 73.4 56.5
DyLAN 80.8 59.7 72.1 15.8 90.4 77.3 65.7
MaAS 83.6 62.0 76.0 14.0 92.8 82.2 70.1
AFlow 77.9 59.2 74.5 10.0 92.9 82.9 68.5
ScoreFlow 86.0 64.8 76.4 10.4 95.9 84.7 64.4
MAS² 89.3 67.2 79.1 19.7 97.0 85.1 71.3

MAS² 在全部 8 个 benchmark 上均取得最优,HotpotQA 较手工最佳 DyLAN 高 8.5%、BrowseComp+ 上最高提升 10.2%(相对单 LLM 均值)。

消融实验表格

在 MBPP / HotpotQA / MATH 上拆掉各组件(用未训练的 Qwen3-8B 替代或直接移除):

变体 MBPP HotpotQA MATH
w/o Generator 79.0 86.6 63.1
w/o Rectifier 81.7 87.2 64.7
w/o Implementor 80.4 87.3 65.3
MAS²(完整) 85.2 89.3 71.3

去掉生成器掉得最狠(MBPP 85.2→79.0),证明三个模块缺一不可;校正器去掉后 MATH 掉 6.6%,凸显运行时自纠错的价值。

关键发现

  • 现有自动 MAS 跨域泛化差:MultiPersona 在 HumanEval(92.9%) 强但 MATH 反降 4.3%;ADAS 在 HotpotQA(78.5%) 好但 BrowseComp+ 仅 7.0%。MAS² 是唯一在全域稳定领先的。
  • 跨 backbone 泛化:训练时未见过的 LLM(Qwen3-Coder、GPT-5-Mini、Gemini-2.5-Pro)加入池中无需重训即可被利用,MATH 从 vanilla 69.7% 提到 90.6%,最高提升 15.1%。
  • Pareto 前沿:Bamboogle 上比贵的 SC(GPT-4o) 高 12.8% 通过率且便宜 25 倍;NQ 上与 ScoreFlow 同等成本下高 2.7%。源于 LLM 级(易任务给小模型)+ 系统级(易题配轻量 MAS)的双层动态分配。

亮点与洞察

  • 范式跃迁清晰:把自动 MAS 历史梳理成"手工→外部模块生成→单 agent 生成→MAS 生成 MAS"四阶,MAS² 的"递归自生成"定位精准且自然。
  • 运行时自纠错是真痛点:直击"generate-once-and-deploy"在动态环境下的脆性,校正器的触发函数把"什么时候纠"和"怎么纠"都形式化了。
  • CTO 把多智能体信用分配做得优雅:决策树 + 路径信用传播 + 值缩放偏好对齐,一条线把"团队成败如何归因到个体决策"讲清楚,且是离线 RL,数据效率高。
  • 成本敏感奖励很务实,直接把 token 成本写进 reward,避免了纯性能优化导致的"堆模型"。

局限与展望

  • 校正器触发依赖显式失败信号(报错、超预算),对"静默错误"(答案错但不报错)的检测能力存疑,论文未深入讨论。
  • 元智能体 backbone 固定为 Qwen3-8B,CTO 训练对更小/更大元模型的敏感性、以及元 MAS 自身的成本未充分剖析。
  • 决策树展开的 \(K, N\) 较小(生成器 4 分支、每个实现器扩 2 次),搜索广度有限,复杂任务上是否够用待验证。
  • 评测集中在 QA/代码/数学/搜索,多轮交互式、真正长程的 agentic 任务(如完整软件工程项目)尚未覆盖。

相关工作与启发

  • 自动化 MAS:外部模块路线(GPTSwarm、AgentPrune、G-Designer、ADAS、AFlow、MaAS、MermaidFlow)vs 模型驱动路线(MAS-GPT 用 SFT、ScoreFlow 用 DPO、FlowReasoner/Weak-for-Strong 用 GRPO)。MAS² 超越二者的"生成即部署"局限。
  • 元 LLM 智能体:多数从现成强 LLM 实例化(OWL、AgentOrchestra、AIME、Cognitive Kernel-Pro 的 manager/CEO agent),少数显式训练 leader(MLPO)。MAS² 把元智能体从"单个控制实体"升级为"元 MAS"。
  • RL for MAS:训练外部模块 / 训练部分 agent(MLPO)/ 全量训练所有 agent(Sirius、MALT、MaPoRL、MARFT)三条流。CTO 属于"专门化元智能体"的离线 RL 路线。
  • 启发:递归自生成 + 运行时自纠错的组合,对构建鲁棒的长程 agent 系统是有价值的模板;值缩放偏好对齐可迁移到其他需要细粒度信用分配的多步决策训练。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "MAS 生成 MAS"的递归自生成范式 + 生成-实现-校正三元解耦 + 运行时自纠错,定位与方法都新颖。
  • 实验充分度: ⭐⭐⭐⭐ 8 benchmark / 13 baseline / 三次均值,含跨 backbone 泛化与成本分析,消融完整;但长程交互任务与静默错误场景缺位。
  • 写作质量: ⭐⭐⭐⭐⭐ 历史脉络梳理清晰、形式化严谨、图示(框架/决策树/case study)到位,可读性强。
  • 价值: ⭐⭐⭐⭐⭐ 直击自动 MAS 的脆性与跨域泛化痛点,方法可复现(已开源),对自适应 agent 系统设计有较强参考价值。