RAAS: LLM Agentic System Architecture Search with GRPO¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ridlog/raas
领域: Agent
关键词: 多智能体架构搜索, Agentic Supernet, 群组相对评估, 评估稳定性, GRPO

一句话总结¶

RAAS 把"群组相对评估"思想引入 agentic supernet 的架构搜索：让一批候选架构在同一道题上对打（CAO）、每个架构跑多次独立试验取截尾均值（MTAS），用零中心化的相对优势信号去更新生成分布，从而把"架构好坏"和"题目难易/执行随机性"解耦，在 MATH、HumanEval、GAIA 等六个基准上稳定超过最强基线 MaAS（平均 +5.41）。

研究背景与动机¶

领域现状：LLM 多智能体系统（MAS）靠多个 agent 协作解决复杂任务，但手工设计 agent 的角色、交互模式、决策协议代价高。自动化方向的最新范式是 Agentic Supernet（代表作 MaAS）：不再找一个"一招鲜"的固定工作流，而是优化一个概率化的架构空间 $\mathcal{A}=\{\pi, O\}$，根据 query 动态采样出题目专属的工作流。

现有痛点：MaAS 这类方法在评估候选架构时继承了一个根本缺陷——它直接用某个采样架构在某道题上的绝对得分 $R(G,q)$ 作为学习信号。这带来两类不稳定：(1) 难度纠缠——弱架构碰到简单题能拿近满分、显得很强，强架构碰到难题只拿中等分、显得很弱；(2) 执行方差——agentic 工作流本身有采样随机、中间决策随机，单次执行可能被幸运路径抬高或被偶发失败压低。

核心矛盾：搜索信号里"架构内在质量"被"题目难度"和"单次执行噪声"两个外生因素污染，导致简单题哄抬劣质设计、难题埋没优质设计，搜索动力学失稳。

本文目标：分解为两个子问题——Q1：如何把架构内在质量从题目难度中剥离？Q2：如何得到反映架构一致能力而非单次假象的稳定评估？

切入角度：评估不该问"这个架构表现多好"（绝对值），而该问"在同一道题上，它比同伴好多少"（相对值）。这正是 GRPO/SCST 那套"组内 peer 比较"思路——把它从 RL 训练搬到架构搜索的评估环节。

核心 idea：用"同题对打的群组相对优势 + 多试验统计聚合"替代"单次绝对得分"作为 supernet 的更新信号。

方法详解¶

整体框架¶

RAAS 在 MaAS 的 agentic supernet 之上构建一个闭环搜索流程：对每道 query $q$，先从分布里采一批 $N$ 个候选架构组成 cohort；每个架构在同一道题上跑 $K$ 次独立试验，由 MTAS 把多次结果聚合成稳健能力估计 $\hat R(G_i,q)$；CAO 以 cohort 的平均能力为基线、算出每个架构的零中心化"上下文优势" $M_{ctx}$；最后用这个优势对生成分布做 merit-weighted 更新，让正优势架构强化、负优势架构弱化。整个 supernet 的形式化沿用 MaAS：架构 $G$ 在各层激活算子集 $V_l$，联合概率 $p(G)=\prod_{l=1}^{L}\prod_{O\in O}\pi_l(O)^{\mathbb{I}_{O\in V_l}}$，优化目标是学一个 query 条件分布 $P(G|q)$ 去最大化代价调整后的效用 $U_\lambda(G;q)=U(G;q,a)-\lambda C(G;q)$。

⚠️ 标题写的是"with GRPO"，但正文并未直接套用一个名叫 GRPO 的损失；它借用的是 GRPO/SCST 的群组相对、零中心化优势这一核心思想，落地为 CAO（peer 比较）+ MTAS（多试验聚合），属于 GRPO-style 而非字面意义的 GRPO 训练（以原文为准）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["query q + agentic supernet"] --> B["Cohort 采样<br/>采 N 个候选架构"]
    B --> C["MTAS：多试验评估合成<br/>每架构跑 K 次→截尾均值 R̂(Gi,q)"]
    C --> D["CAO：上下文架构编排<br/>同题对打→零中心化优势 Mctx"]
    D --> E["Merit-Weighted 自适应<br/>正优势强化/负优势弱化生成分布"]
    E -->|迭代更新 φ| B
    E --> F["输出：query 专属高质量工作流"]

关键设计¶

1. Contextual Architecture Orchestration（CAO）：用同题 peer 比较剥离题目难度

针对"难度纠缠"痛点：与其问绝对得分，CAO 把一个 cohort $C_q=\{G_1,\dots,G_N\}$ 的所有候选放到同一道题 $q$ 上跑，先求 cohort 的上下文基线 $\bar R_{ctx}(q)=\frac{1}{N}\sum_{i=1}^{N}\hat R(G_i,q)$——这个基线天然吸收了"这道题有多难"，因为难题让所有同伴一起降分、简单题让大家一起升分。然后每个架构的上下文优势就是它相对基线的偏离：$M_{ctx}(G_i,q)=\hat R(G_i,q)-\bar R_{ctx}(q)$。这是个零中心化信号，$M_{ctx}>0$ 表示在当前题境下优于同伴、$<0$ 表示劣于同伴，题目难易被基线约掉了。作者还给了方差分解 $\mathrm{Var}[\hat R_i]=\mathrm{Var}[\bar R_{ctx}(q)]+\mathrm{Var}[M_i]+2\mathrm{Cov}[\bar R_{ctx}(q),M_i]$：第一项是被 CAO 滤掉的题境波动，第二项才是想要的架构质量信号，协方差项在均衡 cohort 里可忽略。

2. Multi-Trial Assessment Synthesis（MTAS）：用多试验截尾聚合压执行方差

针对"执行方差"痛点：MTAS 不让架构只跑一次，而是对每个 $G_i$、每道 $q$ 实例化 $K$ 次独立工作流 $\{R^{(1)},\dots,R^{(K)}\}$（独立随机种子、独立 agent 初始化、独立中间决策），再用合成函数 $\hat R(G_i,q)=\Phi(\{R^{(k)}(G_i,q)\}_{k=1}^K)$ 聚合。$\Phi$ 取截尾均值（trimmed mean）——丢掉最高和最低 $\alpha$ 比例的试验再平均，对偶发的极端好/极端坏路径鲁棒，又保留中心趋势。由大数定律，随 $K$ 增大估计方差按 $\mathrm{Var}[\hat R]\propto \sigma^2/K_{\text{eff}}$ 下降（$K_{\text{eff}}$ 是截尾后有效样本数）。CAO 给 MTAS 提供"和谁比"的题境，MTAS 给 CAO 提供"信得过的分数"，二者必须串联：单有 CAO、分数本身抖，相对优势也抖；单有 MTAS、聚合得很稳但仍混着题目难度。

3. Merit-Weighted Adaptation：把零中心化优势回传到具体算子

有了稳定且去难度的 $M_{ctx}$，怎么更新 supernet？作者用影响权重把优势分摊到各层算子：单个架构的更新 $\Delta\phi(G_i;q)=\omega_i(\phi)\cdot M_{ctx}(G_i,q)$，其中 $\omega_i(\phi)=\nabla_\phi\log p(G_i;\phi)=\sum_{l=1}^{L}\sum_{O\in V_{i,l}}\nabla_\phi\log\pi_l(O)$ 量化每个被激活算子对该架构的贡献。cohort 聚合更新 $\Theta_{RAAS}(\phi;q)=\frac{1}{N}\sum_{i=1}^{N}\nabla_\phi\log p(G_i;\phi)\cdot M_{ctx}(G_i,q)$，再以 $\phi\leftarrow\phi+\eta\cdot\Theta_{RAAS}(\phi;q)$ 迭代。由于 $\sum_i M_{ctx}(G_i,q)=0$，更新天然平衡"强化好模式 / 抑制坏模式"，无需额外 baseline 调整；这与 GRPO 的零中心化优势同构——这也是标题"GRPO"的来处。

损失函数 / 训练策略¶

全程沿用 MaAS 的多域数据排布（数学、推理、代码、知识问答）来优化 supernet 参数；底座 LLM 用 GPT-4o-mini 与 qwen-2.5-72b。关键超参是 cohort 大小 $N$ 和试验次数 $K$，推荐 $N{=}5, K{=}5$（每 query 25 次运行），属于成本-效果的甜点。

实验关键数据¶

主实验¶

六个基准跨数学推理（MATH/GSM8K/MultiArith）、代码生成（HumanEval/MBPP）、多步工具使用（GAIA）。下表为 GPT-4o-mini 底座的代表结果（准确率 %，括号为相对 Vanilla 的提升，"vs MaAS"为本文相对最强基线 MaAS 的增量）：

基准	Vanilla	MaAS（最强基线）	RAAS（本文）	vs MaAS
MATH	46.30	52.08	60.87	+8.79
GSM8K	87.45	91.84	95.16	+3.32
HumanEval	87.08	92.23	96.31	+4.08
MBPP	71.83	78.71	84.18	+5.47
GAIA（平均）	3.98	18.06	20.84	+2.78

六基准平均相对 MaAS +5.41。qwen-2.5-72b 底座结论一致（MATH 60.14、HumanEval 95.96）。GAIA 分难度看（Table 2），RAAS 在 Level-1/2/3 分别 29.53 / 25.32 / 7.68，均居首。

消融实验¶

作者按"逐步加回模块"做组件消融（Fig.5，数值为定性趋势，⚠️ 原文以柱状图给出、未列全部数字）：

配置	关键指标趋势	说明
MaAS 基线	最低	绝对得分单次评估
MaAS + 仅熵正则	略升	仅加探索正则，仍受难度纠缠
RAAS（仅 CAO，无 MTAS）	中等	有 peer 比较但执行方差未压
Full RAAS（CAO + MTAS）	最高	两机制协同，全基准最佳

关键发现¶

去掉 CAO性能掉回 MaAS 附近——上下文基线是去难度纠缠的关键；去掉 MTAS 执行波动重新引入、终值下降，二者协同才达最佳。
超参敏感性：MATH 上准确率随 $N$ 上升、约在 $N\approx 6$ 饱和（$K{=}5$ 时 $54.12\to58.26\to60.87\to61.24$）；$N$ 太小时增大 $K$ 收益有限（不稳基线限制了增益），$N\ge5$ 时把 $K$ 提到 5 带来 +4.45 显著可靠性提升。$N$ 提升 peer 多样性、稳住基线 $\bar R_{ctx}$；$K$ 过滤执行随机性。
成本-效果：MATH 上 RAAS 以 $0.31/query 拿到 60.87% 准确率，相比 MaAS 提 8.8 点同时省 6% 成本——更准的架构选择避免了冗余探索与早熟收敛。
收敛：2–3 个 checkpoint 内就超过 MaAS（MATH 第 4 点已到 57.8），轨迹近单调、置信带窄，最终 plateau 更高。

亮点与洞察¶

把 RL 里的"组内相对优势"迁移到架构搜索的评估环节：GRPO/SCST 原本是给序列生成做零中心化优势的，本文洞察到 agentic supernet 的评估也吃"绝对分污染"的亏，对症下药——这是一个干净的跨领域思想搬运。
CAO 与 MTAS 是正交且互补的两根支柱：一个治"和谁比"（题目难度），一个治"信不信这次分"（执行方差），缺一不可，方差分解和大数定律两条理论 sanity check 也分别对应这两点。
截尾均值是个低成本鲁棒选择：相比训练一个 critic 模型，截尾聚合不引入额外可学习组件、不加重计算，却能抗极端 trial——这个"无 critic 的稳健评估"思路可迁移到任何带随机执行的搜索/评估场景。
成本不升反降：稳定信号让搜索少走弯路，是"评估质量提升反哺搜索效率"的好例证。

局限与展望¶

多轮交互验证不足：作者承认大多数基准是单轮推理/编码，只有 GAIA 是多步工具使用；CAO+MTAS 在真正多轮交互工作流上的有效性还需更广验证（作者列为未来工作）。
试验成本随 $N\times K$ 线性增长：虽然甜点 $N{=}5,K{=}5$ 只比 MaAS 贵一点点，但每 query 25 次运行对超大模型仍是可观开销；作者提到未来要做 $N,K$ 的自适应分配。
缺理论收敛保证：merit-weighted adaptation 目前是经验有效，作者将"为该更新建立收敛性理论"列为待办。
标题与方法措辞落差："with GRPO"可能让读者期待一个标准 GRPO 训练流程，实际是 GRPO-style 的评估机制，阅读时需留意（⚠️ 以原文为准）。

评分¶

新颖性: ⭐⭐⭐⭐ 把 GRPO-style 相对评估搬进 agentic supernet 搜索，角度清晰但属"已有思想的巧妙迁移+扩展"。
实验充分度: ⭐⭐⭐⭐ 六基准两底座 + 消融 + N/K 敏感性 + 成本分析较完整，但多轮交互场景仅 GAIA 一个。
写作质量: ⭐⭐⭐⭐ 问题-机制对应清楚、有方差分解等理论 sanity check；标题"GRPO"易引起字面误解。
价值: ⭐⭐⭐⭐ 即插即用换评估信号就能稳定提升，对做 agentic 架构搜索的人有直接借鉴。