CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution¶

会议: ACL 2026
arXiv: 2604.15840
代码: https://github.com/AMAP-ML/CoEvolve
领域: LLM Agent
关键词: 智能体训练、数据合成、共进化、遗忘信号、强化学习

一句话总结¶

CoEvolve 提出智能体-数据共进化框架，通过从训练轨迹中提取遗忘/边界/稀有三类弱点信号，引导 LLM 做针对性环境再探索和任务合成，使训练数据分布随智能体能力动态适应，在 AppWorld 和 BFCL 上分别带来 19-23% 的绝对提升。

研究背景与动机¶

领域现状：LLM Agent 通常通过 RL 在交互环境中训练，但训练数据来源是核心瓶颈——要么依赖人工专家轨迹（昂贵、覆盖有限），要么用 LLM 合成静态数据（无反馈、无法适应智能体演化）。

现有痛点：(1) 人工专家轨迹是"静态快照"，无法覆盖真实世界的长尾变体（如按钮标签从"Book Now"变为"Reserve Now"就会失败）；(2) LLM 合成数据虽减少了人工依赖，但基于随机探索，环境覆盖浅且不完整；(3) 更关键的是，合成数据是静态的，无法随智能体能力演化而调整——智能体已掌握的技能被过度训练，而弱点被忽视。

核心矛盾：智能体的能力在持续变化，但训练数据分布是固定的——缺乏闭环反馈使得训练效率低下且无法持续改进。

本文目标：设计一个无需人工监督的框架，让训练数据分布随智能体的演化弱点动态调整，实现"智能体改进→发现新弱点→合成针对性数据→智能体再改进"的闭环。

切入角度：利用训练过程中的轨迹回放信号（遗忘、边界、稀有模式）来识别智能体的具体弱点，以此为条件引导 LLM 做定向环境探索。

核心 idea：从 RL 训练的 rollout 轨迹中提取弱点信号，条件化地引导 LLM 在环境中再探索，合成针对弱点的新任务，更新训练分布，形成智能体-数据共进化闭环。

方法详解¶

整体框架¶

CoEvolve 要解决的是"训练数据静态、智能体能力动态"的错配，做法是把数据合成挂到智能体当前的弱点上去。一轮迭代里，智能体先用 GRPO 在环境中训练并产出 rollout 轨迹，系统从这批轨迹里抽取遗忘、边界、稀有三类弱点信号；信号连同对应失败轨迹被喂给一个 LLM 去反思并生成结构化探索上下文，引导它回到环境里针对弱点区域再探索；新发现的交互模式被抽象成任务、经环境验证后并入下一轮训练集。如此"训练→发现弱点→合成针对性数据→再训练"循环往复，让数据分布随智能体能力一起演化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["训练集 D_t"] --> B["GRPO 训练智能体<br/>产出 rollout 轨迹"]
    subgraph SIG["三类弱点信号提取"]
        direction TB
        C1["遗忘信号<br/>曾成功现失败"]
        C2["边界信号<br/>同任务时成时败"]
        C3["稀有信号<br/>探索频率过低"]
    end
    B --> SIG
    SIG --> D["信号引导的环境再探索<br/>LLM 反思失败 → 生成探索上下文 → 回环境针对性探索"]
    subgraph SYN["任务合成与环境验证"]
        direction TB
        E1["新交互模式抽象成任务"] --> E2["放回环境执行验证<br/>过滤幻觉任务"]
    end
    D --> SYN
    SYN --> F["并入下一轮训练集 D_t+1"]
    F -->|下一轮迭代| A

关键设计¶

1. 三类弱点信号提取：从轨迹里定位智能体的具体短板

随机合成数据的问题在于它不知道智能体哪里弱，于是把算力浪费在已经掌握的技能上。CoEvolve 从 rollout 轨迹里抽三类互补信号来精确定位短板。遗忘信号用滑动窗口检测能力退化：若最近 \(W\) 次尝试中存在成功（\(\exists s_i \geq 0.5\)）但当前这次失败（\(s_{\text{now}} < 0.5\)），说明智能体"忘"掉了曾经学会的能力。边界信号捕捉行为不稳定：同一任务在单次训练中采样的 \(K\) 条轨迹里同时出现成功与失败，意味着智能体正卡在该任务的决策边界上。稀有信号识别探索不足：某个动作模式的出现频率虽大于零但低于阈值（\(c_p/N < \theta/100\)），说明环境中存在被系统性忽略、没充分探索的交互。三者分别对应能力退化、不稳定、探索盲区，合起来给出一张完整的弱点地图，比无差别采样高效得多。

2. 信号引导的环境再探索：让 LLM 带着失败画面去补课

光知道哪里弱还不够，得把弱点转成可探索的方向。CoEvolve 把信号标注的失败轨迹（任务描述、动作序列、环境反馈）整体交给 LLM，要求它先反思失败原因，再生成结构化的探索上下文——明确写出在环境的哪个位置、以何种方式失败或不稳定。随后用这份上下文去条件化 LLM，让它带着这个"靶子"回到真实环境里交互，发现与弱点相关的新交互模式和任务变体。与漫无目的的随机探索相比，这种信号条件化的探索始终聚焦在智能体当下最薄弱的区域，把探索预算花在刀刃上。

3. 任务合成与环境验证：把新交互固化成可复用、可执行的训练任务

再探索发现的交互如果不加约束直接当训练数据，很容易混入 LLM 幻觉出来的"假任务"。CoEvolve 先把这些新交互模式抽象成任务描述（保证可复用），再放回环境中实际执行做验证，只有真正可执行、能产生有效反馈的任务才并入下一轮训练集 \(\mathcal{D}_{t+1}\)。整条链路——探索、合成、验证——全程无需人工介入，环境本身充当了过滤幻觉任务的客观裁判，这也是消融里去掉环境验证后性能显著下滑的原因。

损失函数 / 训练策略¶

智能体用 GRPO 训练：对每个任务采样 \(K\) 条轨迹，按组内相对优势计算策略梯度，并用 KL 正则化约束策略不偏离参考模型太远。信号提取、信号引导再探索、任务合成与验证则在每个训练迭代结束后执行一次，更新出下一轮的数据分布。

实验关键数据¶

主实验¶

模型	AppWorld-TestN TGC	AppWorld-TestC TGC	BFCL Multi-turn	平均提升
Qwen2.5-7B + CoEvolve	27.98 (+26.79)	8.39 (+7.67)	61.50 (+48.00)	+19.43%
Qwen3-4B + CoEvolve	35.71 (+19.04)	17.03 (+9.12)	63.00 (+36.50)	+15.58%
Qwen3-30B-A3B + CoEvolve	54.76 (+23.21)	31.65 (+11.75)	63.00 (+19.50)	+18.14%

消融实验¶

配置	关键指标	说明
仅遗忘信号	有效但不完整	只捕获能力退化
仅边界信号	有效但不完整	只捕获不稳定行为
仅稀有信号	有效但不完整	只捕获探索不足
三类信号联合	最佳	互补弱点全面覆盖
无环境验证	显著下降	幻觉任务引入噪声

关键发现¶

CoEvolve 使 Qwen2.5-7B 从几乎不可用（1.19%）变为中等水平（27.98%），提升幅度惊人
在 BFCL 上 Qwen2.5-7B+CoEvolve 达 61.50%，甚至超越 GPT-4（54.00%），说明数据质量可以弥补模型规模差距
Qwen3-30B-A3B+CoEvolve 在 AppWorld-TestN 上达 54.76%，接近 Claude-Sonnet-4.5（73.81%）
三类信号互补——单独使用任何一类都不如联合使用

亮点与洞察¶

"遗忘信号"作为数据选择标准是本文最巧妙的设计：借鉴课程学习中的遗忘事件概念，将其用于引导数据合成而非数据选择。这个思路可迁移到任何需要动态数据分布调整的训练场景
闭环设计（训练→发现弱点→合成数据→再训练）比单纯的数据增强更本质——它让训练分布和模型能力共同演化，是一种自适应课程学习
在 BFCL 上 7B 模型超越 GPT-4 的结果极为亮眼，有力证明了"针对性数据"比"大量随机数据"更有价值

局限与展望¶

需要真实环境交互做验证，限于有可执行环境的场景（如 API 调用、Web 导航），难以推广到开放域任务
信号提取的超参数（滑动窗口大小 W、稀有阈值 θ）可能需要针对不同环境调整
再探索阶段依赖强 LLM（用于反思和探索），这本身引入额外计算成本
未与其他自适应课程学习方法做直接对比

评分¶

新颖性: ⭐⭐⭐⭐ 智能体-数据共进化的闭环框架是新颖的范式，遗忘信号用于数据合成的想法巧妙
实验充分度: ⭐⭐⭐⭐ 多模型（7B/4B/30B）、多基准（AppWorld/BFCL）、详细消融、与闭源模型对比
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，方法流程图直观，但信号提取公式可精简