Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=c5bf47nDx1
代码: 待确认
领域: LLM Agent / 数据合成
关键词: 智能体训练数据, 最近发展区(ZPD), 知识融合, 自演化基准, 持续预训练

一句话总结¶

借用教育心理学的"最近发展区(ZPD)"理论，用一个能自动把题目难度精确校准到模型能力边界的数据合成引擎，造出可用于持续预训练和后训练的高价值智能体数据，把 30B-A3B 的小模型在 HLE 上推到 28.6%，超过若干闭源 deep-research 智能体。

研究背景与动机¶

领域现状：当前 LLM 在常规推理任务上已经很强，但在需要跨领域、多文档、深度整合的"deep research"型任务上仍然吃力。要让模型从"调用内部静态知识"跃迁到"工具使用 + 自反思 + 多步规划"的智能体能力，最稀缺的恰恰是训练数据——能系统性培养这些能力的语料几乎不存在。

现有痛点：主流数据合成范式分两类——query-centric（在已有 QA 上做变体）和 document-centric（从单文档抠出 QA），二者都只考查"局部理解"，像考学生单独某一章，而不是考他融会贯通整本教材的能力。同时，专家手工出的高难基准（如 Humanity's Last Exam）造价高、不可扩展，很快被刷穿。

核心矛盾：有效的数据合成难点不在"生成难题"，而在把难度精确卡在模型能力的边界上——既要难到超过模型独立能力，又要在适当支持下能解出来。现有方法靠粗粒度难度标注或堆砌约束，缺乏精确瞄准这条边界的机制；而模型自生成的数据又困在自己的能力天花板之内，难以系统性地拔高。

本文目标：构建一条自动化流水线，持续合成位于 LLM"最近发展区"内的高价值数据，并同步产出一个能随模型进步而自我演化、抗饱和的评测基准。

核心 idea：把 Vygotsky 的 ZPD 理论工程化——定义两个角色：能力较弱的同伴 LKP（裸 base LLM）和更博学的他者 MKO（工具增强的强智能体）；凡是 LKP 做不出、但 MKO 能做出的题，就恰好落在模型的 ZPD 里。以此为筛子，自动识别出"信息量最大"的训练资源，并随模型能力边界外推而持续自适应更新课程。

方法详解¶

整体框架¶

AgentFrontier 数据引擎是一条三阶段智能体合成流水线，把原始文档语料 \(\mathcal{C}_{raw}\) 转化为经过校准的高价值数据集 \(\mathcal{D}_{ZPD}\)。Stage I 从多源文档生成需要知识融合的种子 QA；Stage II 用工具增强智能体迭代升级这些 QA 的复杂度；Stage III 用 LKP-MKO 对抗校准把数据切成"持续预训练用的知识密集数据"和"后训练用的前沿推理数据"两股协同输出。

flowchart LR
    A[原始语料 C_raw<br/>百万级文档] --> B[Stage I<br/>分块+三元组聚类<br/>生成种子 QA]
    B --> C[Stage II<br/>工具增强智能体<br/>K 轮复杂度升级]
    C --> D{Stage III<br/>LKP 能否解?}
    D -->|能解| E[D_pretrain<br/>知识密集→持续预训练]
    D -->|不能解| F{MKO Best-of-3<br/>能否解?}
    F -->|至少1次对| G[D_ZPD<br/>前沿推理→后训练]
    F -->|全错| H[D_human<br/>人工复核]

关键设计¶

1. 复合单元驱动的种子生成：从单文档理解逼到跨文档融合　要让题目天生就需要"知识融合"，引擎不从单个文档出题，而是从主题相关的文档块三元组出题。先用 Qwen3-235B 做分块函数 \(\Phi_{chunk}\) 把长文清洗、压缩成信息密集块 \(\mathcal{C}_{chunk}\)，再建向量索引，对每个块 \(c_i\) 取 \(k\) 近邻，在邻域里搜索满足 \(\mathrm{Sim}(c_x,c_y)>\tau_{theme}\) 的高主题一致性三元组 \((c_i,c_j,c_k)\)。这种检索式聚类绕开了组合爆炸，又保证生成器 \(\mathcal{M}_{gen}\)（DeepSeek-R1）出的种子 QA 必须横跨多个来源，而非局部事实检索。

2. 四维对抗式复杂度升级：让题目沿能力边界向上爬　引擎的核心是一个迭代精炼循环：精炼智能体 \(\mathcal{A}_{refine}\)（DeepSeek-R1 + 搜索/学术/浏览器/代码四件套）对第 \(k\) 轮的 QA 施加升级算子，\((q_{k+1},a_{k+1})=\Psi_{escalate}(q_k,a_k,\mathcal{A}_{refine})\)，沿四个维度做加法——知识扩展（查外部源织入背景）、概念抽象（提炼更高层原理或隐含关系）、事实加固（多源交叉验证）、计算建模（用 Python 执行引入定量计算/逻辑模拟）。一轮的输出是下一轮的输入，自举式地把推理链越拉越深，\(K\) 轮后得到高复杂度的 \(\mathcal{D}_{refined}\)。

3. LKP-MKO 双判据 ZPD 校准：把数据精确切成预训练流和后训练流　并非所有合成 QA 都同等有价值。引擎实例化 LKP（裸 DeepSeek-R1-0528，无工具）和 MKO（工具增强 DeepSeek-V3.1），用 GPT-4o 当自动判官给出二值 \(\mathrm{IsSolvableBy}(A,q,a)\)。若 LKP 能解（=1），说明太简单，划入知识密集预训练集 \(\mathcal{D}_{pretrain}\)；若 LKP 解不出（=0），交给 MKO 做 Best-of-N（\(N=3\)）验证：MKO 至少一次答对（\(\sum_i \mathrm{IsCorrect}(s_i,a)\ge 1\)）就判定落在 ZPD 内——难但可学，纳入后训练集 \(\mathcal{D}_{ZPD}\)；MKO 三次全错则可能本身有缺陷或过难，转人工复核 \(\mathcal{D}_{human}\)。最后再用 reranker 做语义去重，丢弃满足 \(\max_{(q,a)\in\mathcal{D}_{ZPD}}\mathrm{Sim}(q',q)\ge\epsilon\)（\(\epsilon=0.7\)）的冗余样本，保证多样性。

4. ZPD Exam：与模型共同演化的自评测基准　同一引擎换个配置就能产出一个抗饱和的活基准。它先从 2023–2025 年 3 万篇前沿科学论文（数学/CS/物理等）取材，保证答案不能靠参数化知识背出来；再用严格的对抗双约束筛题——基线模型(DeepSeek-R1)无工具三次都解不出、但有工具三次都能解出，由此圈定经验上的 ZPD 边界。最终采样 1024 道公开短答题构成 ZPD Exam-v1。因为构造完全自动，模型一旦进步就能重新生成基准瞄准新边界，形成飞轮。其评测把智能体分成三档：内在能力区(<20，纯参数知识天花板)、推理瓶颈区(20–60，有工具但缺乏跨工具调度的元认知)、涌现精通区(>60，能像 MKO 一样把工具探索织进连贯推理)。

实验关键数据¶

主实验表格¶

四个多学科基准上对比四种 agent-tuning 数据集（同样 12000 条轨迹、rejection sampling、3 epoch），AgentFrontier 全面领先。

Backbone	RFT 数据集	HLE	ZPD Exam-v1	RBench-T	xBench-SciQA
Qwen3-8B	TaskCraft	14.6	87.5	64.3	30.0
Qwen3-8B	MegaScience	14.2	84.7	62.3	36.0
Qwen3-8B	MiroVerse	15.0	84.5	62.8	32.0
Qwen3-8B	AgentFrontier	18.8	86.8	67.2	40.0
Qwen3-32B	MiroVerse	19.9	87.7	67.4	43.0
Qwen3-32B	AgentFrontier	23.8	90.9	70.3	51.0
Qwen3-30B-A3B	MegaScience	20.2	90.0	73.1	48.0
Qwen3-30B-A3B	AgentFrontier	25.7	91.4	74.4	54.0

HLE 学科级分析显示：8B/32B backbone 上 AgentFrontier 分别在 8 个学科中拿下 6 个、7 个最优；30B-A3B 上更是每个学科全部领先，总均分 25.67%，相对原始 base 模型在无工具/有工具设定下分别提升 178% 和 152%。

加上持续预训练后的最终模型 AgentFrontier-30B-A3B 与 SOTA 智能体对比：

Agent	HLE	ZPD Exam	RBench-T	xBench-SciQA
GPT-4o (with tools)	4.8	51.3	48.5	15.0
Claude 4 Sonnet	14.3	86.6	71.1	47.0
WebSailor-72B	9.2	62.1	44.9	27.0
AgentFrontier-30B-A3B (RFT only)	25.7	91.4	74.4	54.0
AgentFrontier-30B-A3B (CPT+RFT)	28.6	93.4	77.1	61.0

CPT 这一步单独贡献了 +2.9 (HLE)、+2.0 (ZPD)、+2.7 (RBench)、+7.0 (xBench-SciQA)。

消融实验表格¶

LKP/MKO 配置消融，揭示"数据产量 vs 数据复杂度"的权衡（1000 样本子集）。

配置 (LKP / MKO)	ZPD 数据产率	平均轮数	平均工具调用
1. DS-R1 / DS-V3.1+T（原始，均衡差距）	33.1%	3.32	2.32
2. Qwen3-30B / DS-V3.1+T（更宽差距）	47.7% (↑44.1%)	1.85 (↓44.3%)	0.85 (↓63.4%)
3. DS-R1 / DS-R1+T（更窄差距）	24.0% (↓27.5%)	2.99	1.99

更弱的 LKP 虽把产率拉高 44%，却让数据复杂度暴跌（工具调用 ↓63%），数据变水；更窄差距维持了复杂度但产率掉 27.5%、规模化效率低。原始均衡配置兼顾了规模与深度。

关键发现¶

Best-of-N 揭示难度恰到好处：在 300 样本验证集上，pass@1 21.7% → pass@8 40.7%，+19.0 点的跳跃证明数据不是"非平凡即不可能"的二元混合，而是处在"初次可能失败、探索后可成功"的真正前沿——既为 SFT 提供丰富信号，也为后续 RL 留下探索空间。
从高频调用到高效编排：AgentFrontier 训出的智能体在 HLE 上宏平均条件工具准确率达 26.3%，显著超过竞品 21% 的平台期，且交互次数相当——能力来自工具使用的"效率"而非"数量"。
均衡工具分布培养跨工具协同：相比 code-centric 的 MiroVerse 或 search-centric 的 TaskCraft，AgentFrontier 在 search/scholar/browser/code 上分布均衡，迫使智能体理解工具间协同而非单点精通。

亮点与洞察¶

把抽象教育理论落成可操作的工程判据：ZPD 在心理学里是定性概念，本文用"LKP 失败 ∧ MKO 成功"这一对二值判据把它变成可自动执行的数据筛选器，且这条边界随模型进步自动外推，天然形成自适应课程。
数据合成 + 评测基准同源：同一引擎既造训练数据又造 ZPD Exam，且训练语料与评测语料严格不相交，既保证评测无污染，又让基准能随模型共同演化、抗饱和。
小模型超大模型：30B-A3B（激活仅 3B）在 HLE 上 28.6% 直追 OpenAI/Gemini DeepResearch（26.6/26.9），印证"数据质量校准到 ZPD"比单纯堆参数更能解锁专家级推理。
三档诊断而非单一榜单：ZPD Exam 把智能体分成内在能力/推理瓶颈/涌现精通三区，能精确指出当前模型缺的是"元认知工具编排"而非"工具本身"。

局限与展望¶

依赖多个强教师模型：流水线用到 Qwen3-235B、DeepSeek-R1、DeepSeek-V3.1、GPT-4o 等多个强模型当生成器/精炼器/判官，合成成本不低，且数据质量上限受这些教师能力约束。
MKO 天花板即 ZPD 天花板：被 MKO 三次全错的题直接进人工复核，意味着"超出当前最强工具智能体"的真·前沿题无法自动利用，飞轮的上界仍卡在 MKO。
判官可靠性：难度判定和正确性验证都靠 LLM-as-a-judge（GPT-4o / o3-mini），判官的偏差会直接传导到数据切分和最终评分。
RL 尚未落地：BoN 分析论证了 RL 的潜力（pass@1↔pass@8 差距大），但本文止步于 SFT/RFT，把 AgentFrontier 数据用于 RL 的实际收益留作未来工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 ZPD 理论工程化为可自动执行的 LKP-MKO 数据筛选判据，并让数据合成与评测基准同源共演化，框架优雅且原创性强。
实验充分度: ⭐⭐⭐⭐ 三种 backbone × 四基准 × 四数据集主实验扎实，配 HLE 学科级、LKP/MKO 消融、BoN、工具效率、CPT 全链路分析；略缺 RL 实证。
写作质量: ⭐⭐⭐⭐ 理论动机—流水线—评测—分析逻辑清晰，图表充分；公式与三阶段叙述完整。
价值: ⭐⭐⭐⭐⭐ 给"如何造前沿智能体训练数据"提供了可扩展范式，小模型超闭源 deep-research 智能体的结果极具说服力，数据与基准均可复用。