ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KznJt9Fhjc
代码: 无
领域: Agent / LLM 工具调用 / 数据合成
关键词: 智能体数据合成, 多轮工具调用, 非自回归生成, 掩码-填充, 离线校验

一句话总结¶

ToolACE-MT 把多智能体仿真"逐轮自回归"造多轮工具调用数据的范式，换成"先搭骨架、再迭代精修、最后离线校验"的非自回归流水线，用更少的 API 调用造出连贯性和多样性都更高的智能体对话数据，训出来的 8B 模型在 BFCL-v3 多轮准确率从 9.25% 提到 40.25%。

研究背景与动机¶

领域现状：要让 LLM 具备智能体能力（多轮对话里反复调用工具、根据观测动态决策），高质量的"多轮+多步"交互数据是刚需。当前主流造数据的办法是多智能体仿真（Multi-Agent Simulation, MAS）：让若干个 LLM 分别扮演 user、assistant、tool，通过自回归的来回对话拼出完整轨迹。

现有痛点：MAS 有三个硬伤。一是贵——每一轮都要基于前文重新生成，长对话意味着大量来回交互，输入 token 爆炸；二是难控——任务复杂度和对话长度由模型交互隐式决定，没法显式约束，难以做精细的数据设计；三是最致命的全局视野缺失——assistant 是自回归生成的，看不到整体任务和步骤间依赖，很难优化整体结构、保证每一步一致，导致事实性、工具调用一致性、任务可解性都打折，本质上退化成"从更大的 assistant 模型蒸馏知识"。

核心矛盾：自回归生成天然是"局部最优"的——每一步只看历史、看不到未来，而智能体任务恰恰需要长程规划和全局一致性。MAS 把数据质量绑死在扮演 assistant 的那个 LLM 的能力上。

本文目标：造出又快、又可控、又全局一致的多轮智能体数据，且生成预算可弹性伸缩。

切入角度：作者借鉴非自回归翻译（NAT）和掩码扩散语言模型的思路——这类方法先并行生成一个粗糙的整体，再迭代精修，被证明在语言生成上更高效。作者把这个范式从 token 级搬到轮（turn）级：先一次性把整条轨迹的骨架搭出来（天然带全局视野），再局部精修。

核心 idea：用"非自回归迭代生成"代替"自回归多智能体仿真"——先生成结构完整但语义粗糙的对话骨架，再通过掩码-填充式的迭代精修注入复杂度和连贯性，最后离线校验过滤。

方法详解¶

整体框架¶

ToolACE-MT 要解决的是"怎么造一条多轮多步的智能体对话轨迹 \(C=(o_0,a_1,o_1,\cdots,o_{n-1},a_n)\)"，其中 \(o_0\) 是用户初始消息，\(a_t\) 是一个动作（函数调用或自然语言回复），\(o_t\) 是对应的观测（工具输出或用户回复）。整条流水线分三个阶段串行推进：粗粒度初始化 → 迭代精修 → 离线校验。

和 MAS 逐轮自回归不同，ToolACE-MT 的关键转变是：第一阶段就把整条轨迹的结构骨架一次性铺好（因此天生具备全局视野），后续阶段只在这个骨架上做局部的掩码-填充式修改。初始化阶段为了好处理，刻意把轨迹造得"干净规整"（结构完整但语义浅）；迭代精修阶段往里注入真实世界的复杂度（澄清、工具感知、错误模拟等）并修顺逻辑；离线校验阶段用规则+模型双重检查把不合格样本筛掉。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["工具池 + 任务示例"] --> B["粗粒度初始化<br/>生成子任务 + 拼接轨迹骨架"]
    B --> C["迭代精修<br/>掩码-填充注入复杂度+修顺逻辑"]
    C -->|交替迭代直到轮次用尽| C
    C --> D["离线校验<br/>规则 + 模型双重过滤"]
    D --> E["高质量多轮智能体对话数据"]

关键设计¶

1. 粗粒度初始化：先搭一具结构完整但语义粗糙的对话骨架

针对"自回归没有全局视野"这个根因，作者反其道而行——先把整条轨迹的结构一次性铺出来。它分两步：任务初始化先从预定义工具池里采样一批候选工具，然后生成整体任务，包括一组子任务 \((u_1,u_2,\cdots,u_m)\)（\(m\) 每条实例预先指定）、每个子任务需要的工具、以及每个子任务需要几步工具调用——这一步相当于高层规划，先把整条轨迹的走向定下来，细节留到后面填。轨迹初始化则按子任务顺序拼接：对每个子任务 \(u_t\)，基于它的元信息（工具需求、步数）和已生成的前序子轨迹 \((C_0,\cdots,C_{t-1})\) 生成子轨迹 \(C_t\)，最后拼成 \(C=C_0\cup C_1\cup\cdots\cup C_m\)。

这里有两个刻意的简化约束：一是每个子任务的工具调用和输出并行生成以保证一致；二是强制让子任务的首条用户查询 \(o_t^0\) 包含所有必要信息（如函数参数值），后续观测 \(o_t^s\ (s\neq0)\) 全是工具输出。这样动作类型严格交替（函数调用后跟工具输出、自然语言回复后跟用户回复），后处理极其方便。这一阶段只求结构完整、不求语义正确——内容浅、可能局部不一致，都留给下一阶段修。

2. 迭代精修：用掩码-填充往骨架里注入真实复杂度并修顺逻辑

骨架太"干净"了，不像真实对话。作者借鉴 Masked-Predict，交替进行两类掩码操作直到所有轮都被精修过或达到预设次数。复杂度注入（Complexity Injection）用 mask-and-extend 实现——把某一轮整体替换成占位符 \(X\)，再填入修订内容并额外加几轮，形式化为 \((o_0,a_1,\cdots,a_t,o',a',o'',a_{t+1},\cdots,a_n)=f_{\text{LLM}}(\sigma,(o_0,a_1,\cdots,a_t,X,a_{t+1},\cdots,a_n))\)，其中 \(\sigma\) 是注入类型。注入类型有四种：澄清（用户给的信息不全、assistant 追问）、工具感知（assistant 识别出任务不被支持、用户更新工具列表）、错误模拟（工具调用失败、assistant 反思并调整）、非函数调用需求（闲聊等开放输入增加多样性）。因为骨架干净，可以维护一份注入日志记录哪些轮被改过，避免重复修改。

合理性精修（Reasonability Refinement）则用 mask-and-fill：随机掩掉若干非相邻的轮再用 LLM 重新生成，检查工具调用参数是否合适、回复是否切题、对话流是否顺。初始时每轮被选概率相等，但被选过一次后概率下降，鼓励不同轮都被精修到。为防止越改越差，还有一个 LLM judger 判断采纳新内容还是保留原文。每条轨迹上，复杂度注入和合理性精修交替进行。

3. 离线校验：规则+模型双重把关，过滤幻觉和不一致

前面大量用 LLM，长多轮+大工具列表下幻觉是顽疾，所以最后做一道离线校验，混合规则法和模型法。规则法检查对话和工具调用格式合规性、可执行性（有真实工具时）、重复、以及能被规则抓到的幻觉（如引用了历史里没出现过的特殊 ID）。模型法借鉴前作把评估拆解成多个子问题，每个子问题交给一个独立的 LLM 检查专家处理，最后聚合各专家输出做决策，主攻语义连贯性和规则法漏掉的复杂幻觉。值得一提的是，合理性精修和离线校验功能上有重叠（都能纠不一致），但实验显示二者互补——精修主修语义连贯和函数调用准确，校验擅长抓长程不一致和整体结构缺陷。

损失函数 / 训练策略¶

本文是数据合成方法，本身不引入新损失。下游训练用 LoRA 微调（rank 16、alpha 32），全局 batch 64、学习率 \(1\times10^{-4}\)、cosine 调度、warmup 0.1。数据生成端：每条实例子任务数从 \([2,5]\) 采样、每个子任务 \([1,6]\) 步；迭代精修时随机注入 1~3 种复杂度（避免重复模式伤害自然度）、合理性精修最多 5 次（经验上的成本-效果平衡点）。

实验关键数据¶

构建 8000 条训练实例，与同样用 GPT-4o-2024-11-20、同工具池、同离线校验的 MAS 方法对比；主实验基座 LLaMA3.1-8B-Instruct。

主实验¶

基准	指标	基座 8B	MAS	ToolACE-MT
BFCL-v3	Multi-Turn Overall	9.25	31.38	40.25
BFCL-v3	Single-Turn Non-Live	84.21	80.29	84.94
BFCL-v3	综合 Overall	49.57	64.17	65.41
ACEBench	Multi-Turn	24.0	48.0	51.0
ACEBench	Agent PA	18.3	15.0	34.0
τ-Bench	Avg. (Retail+Airline)	16.1	15.9	20.6

ToolACE-MT 在 BFCL-v3 多轮上把 8B 基座的 9.25% 拉到 40.25%（绝对 +31%），超过 LLaMA3.1-70B（12.5%）和 DeepSeek-V3（29.87%），也全面优于 MAS。单轮 Non-Live 上保住了基座水平（84.94%），而 MAS 反而掉到 80.29%。一个有意思的发现：Live 单轮上提升不如 MAS，因为真实用户查询常含糊，多轮监督训出来的模型倾向先追问澄清再调用——这是"谨慎多轮规划"和"激进单轮执行"之间的 trade-off。

消融实验¶

配置	BFCL-v3 MT	BFCL-v3 综合	说明
Full (ToolACE-MT)	40.25	65.41	完整三阶段
− Offline Verification	32.50	63.01	去离线校验，综合掉 2.4%
− Iterative Refinement	20.88	52.10	再去迭代精修，全面大跌

数据效率与质量¶

方法	API 调用	定价 (USD)	校验通过率	BFCL 综合
MAS (GPT-4o)	275k	1,737	61.1	64.17
ToolACE-MT (GPT-4o)	188k	1,380	72.3	65.41
ToolACE-MT (GPT-4o-mini)	394k	148	48.7	60.13

数据统计上，ToolACE-MT 每条对话的用户轮更少（3.4 vs 5.8）但每轮工具调用更多（3.7 vs 2.3），更聚焦工具调用、多步任务完成更高效；连贯性（蕴含率 EnR 50.71 vs 43.60、语义相似度 SS 68.34 vs 65.23）和多样性（熵 H 9.28 vs 7.92、Distinct-3 0.357 vs 0.319）双双更优。

关键发现¶

迭代精修是性能主力：去掉后 BFCL 多轮从 40.25% 崩到 20.88%，因为初始骨架很多过于简单或有语义缺陷；离线校验贡献相对小但稳（综合 −2.4%）。
两阶段互补：精修次数少时校验作用大（差距约 5%），精修次数加到 15 次后差距缩到 2% 以内，但 30 次也消不掉——精修主修语义连贯，校验主抓长程不一致和结构缺陷。
生成端模型能力是上限：换 GPT-4o-mini 后通过率暴跌（48.7%）、格式错误和幻觉增多，即便过滤后训出的模型仍比 GPT-4o 版差（60.13% vs 65.41%），说明长工具密集对话对长上下文能力要求高。
任务完成更高效：τ-Bench 上 ToolACE-MT 训出的模型平均 13.7 个 assistant 轮完成任务，MAS 要 15.4 轮——非自回归骨架带来更好的整体规划，少了 MAS 的试错。
跨基座可泛化：在 Qwen2.5-7B、Qwen3-8B 上同样优于 MAS 数据，Qwen2.5 系列 0.5B~7B 全尺寸验证有效。

亮点与洞察¶

把非自回归/扩散思路从 token 级搬到 turn 级：核心洞察是"自回归造智能体数据的根本缺陷是没有全局视野"，而 NAT/掩码扩散"先并行铺骨架再迭代精修"恰好天然带全局视野，这个类比迁移得很巧。
"先造干净骨架再注脏"反直觉但好用：初始化刻意求结构完整而非语义正确，把"造复杂度"和"保结构"解耦，后续掩码-填充因此能维护注入日志、避免重复修改——干净的中间态让流程可控。
复杂度可显式控制+预算可伸缩：子任务数、步数、注入类型数、精修次数都是显式旋钮，迭代精修次数能根据预算调（Figure 5 是清晰的 scaling 曲线），这是 MAS 隐式交互给不了的。
离线校验的"分而治之"评估：把质量评估拆成多个子问题交给独立 LLM 专家再聚合，比让一个 LLM 一次性判全部更聚焦，这个模块化评估思路可迁移到任何长文本质量把关。

局限与展望¶

强依赖生成端大模型的长上下文能力：GPT-4o-mini 和 LLaMA3.1-8B 都造不出足够可用数据（后者大多数时候直接失败），方法的可及性受限于得用 GPT-4o 级别的强模型。
复杂度注入不适合在单条对话内反复施加：作者自承复杂度注入重复用会伤自然度，scaling 实验只能靠加合理性精修，复杂度的弹性扩展是有上限的。
评估受基准自身缺陷干扰：τ-Bench Airline 上基座 8B 反超所有训练模型，是因为该基准有"空动作即正确"的已知评估漏洞，弱模型恰好蒙对——提示这类智能体基准本身的可靠性待加强。
改进空间：可探索更便宜的生成端模型 + 更强校验的组合，或把迭代精修与 agentic RL 结合，用合成数据稳住 RL 训练。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把非自回归/掩码扩散范式从 token 级迁到 turn 级造智能体数据，范式级创新
实验充分度: ⭐⭐⭐⭐ 三基准+多基座+成本对比+scaling 曲线齐全，但缺真实工具大规模验证
写作质量: ⭐⭐⭐⭐ 三阶段叙述清晰、图示到位，部分公式记号略密
价值: ⭐⭐⭐⭐⭐ 智能体数据合成是刚需，省钱又提质，方法可直接复用