Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments¶

会议: ACL 2026
arXiv: 2508.08791
代码: https://github.com/bytedance/FTRL
领域: 强化学习 / 工具使用
关键词: 工具调用, 强化学习, 自动化环境构建, 可验证奖励, LLM训练

一句话总结¶

本文提出 FTRL 框架，通过五阶段自动化管线构建稳定可控的工具使用训练环境，并设计结合工具调用精度和任务完成度的可验证奖励机制，与偏好优化 RL 算法结合后，在 7B-14B 模型上实现平均超 10% 的工具使用性能提升，甚至超越最强闭源模型。

研究背景与动机¶

领域现状：LLM 的工具使用能力是实现复杂现实任务的关键能力。当前提升工具使用能力的主要方法包括：在专有模型生成的交互轨迹上微调开源模型，以及通过 RL 方法让模型与环境交互来学习。

现有痛点：基于 RL 的工具使用训练框架面临两大核心限制：(1) 构建稳定训练环境困难——依赖大量在线工具的框架容易受 API 限速、服务中断等因素影响，标准化部署成本高；(2) 缺乏可验证的奖励信号——工具交互的复杂性和有效轨迹的多样性通常需要高级 LLM 评估，引入模型偏差并降低训练效率和算法稳定性。

核心矛盾：有效的工具使用 RL 训练需要同时满足"环境稳定可控"和"奖励信号可靠"两个条件，但现有方案无法同时解决这两个问题。

本文目标：(1) 自动化生成大量高质量工具使用训练环境；(2) 设计仅依赖环境反馈的可验证奖励机制；(3) 与标准 RL 算法无缝集成进行反馈驱动训练。

切入角度：将工具环境构建拆解为五个自动化阶段（场景分解→文档生成→功能整合→复杂度缩放→本地部署），所有工具以代码形式本地执行，避免外部依赖。

核心 idea：自动化构建本地可执行的工具环境 + 基于 F1 思想的精度-完成度平衡奖励 = 稳定、可验证的工具使用 RL 训练。

方法详解¶

整体框架¶

FTRL 包含两大核心组件：(1) 五阶段自动化环境构建管线，将用户输入分解为子问题并生成对应的工具集、文档和本地可执行实现；(2) 反馈驱动模型训练框架，通过可验证奖励机制和偏好优化 RL 算法迭代提升模型的工具使用能力。

关键设计¶

五阶段自动化环境构建管线:
- 功能：自动生成多样化、稳定的工具使用训练环境
- 核心思路：(a) 场景分解——定义四种工具使用场景（单跳、并行单跳、多跳、并行多跳），覆盖不同子问题的逻辑关系；(b) 文档生成——为每个子问题生成对应工具文档，建立一对一映射；(c) 功能整合——合并功能重叠的工具，从 \(n\) 个减少到 \(m \leq n\) 个；(d) 复杂度缩放——通过功能泛化、参数扩展、类型泛化和工具集扩展增加难度；(e) 本地部署——将每个工具文档映射为 Python 函数，本地执行确保稳定反馈
- 设计动机：通过场景分解确保训练数据的多样性，通过本地部署消除对外部 API 的依赖，通过复杂度缩放增强模型对复杂工具的泛化能力
可验证奖励机制:
- 功能：为工具使用行为提供精确、无模型偏差的奖励信号
- 核心思路：借鉴 F1 分数的思想，平衡工具调用精度和任务完成度。设 \(p\) 为调用次数、\(q\) 为成功解决的子问题数、\(t\) 为剩余未解决子问题数、\(a\) 为正确答案。奖励 \(R = \frac{2q}{p+1}\)（当 \(p>0\)），对空输出、格式错误分别给予 -0.5、-0.3 的惩罚，答案正确时给予 \(\frac{1}{t+1}\) 奖励
- 设计动机：单纯优化精度会导致任务执行不完整，单纯优化完成度会导致工具滥用。F1 式奖励在两者之间取得平衡，且仅依赖环境反馈无需外部模型评估
偏好优化训练流程:
- 功能：利用收集的轨迹数据和奖励信号优化模型工具使用策略
- 核心思路：模型 \(\mathcal{M}\) 在构建的环境中进行多步交互采样轨迹，记录每步的工具调用、中间结果和最终答案。结合可验证奖励，使用 Reinforce++ 或 GRPO 等偏好优化 RL 算法进行策略优化。每个 epoch 重新采样训练轨迹以扩展探索空间
- 设计动机：无需手工标注的解题路径，模型通过与环境交互自主发现有效的工具使用策略

损失函数 / 训练策略¶

使用 VeRL 框架训练，学习率 \(1\times10^{-6}\)，batch size 512，mini-batch 32，每次更新 16 个 rollout。非推理模式最大响应长度 1024，推理模式 8192。训练 3 个 epoch，每个 epoch 开始时用当前模型重新采样轨迹。在 8 张 A100 GPU 上训练。

实验关键数据¶

主实验¶

不同规模模型的工具使用性能（Solve-F1 / 各基准平均分）

模型	基准 Avg	FTRL-Reinforce++	FTRL-GRPO
Qwen2.5-7B	26.52	37.09 (+10.57)	37.80 (+11.28)
Qwen2.5-14B	34.33	44.25 (+9.92)	41.23 (+6.90)
Qwen3-8B (Non-Reasoning)	31.01	42.41 (+11.40)	45.43 (+14.42)
Qwen3-14B (Non-Reasoning)	33.34	44.14 (+10.80)	44.90 (+11.56)
GPT-4o	42.79	—	—
Claude-4.0-Sonnet	42.71	—	—

消融实验¶

不同奖励机制的 Solve-F1 对比（Qwen2.5-7B）

奖励设计	效果	说明
\(R_{\text{Solve-P}} = q/p\)	Solve-P 高但 Solve-R 低	仅优化精度，任务完成不充分
\(R_{\text{Solve-R}} = q\)	Solve-R 高但 Solve-P 低	仅优化完成度，工具滥用
\(R_{\text{Solve-PR}} = q^2/p\)	不稳定	离散奖励分布阻碍训练
\(R = 2q/(p+1)\)	最优平衡	精度和完成度均衡提升

关键发现¶

FTRL 训练的 7B-14B 开源模型在平均分上超越 GPT-4o（42.79）和 Claude-4.0-Sonnet（42.71）等最强闭源模型
参数级分析揭示性能提升主要源于底层 MLP 参数（第 0-2 层）的更新，表明方法增强的是模型对上下文信息的理解和表征能力，而非简单过拟合
推理模式在复杂场景（多跳、并行多跳）表现更好，但在简单场景（单跳）性能下降，说明当前推理机制尚未针对工具使用优化
训练后模型在 MMLU、BBH、GSM8K 等通用能力基准上无性能损失

亮点与洞察¶

五阶段环境构建管线设计精巧——从场景分解到本地部署形成闭环，既保证了环境多样性又确保了反馈稳定性，可迁移到其他需要稳定交互环境的 RL 训练场景
F1 式奖励设计简洁高效——用一个公式同时约束精度和完成度，避免了多目标优化的复杂性
"底层 MLP 驱动提升"的发现具有启发性——工具使用能力的改善根植于更好的上下文理解而非表面模式匹配

局限与展望¶

方法主要改善工具调用行为，未优化模型底层推理过程，当前开源模型的推理模式与工具使用任务之间存在对齐缺口
受资源限制仅在 7B-14B 模型上验证，更大规模模型的效果未知
环境构建依赖 GPT-4o 辅助生成，未来可探索完全自动化的生成方案
训练数据中缺乏多轮用户交互和噪声环境，但模型仍在 τ-bench 等多轮基准上有效，说明泛化能力较强

评分¶

新颖性: ⭐⭐⭐⭐ 五阶段环境构建和 F1 式奖励的结合是工程导向的系统创新
实验充分度: ⭐⭐⭐⭐⭐ 多模型家族、多 RL 算法、多基准、奖励消融、参数分析，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，实验分析有深度，但环境构建的技术细节可更详细
价值: ⭐⭐⭐⭐⭐ 提供了完整可用的工具使用 RL 训练框架，7B 模型超越 GPT-4o 具有很强的实用价值