Self-evolving LLM agents with in-distribution Optimization¶

会议: ICML2026
arXiv: 2606.07367
代码: qevolve.github.io
领域: LLM Agent / 强化学习 / 过程奖励
关键词: 自进化智能体, 过程奖励, 隐式Q学习, 信用分配, 分布内优化

一句话总结¶

Q-Evolve 让 LLM 智能体在一个固定的混合离线数据集上学一个「分布内 critic」、用优势估计自动给每一步打过程奖励、再用 behavior-proximal 策略优化更新，全程不离开数据分布，从而在 AlfWorld/WebShop/ScienceWorld 上以远少的环境交互实现稳定的自我进化。

研究背景与动机¶

领域现状：LLM 正从静态文本生成转向驱动交互式智能体，在导航、游戏、机器人等长程任务里做序贯决策。但长程任务的反馈通常稀疏且严重延迟——智能体往往只在一幕结束时拿到一个二值奖励，很难把成败归因到中间某一步，这就是经典的信用分配难题。

现有痛点：为了给每一步补上过程奖励（process reward, PR），现有方法要么靠昂贵的人工标注，要么像 QLASS 那样靠大量在线 rollout + 搜索来估 Q 值当过程奖励标签。但它们有一个更根本的隐患：过程奖励是分布敏感的——PR 只在它被训练的那个状态-动作分布附近才可靠。一旦策略在线优化、生成了 PR 没见过的动作，或者环境动态把智能体推到 OOD 状态，PR 的打分就失效了，甚至造成灾难性的分布漂移。此外这些方法常依赖环境确定性、可回溯状态、可离散化状态等限制性假设。

核心矛盾：「生成过程监督」和「利用过程监督」如果发生在不同分布上，监督就不可信。已有离线 RL 的做法（用外部 critic 重排候选动作）把 critic 当成辅助过滤器而非内在目标，既不能让 LLM 变成可持续进化的自包含智能体，也没解决离线数据与策略自身分布之间的漂移。

本文目标：在同一个分布内既生成又利用逐步监督，让过程奖励标注始终可靠；同时让策略、critic、数据能闭环协同进化。

切入角度：经典 Bellman backup 理论上能解决长程信用分配，但直接搬到 LLM 上有两难——稀疏回报下 bootstrap 噪声累积难收敛，且 LLM 多 token 动作空间里标量 Q 值难以直接指导策略。作者的应对是用隐式 Q 学习（IQL）只在数据集动作上学 critic，避开 OOD 动作。

核心 idea：提出 Q-Evolve，一个自进化框架，把「自动过程奖励标注」和「分布内策略优化」统一进一个闭环：从专家演示 + 智能体轨迹的混合离线数据里学一个分布内 critic（加权 IQL），用 GAE 优势当过程奖励，再用 behavior-proximal 策略优化在同一份数据上更新——每次更新都被钉在分布内，从而不放大分布漂移。

方法详解¶

整体框架¶

Q-Evolve 先用行为克隆（BC）热启动策略，然后进入若干轮「分布内进化循环」。每一轮（inner loop）做四件事，外层再用进化后的策略采新数据刷新缓冲区，形成策略-critic-数据的闭环协同进化。

整条管线的关键转换是：把「一幕结束才有的稀疏回报」通过 Bellman 传播 + 优势估计「填」成每一步的密集过程奖励，然后只在产生这些奖励的同一份数据上更新策略。具体地，① 用当前策略 rollout 拼出「专家 + 自采」混合离线数据，并用基于规则的回溯标注补上辅助奖励；② 在这份固定数据上用加权 IQL 学一个分布内 critic（\(V\)、\(Q\)）；③ 用 GAE 从 critic 导出逐步优势当过程奖励；④ 用 behavior-proximal 策略目标（BPPO）更新策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["BC 热启动策略"] --> B["混合数据构建 + 回溯奖励标注<br/>专家演示 + 自采轨迹"]
    B --> C["分布内 critic 学习<br/>加权 IQL 学 V/Q"]
    C --> D["优势即过程奖励<br/>GAE 导出逐步优势"]
    D --> E["分布内策略优化<br/>BPPO 非对称裁剪"]
    E -->|采新数据刷新缓冲区| B
    E --> F["进化后策略 π_evolved"]

关键设计¶

1. 混合离线数据 + 回溯奖励标注：让过程监督钉在智能体真实犯错的分布上

纯靠自采轨迹学 critic 会被随机噪声淹没——尤其早期弱智能体很少到达有奖励的终止状态，离线数据严重偏向低信号区域。作者刻意构造混合数据集 \(\mathcal{D}=\mathcal{D}_{\text{expert}}\cup\mathcal{D}_{\text{self}}\)：专家演示提供解决任务的关键步骤与成功子程序（高质量正信号锚点），自采轨迹则暴露策略真实的状态-动作覆盖（包括各种失败模式和「看起来合理实则错误」的动作），让过程监督正好校准在智能体真实会犯错的地方。第一轮的 \(\mathcal{D}_{\text{self}}\) 由 BC 策略 \(\pi_{\text{BC}}\) 采集。

在此之上做回溯奖励标注（Retrospective Reward Labeling）：利用 LLM 智能体「观察和动作都是自然语言、环境常有显式文本反馈」的特性，用规则解析下一步观察 \(o_{t+1}\) 来给每步补一个辅助奖励——格式错误给 \(r^{\text{fmt}}\)、无效动作给 \(r^{\text{inv}}\)、原地踏步（\(o_t=o_{t+1}\)）给 \(r^{\text{repeat}}\)、否则为 0。这套标注不需要访问环境动态，立即惩罚不可执行步骤，把「动作有效性」从「任务成功」里解耦出来，是稀疏但细粒度的额外信号。

2. 加权 IQL 的分布内 critic：在稀疏回报下稳住 Bellman backup

为把过程奖励严格约束在固定数据内，作者选 IQL——它只在数据集动作上学，显式避开对 OOD 动作求最大值。\(V\) 用非对称期望回归（expectile）逼近动作价值分布的某个分位，\(Q\) 用标准 Bellman 回归 \(L_Q=\mathbb{E}_{\mathcal{D}}[(r_{t+1}+\gamma V(u,h_{t+1},o_{t+1})-Q(\cdots))^2]\)。但即便有 IQL，稀疏延迟回报下大多数转移奖励为 0、学习目标被 bootstrap 噪声主导，仍难学好。

作者的解法是加权 IQL：给每个转移一个步权重 \(w_t=(t/T+d)\cdot 0.5+0.5\)，其中 \(d\in\{0,1\}\) 标记该轨迹是否以非零回报终止。这个权重做两件事——（i）上调成功轨迹（\(d=1\)）的权重，（ii）给越靠后、越和终止结果相关的步更大权重。把 \(w_t\) 乘进 IQL 的期望回归与 Q 回归损失，critic 就从「信息量大」的步上拿到更强信号，估值更稳。同时把 critic 学习和策略改进解耦（先在固定数据上单独训 critic），避免噪声协同学习的反馈回路。

3. GAE 优势当过程奖励：用多步优势补齐缺失的中间奖励

有了 critic，作者不直接拿 \(Q-V\) 当过程奖励（一步优势在长程任务里被 bootstrap 噪声污染太重），而是用 GAE 算逐步优势：\(\delta_t=r^{\text{env}}_{t+1}+\gamma V(\cdots_{t+1})-V(\cdots_t)\)，\(A_t=\delta_t+\lambda\gamma A_{t+1}\)。这等于用 Bellman 传播把缺失的中间奖励「填」进来，既不需要环境回溯也不需要人工标注。

一个反直觉但关键的发现：优势估计里只用环境回报 \(r^{\text{env}}\)、把辅助奖励 \(r^{\text{aux}}\) 排除在外，效果比「完全去掉 \(r^{\text{aux}}\)」或「把 \(r^{\text{aux}}\) 也算进优势」都好。原因是这样让过程奖励对齐真正的任务目标、保持最优策略不变；\(r^{\text{aux}}\) 只在训 critic 时作为辅助信号有用，一旦进入优势就会用启发式偏置策略学习。

4. Behavior-Proximal 策略优化 + 非对称裁剪：在分布内既放大好动作又压制坏动作

最初作者按 IQL 套路用优势加权回归（AWR）\(L_\pi=\mathbb{E}[\exp(A_t)\log\pi_\theta(\cdots)]\)，但它只会单调抬高数据集里出现过的动作概率，没有机制去压低带负过程奖励的动作，容易过拟合。

于是改用 BPPO 的裁剪式目标：\(\mathcal{L}_\pi(\theta)=\mathbb{E}_{\mathcal{D}}[\min(\eta_t A_t,\ \text{clip}(\eta_t,1-\epsilon_{\text{low}},1+\epsilon_{\text{high}})A_t)]+\alpha\,\text{KL}(\pi_\phi\|\pi_{\text{ref}})\)，其中 \(\eta_t\) 是当前策略对生成数据的滞后行为策略 \(\pi_{\text{old}}\) 的重要性比。它沿用 PPO 式裁剪，但优势直接来自前面标好的过程奖励，无需在线 critic 和大量在线交互。关键是用非对称裁剪 \(\epsilon_{\text{low}}>\epsilon_{\text{high}}\)：允许对负标注动作更激进地压制（下界放宽），同时把概率增大约束得更紧（上界收紧）——这样既能果断抑制有害动作，又不会激进外推到离线数据分布之外，保持「在支撑集内」的保守更新。

一个完整示例：一轮进化循环¶

以 AlfWorld 一个家务任务为例：① 用当前策略（首轮是 BC）跑 33 条轨迹，和专家演示拼成混合缓冲区，解析每步观察补上格式/无效/重复的辅助奖励；② 在这份固定缓冲区上用加权 IQL 学 \(V/Q\)，成功轨迹和靠后步拿到更大权重；③ 对每条轨迹用 GAE（只含环境回报）算出每一步的优势 \(A_t\)，当作过程奖励；④ 用 BPPO 非对称裁剪更新策略——把优势为正的 token 放大、为负的果断压低。一轮结束后，用进化后的策略再去环境采新轨迹刷新缓冲区，进入下一轮。实验里 SciWorld/AlfWorld 跑 2 轮、WebShop 跑 3 轮。

损失函数 / 训练策略¶

三层目标串联：BC 的负对数似然热启动 → 加权 IQL 的 \(L_V\)（非对称期望回归）+ \(L_Q\)（Bellman 回归）→ BPPO 的裁剪式策略目标 + KL 正则。基模型用 Llama2-7B-Chat，自采每任务 33 条轨迹。

实验关键数据¶

主实验¶

在 WebShop、SciWorld（Seen/Unseen）、AlfWorld（Seen/Unseen）三个稀疏延迟奖励环境上对比，指标为平均累计奖励：

方法	WebShop	SciWorld Seen	SciWorld Unseen	AlfWorld Seen	AlfWorld Unseen	平均
SFT	63.1	67.4	53.0	60.0	67.2	62.1
ETO	67.4	73.8	65.0	68.6	72.4	69.4
QLASS	70.3	75.3	66.4	77.9	82.8	74.5
Q-Evolve	70.5	76.3	69.7	90.7	89.6	79.4

Q-Evolve 在所有 benchmark 上拿到最高平均分 79.4，比次优 QLASS 高 4.9。最显著的是 AlfWorld：Seen 90.7 / Unseen 89.6，比 QLASS 高出 12.8 / 6.8。更关键的是样本效率——AlfWorld 上 QLASS 需要 600K 在线采样，Q-Evolve 只用 20K（约 1/30），因为它主要靠离线重标注而非在线 rollout + 搜索来导出过程奖励。

消融实验（AlfWorld，1 轮进化）¶

变体	Seen	Unseen	说明
Q-Evolve (1-iter)	87.9	86.6	完整模型
w/o RR（去回溯标注）	83.6	82.7	失去中间学习信号
w/o W-IQL（换标准 IQL）	83.6	76.1	critic 在稀疏回报下变脆
w/o GAE（不用多步优势）	74.3	74.6	优势质量大幅下降
w/o PI（critic 只做测试时重排）	58.6	59.0	比 SFT 还低，分布失配
w/o PI + AWR（用 AWR 改策略）	64.3	67.9	无法压制坏动作

关键发现¶

分布内策略学习是主导机制：把过程奖励拿去做 OOD 的测试时重排（w/o PI）会掉到 58.6/59.0，甚至低于 \(\pi_{\text{BC}}\)——因为策略可能给出 PR 没见过的候选动作、环境动态又把它推向 OOD 状态，PR 打分失效。这正面印证了「必须在可控的分布内用过程奖励」。
GAE 是 critic 到策略的关键桥梁：去掉 GAE 直接掉到 74.x，且过程奖励选择对比中 GAE(只含 \(r^{\text{env}}\)) 优于一步 \(Q-V\) 和势能塑形——多步优势提供更可靠的时序信用分配。
\(r^{\text{aux}}\) 该放哪很讲究：把辅助奖励放进优势估计反而掉点，但留作 critic 训练的辅助目标有用——启发式信号只适合「稳 critic」，不适合「直接塑形策略」。
各模块协同而非单一 trick：RR/W-IQL/GAE 去任意一个都掉点，最终收益来自它们的协同。

亮点与洞察¶

「同分布内既生成又利用监督」这条主线很本质：过程奖励的不可靠性根源就是「标 PR 的分布」和「用 PR 的分布」错位，Q-Evolve 把两者锁进同一个闭环，是对症下药而非又堆一个模块。
回溯奖励标注几乎零成本：靠解析自然语言反馈就能补上格式/无效/重复的密集信号，不碰环境动态，可迁移到任何有文本反馈的交互环境。
优势里剔除 \(r^{\text{aux}}\) 的设计体现了「保持最优策略不变」的清醒：启发式奖励再好也只该塑形 critic、不该污染对齐任务目标的优势信号——这个区分值得借鉴到任何用辅助奖励的 RL 流程。
非对称裁剪（压坏动作放宽、抬好动作收紧）是一个简单却有效的小手术，直击 AWR「只会抬概率、不会压概率」的痛点。
用 1/30 的在线采样达到更好效果，对在线交互昂贵的高风险/非确定性场景（机器人、真实 web）尤其有吸引力。

局限与展望¶

仍需专家演示：混合数据强依赖专家轨迹提供成功锚点，纯无专家/冷启动场景下加权 IQL 的稳定性存疑。
回溯标注依赖文本反馈质量：规则解析「无效/重复」假设环境会显式报告执行错误，反馈含糊或无文本反馈的环境里这层信号会失效。
基模型与规模单一：只在 Llama2-7B-Chat 上验证，更大模型或更强基座下分布漂移问题是否同样突出未知。
进化轮数靠手调（SciWorld/AlfWorld 2 轮、WebShop 3 轮），缺一个判断「该不该再进化一轮」的自动停止准则。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「分布内同时生成与利用过程奖励的自进化闭环」抓住了过程奖励不可靠的根因。
实验充分度: ⭐⭐⭐⭐ 三环境 Seen/Unseen + 细致消融 + 过程奖励选择对比，但只用单一 7B 基模。
写作质量: ⭐⭐⭐⭐ 动机到方法逻辑清晰，加权 IQL 与 BPPO 的设计动机交代到位。
价值: ⭐⭐⭐⭐⭐ 用 1/30 在线采样超过 SOTA，对昂贵交互场景的智能体训练有实际意义。