ExpSeek: Self-Triggered Experience Seeking for Web Agents¶

会议: ACL 2026 Findings
arXiv: 2601.08605
代码: https://github.com/WYRipple/ExpSeek
领域: LLM Agent
关键词: Web Agent, 经验干预, 熵触发, 主动寻求指导, 多轮交互

一句话总结¶

ExpSeek 提出了一种基于步级熵自触发的经验主动寻求框架，让 Web Agent 在交互过程中根据自身信号判断何时需要指导、获取什么指导，在 Qwen3-8B/32B 上分别实现 9.3% 和 7.5% 的绝对提升。

研究背景与动机¶

领域现状：Web Agent 需要在开放网络中进行多轮交互获取信息并回答复杂查询。经验干预（experience intervention）已被证明是提升 agent 能力的有效范式，现有方法主要分为离线经验提炼和在线自演化两条路线。

现有痛点：现有经验注入方式是被动的——在任务开始前将经验作为全局上下文一次性注入系统提示。然而在 agent 与环境的多轮交互中，上下文观测持续变化，初始注入的静态经验难以适应动态场景，可能导致决策偏差。

核心矛盾：经验的有效性依赖于时机和内容的精准匹配：过于频繁的干预增加推理负担，过于稀疏则错失关键指导窗口；全局经验无法针对当前步骤的具体状态提供定制化指导。

本文目标：构建一种主动经验寻求框架，解决两个核心问题——(1) 何时寻求经验（when）：利用模型自身信号判断干预时机；(2) 寻求什么经验（what）：设计步级定制化经验内容。

切入角度：作者观察到 LLM 的步级熵（token entropy 均值）与推理质量存在统计相关性——错误步骤的熵显著高于正确步骤。这种内在信号可以作为 agent "困惑"程度的指示器，无需额外的奖励模型。

核心 idea：用模型自身的步级熵作为自触发信号判断干预时机，结合经验库和经验模型动态生成步级定制化指导，实现从被动全局注入到主动步级寻求的范式转变。

方法详解¶

整体框架¶

ExpSeek 包含三个阶段：(1) 经验库构建——从成功/失败轨迹对中提取结构化经验三元组并按主题组织；(2) 熵自触发机制——通过 logistic 回归和 bootstrap 重采样估计过程步和回答步的熵阈值区间；(3) 步级引导干预——当步级熵超过阈值时，经验模型基于当前上下文检索相关经验并生成定制化指导。经验库在离线阶段一次性构建，熵自触发与步级引导干预则在推理时随 ReAct 交互逐步循环执行。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph LIB["经验库构建（离线）"]
        direction TB
        A["成功/失败轨迹对"] --> B["工具模型剖析失败步<br/>生成三元组：行为·错误·纠正"]
        B --> C["按主题归纳<br/>过程步库 + 回答步库"]
    end
    D["Agent 第 t 步 ReAct 交互"] --> E["熵自触发<br/>算步级平均熵，比对阈值带"]
    E -->|"低于下界：不干预"| D
    E -->|"区间内按概率 / 超上界"| G["步级引导干预<br/>经验模型检索 top-3 主题"]
    C --> G
    G --> H["现场生成定制指导<br/>注入观测/推理后"]
    H --> D

关键设计¶

1. 经验库构建：把失败轨迹蒸成可复用的三元组

经验要能被复用，就不能是一堆原始日志，而要提炼成结构化、可检索的引导。ExpSeek 对训练集每个查询采样 \(k\) 条轨迹，配成成功/失败对 \((\tau^+, \tau^-)\)，再由工具模型逐步剖析失败轨迹，为每个出错步骤生成一个经验三元组：行为描述（Behavior）说当时做了什么、错误分析（Mistake）说错在哪、纠正方向（Guidance）只给方向不直接给答案。这套三元组刻意模仿人类从错误中学习的方式，让 agent 在遇到类似情形时知道"该往哪拐"而非被喂标准答案。最后通过迭代批处理为三元组归纳主题标签，按主题组织成过程步经验库 \(\mathcal{E}_p\) 和回答步经验库 \(\mathcal{E}_a\)——分库是因为这两类步骤的熵分布特征本就不同，主题组织则让后续检索更高效。

2. 熵自触发机制：用模型自己的"困惑"决定何时干预

干预时机是这套框架的核心难题：太频繁增加推理负担，太稀疏又错过关键窗口，而外挂奖励模型既贵又笨重。ExpSeek 的洞察是 LLM 的步级熵本身就是现成的"困惑"指示器——它先算每步的平均 token 熵 \(\bar{H}_t = \frac{1}{|R_t|} \sum_{x \in R_t} H(x)\)，对过程步和回答步分别拟合 logistic 回归 \(P(y_t=0|\bar{H}_t) = 1/(1+e^{-(w \cdot \bar{H}_t + b)})\)，再用 1000 次 bootstrap 重采样估出 95% 置信区间 \([\theta_{lower}, \theta_{upper}]\) 当阈值带。推理时低于下界不干预、高于上界必干预、落在区间内按线性概率决定，这种概率化处理避开了硬阈值的脆弱。KS 检验佐证了这一信号确实可分：正确/错误步骤的熵分布在过程步上 KS=0.1998、回答步上 KS=0.3809，均 p<0.001。

3. 步级引导干预：按当前语境现场生成定制指导

被触发之后，关键是给出贴合当前状态的指导而非套用通用模板。当熵触发干预且上一步未干预时，经验模型 \(\mathcal{M}_e\) 读入当前步的历史上下文 \(h_t\)，从对应经验库里挑出 3 个最相关主题，再基于这些主题下的三元组为眼前场景动态生成指导 \(e_t\)：过程步的指导追加在环境观测之后引导下一步探索，回答步的指导则让 agent 继续推理或修正答案。生成式指导明显优于检索式（实验里检索嵌入掉了很多），因为生成能把通用经验调适到具体语境上。而"上一步未干预才允许干预"的一步冷却期，则从机制上挡住了连续过度干预。

损失函数 / 训练策略¶

ExpSeek 为推理时框架，不涉及训练。经验库构建使用 Qwen3-235B-A22B-Instruct 作为工具模型。Agent 使用 Qwen3-8B/32B，采样温度 1.0，top-p 0.95，最大 30 步 ReAct 交互。

实验关键数据¶

主实验¶

四个 Web Agent 基准上的准确率（%）

方法	WebWalkerQA	GAIA	Seal	xbench	Avg.
Qwen3-8B
No Experience	38.47	29.13	23.23	25.60	32.23
Training-Free GRPO	40.62	29.32	25.59	26.00	33.79
ReasoningBank+	40.78	32.04	26.38	28.00	34.80
ExpSeek	48.25	36.89	30.16	37.20	41.50
Qwen3-32B
No Experience	45.01	36.50	27.80	27.40	37.79
ReasoningBank+	45.60	33.01	29.84	36.33	39.33
ExpSeek	51.09	43.88	32.76	42.00	45.32

消融实验¶

变体 (8B)	GAIA	xbench
仅过程步指导	33.01 (+3.9)	28.40 (+2.8)
仅回答步指导	30.29 (+1.2)	34.80 (+9.2)
完整 ExpSeek	36.89 (+7.8)	37.20 (+11.6)

触发与指导方式对比 (8B, GAIA)

触发方式	指导方式	Acc.	平均步数	平均时间
规则触发	经验模型	38.81	9.52	329.71s
Claude-4	经验模型	39.47	8.55	370.82s
熵触发	经验模型	36.89	5.75	127.57s
熵触发	检索嵌入	30.92	5.54	110.61s

关键发现¶

熵触发的效率优势显著：步数仅为规则触发的 60%，时间仅为 39%，同时保持相当的准确率
4B 经验模型即可有效指导 32B Agent（GAIA +5.2%, xbench +9.7%），验证了弱模型引导强模型的可行性
经验指导使过程步熵增加（促进探索），回答步熵降低（增强收敛），形成"发散-收敛"的行为模式
即使每个主题仅保留 1 条经验，性能仍然稳健，说明经验模型能从少量种子经验中泛化

亮点与洞察¶

将经验干预从被动的全局注入转变为主动的步级寻求，是范式层面的创新
利用模型自身的熵信号作为触发器，无需额外奖励模型，既优雅又实用
"发散-收敛"的熵行为模式提供了对 ExpSeek 工作机制的直觉解释
跨任务泛化能力强：仅用 WebWalkerQA 25% 数据构建经验库，在三个 OOD 基准上仍显著有效

局限与展望¶

阈值估计依赖训练集和工具模型对步骤质量的评估，更精确的策略有待探索
尚未验证在非 Web 领域和更多工具集上的效果
可探索 ExpSeek 作为 Agentic RL 的 rollout 增强技术，提升收敛速度和采样质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从被动注入到主动寻求的范式转换，熵自触发机制设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 四个基准、两个模型规模、丰富的消融和分析（效率、缩放律、迁移性、内部机制）
写作质量: ⭐⭐⭐⭐ 结构清晰，动机充分，实验分析深入