A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents¶
会议: ICML 2026
arXiv: 2602.08964
代码: https://github.com/SPAR-Telos/interp;https://github.com/SPAR-Telos/reveng
领域: 可解释性 / Agent 评估 / AI 安全
关键词: 目标导向性、LLM Agent、表示探针、认知地图、网格世界
一句话总结¶
这篇论文提出一种把行为评估和内部表示探针结合起来的 LLM Agent 目标导向性评估框架,并在 GPT-OSS-20B 的网格导航任务中发现:行为上它大体按目标行动,内部也编码了粗粒度空间地图和短期计划,但会被无功能的目标状物体诱导。
研究背景与动机¶
领域现状:判断一个 agent 是否“有目标”,最直接的做法通常是看它的行为是否像在优化某个目标。例如在导航任务里,可以把 agent 的动作与到达目标格子的最优策略相比,若动作经常落在最优动作集合里,就说它表现出目标导向性。
现有痛点:只看行为很容易把能力问题和目标问题混在一起。一个 agent 走错路,可能是因为它没有追求目标,也可能只是因为它把地图理解错了;反过来,一个在评测中表现很好的系统,也可能只是为了通过评测而输出对齐行为,内部并没有我们以为的目标。
核心矛盾:目标导向性不是单纯的外部轨迹属性,而是“内部信念、计划和动作选择”共同形成的属性。若评估者只拿真实环境里的最优策略当标尺,就无法区分“没有目标”和“基于错误信念仍在朝目标行动”。
本文目标:作者希望建立一个更可诊断的评估流程:先用受控环境测试 agent 的外显行为,再从模型激活里解码环境状态、目标位置和未来动作计划,最后比较 agent 的动作是否与其内部表征一致。
切入角度:论文选择完全可观测的 2D 网格世界作为实验场。这个环境简单到可以精确求最优策略、控制难度和设计干预,同时又足以考察导航、子目标、干扰物和多步计划。
核心 idea:不要只问“动作是否符合真实最优策略”,还要问“动作是否符合模型自己编码出来的世界模型和计划”。
方法详解¶
整体框架¶
论文使用 GPT-OSS-20B 作为 LLM Agent,让它在文本表示的 MiniGrid 网格中逐步选择 Up、Down、Left、Right 到达目标格。整体流程分成两条互补的线:第一条是行为线,构造不同大小、不同障碍密度和不同目标结构的网格,把 agent 的动作与 A* 求出的最优策略比较;第二条是表示线,在模型推理前后抽取 residual stream 激活,用探针解码它对地图、目标位置和后续动作序列的内部表示。
行为评估先覆盖基础导航。作者生成大小为 \(7,9,11,13,15\) 的网格,并设置 \(0.0\) 到 \(1.0\) 的障碍密度,每个 size-density 组合生成 10 个随机网格,每个网格采样 10 条轨迹。轨迹长度上限设为最优路径长度的 \(1.5\) 倍,用来避免模型在局部来回震荡时无限拖长评估。
随后作者加入两类更有诊断性的环境。第一类是 iso-difficulty transformation,包括反射、旋转、起终点交换和转置;这些变换保留网格大小、障碍密度和最优路径长度,用来检查 agent 是否只是偏好某些视觉/文本排列。第二类是多目标结构,包括必须先拿钥匙开门的 KeyDoorEnv、钥匙无功能的 KeyNoDoorEnv,以及有两条路径且其中一条带无功能钥匙的 2PathKeyEnv。
表示评估则围绕三个问题展开:模型激活里是否能解码出“认知地图”;如果 agent 的动作偏离真实最优策略,它是否仍然符合这张解码地图上的最优策略;推理前后激活里是否能读出多步动作计划。这样,论文把目标导向性从一个单一行为分数扩展为“外部表现 + 内部信念 + 计划一致性”的组合证据。
关键设计¶
-
难度可控的行为评估:
- 功能:在网格大小、障碍密度和目标距离上系统改变任务难度,并用最优策略度量 agent 的动作质量。
- 核心思路:作者用 A* 和曼哈顿距离得到参考最优策略,把 per-action accuracy 定义为每一步动作是否属于当前状态的最优动作集合,同时统计策略熵和与最优策略的 Jensen-Shannon divergence。若模型真的在追求目标,这些指标应随难度增加而连续退化,而不是无规律波动。
- 设计动机:这种设置把“能力随难度下降”显式建模出来,避免把困难网格上的失败简单解释为缺少目标导向性。
-
受控扰动与多目标结构:
- 功能:检验 agent 是否对任务无关的环境排列保持稳定,以及是否能区分工具性子目标和语义上像目标的干扰物。
- 核心思路:iso-difficulty 变换保持最优路径长度不变,因此若性能显著变化,就说明模型受到了排列偏置影响;KeyDoorEnv 要求拿钥匙开门,KeyNoDoorEnv 和 2PathKeyEnv 则把钥匙变成无功能但有强语义诱导的物体。
- 设计动机:目标导向行为不只是“能到终点”,还应该在等价环境中稳定,并能把真正有用的子目标和训练语料里常见的游戏语义区分开。
-
认知地图与计划探针:
- 功能:从 GPT-OSS-20B 的内部激活中解码环境状态、目标位置和多步动作计划,并用它们解释行为偏差。
- 核心思路:认知地图探针把激活与查询坐标 \((x,y)\) 拼接,预测该格是 agent、goal、wall、open 还是 padding;计划探针则用 3 个 token 激活经过线性瓶颈和 Transformer decoder,一次性预测长度为 10 的动作序列,而不是自回归生成。
- 设计动机:坐标条件探针能判断模型是否保存了空间结构;一次性计划解码则减少探针自己“补计划”的可能性,使高于随机的 prefix accuracy 更能说明基础模型激活里已有计划信息。
损失函数 / 训练策略¶
行为部分不训练 agent,只在固定提示下采样轨迹并估计经验动作分布。表示部分训练轻量探针:认知地图使用线性探针和两层 MLP 探针,类别不平衡通过上采样处理;计划解码器先把 3 个激活向量投影到 1024 维并 LayerNorm,再用 1、2、4 层 Transformer decoder 对每个未来步的查询向量做 cross-attention,最后用 softmax 预测动作。探针容量被当作控制变量:如果更大的探针总是更好,说明可能是探针在额外求解导航;实际结果呈非单调,支持“激活中已有可读出的计划信息”。
实验关键数据¶
主实验¶
| 实验设置 | 样本 / 条件 | 关键指标 | 主要结论 |
|---|---|---|---|
| 基础网格导航 | 5 种大小 × 6 种障碍密度 × 每格 10 条轨迹 | 动作准确率随大小、障碍密度、目标距离下降;JSD 和策略熵上升 | 行为退化与任务难度一致,说明失败主要受能力和环境复杂度调制 |
| Iso-difficulty 变换 | 反射、旋转、起终点交换、转置;每类 300 对 | Wilcoxon 检验均无显著差异;如反射 \(p=0.582\),转置 \(p=0.949\) | 模型没有明显依赖某种特定网格排列 |
| KeyDoorEnv | 100 条轨迹 | 成功率 100.0%,动作准确率 \(98.7\pm3.2\) | 能把钥匙当作必要的工具性子目标 |
| KeyNoDoorEnv | 100 条轨迹 | 成功率 98.9%,但钥匙拾取率 17.0%,非最优动作中 75.0% 朝向钥匙 | 无功能钥匙会形成语义干扰 |
| 2PathKeyEnv | 100 对有/无钥匙轨迹 | 有钥匙成功率 71.4%,无钥匙 75.5%;有钥匙路径拾取率 67.3% | 即使钥匙不必要,也会系统性改变路径选择 |
消融实验¶
| 分析项 | 关键指标 | 说明 |
|---|---|---|
| 认知地图解码 | MLP cell accuracy 约 70%,在 \(11\times11\) 网格达 75.7%;同设置线性探针 39.1% | 环境状态以非线性、粗粒度方式编码在激活中 |
| 推理前后表征变化 | 认知地图准确率从推理前约 75% 降到推理后约 60% | 推理后空间地图信息变弱,表示更偏向下一步动作选择 |
| 解码地图上的策略一致性 | 对 decoded map 的动作准确率平均 82.5%;Recovery 平均 57.9%,范围 37.4%--88.4% | 很多真实环境中的错误动作,在模型自己的粗糙地图上仍像是合理行动 |
| 多步计划解码 | 2 层 decoder 推理后 \(N=1\) prefix accuracy 66.49%,推理前为 41.5%;长前缀上推理前 \(N=5/6/7\) 为 7.3%/5.0%/3.8% | 推理后更利于读出下一步动作,推理前保留更多长程轨迹结构 |
关键发现¶
- 行为指标并不直接等价于目标导向性。模型在大网格、高障碍密度和远距离目标上更容易偏离最优策略,但这些偏离有一部分能被其内部地图误差解释。
- “钥匙”这种语义强的目标状物体是最有意思的失败点。它在 KeyDoorEnv 中是必要子目标,模型处理得很好;但一旦钥匙没有功能,模型仍会被吸引,说明预训练语义和当前任务目标之间会竞争。
- 推理过程像是在重新组织表示:推理前更像保存空间地图和长程计划,推理后更像压缩成即将输出的动作。这解释了为什么 action log-probability 在推理后不适合作为不确定性代理。
亮点与洞察¶
- 论文把目标导向性从“行为像不像最优”推进到“行为是否和内部信念一致”。这个视角很重要,因为安全评估里真正关心的往往是系统内部在追求什么,而不只是某个 benchmark 上的外显得分。
- 多目标网格设计很小,但诊断力很强。钥匙既可以是真子目标,也可以是纯干扰物,因此能把工具性目标追踪和语义诱导偏差分开看。
- 计划探针没有自回归地一步步生成,而是一次性预测整条前缀。这个设计降低了探针自己做规划的嫌疑,使“能解码出多步计划”更像是模型激活本身的性质。
局限与展望¶
- 环境完全可观测且非常小,离真实 LLM Agent 的网页、代码、工具调用等复杂场景还有明显距离。真实任务中的记忆、部分可观测、长期依赖和工具反馈会让目标归因更难。
- 探针结果主要是相关证据。作者尝试 activation patching,但只有跨所有层、特定 token 位置的 patching 才能改变动作分布,单层干预效果弱,因此因果链条还没有完全建立。
- 认知地图探针会把 agent 和 goal 解码成一片邻域而非单点,说明内部表示是模糊的。未来可以用概率地图、粒子式状态估计或 alternative grid encoding 来更自然地建模这种不确定性。
- 当前只评估 GPT-OSS-20B。若要支撑通用结论,还需要跨模型规模、训练方式、推理格式和 agent scaffold 重复实验。
相关工作与启发¶
- vs 行为式 goal-directedness 度量: 既有工作常把动作轨迹与候选目标或效用函数匹配,本文保留这种外部比较,但进一步要求查看内部世界模型,优势是能解释“看似错误但主观合理”的动作。
- vs 逆强化学习: IRL 试图从行为反推出奖励函数,常依赖行为模型和最优性假设;本文不直接推奖励,而是从激活中读取状态和计划,更适合白盒 LLM Agent 分析。
- vs 传统表示探针: 许多探针工作只报告某个属性能否被读出,本文把读出的地图和计划重新接回行为评估,形成“表示是否能解释动作”的闭环。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把行为评估、认知地图探针和计划解码组合到目标导向性评估中,问题定义很有价值。
- 实验充分度: ⭐⭐⭐⭐☆ 网格世界控制严谨、分析维度丰富,但模型和任务范围仍偏窄。
- 写作质量: ⭐⭐⭐⭐☆ 主线清楚,行为到表示的过渡自然;少数图表数字主要在附录,阅读时需要来回对照。
- 价值: ⭐⭐⭐⭐⭐ 对 LLM Agent 安全评估和机制化目标归因很有启发,尤其适合发展为更复杂 agent benchmark。