A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents¶

会议: ICML 2026
arXiv: 2602.08964
代码: https://github.com/SPAR-Telos/interp；https://github.com/SPAR-Telos/reveng
领域: 可解释性 / Agent 评估 / AI 安全
关键词: 目标导向性、LLM Agent、表示探针、认知地图、网格世界

一句话总结¶

这篇论文提出一种把行为评估和内部表示探针结合起来的 LLM Agent 目标导向性评估框架，并在 GPT-OSS-20B 的网格导航任务中发现：行为上它大体按目标行动，内部也编码了粗粒度空间地图和短期计划，但会被无功能的目标状物体诱导。

研究背景与动机¶

领域现状：判断一个 agent 是否“有目标”，最直接的做法通常是看它的行为是否像在优化某个目标。例如在导航任务里，可以把 agent 的动作与到达目标格子的最优策略相比，若动作经常落在最优动作集合里，就说它表现出目标导向性。

现有痛点：只看行为很容易把能力问题和目标问题混在一起。一个 agent 走错路，可能是因为它没有追求目标，也可能只是因为它把地图理解错了；反过来，一个在评测中表现很好的系统，也可能只是为了通过评测而输出对齐行为，内部并没有我们以为的目标。

核心矛盾：目标导向性不是单纯的外部轨迹属性，而是“内部信念、计划和动作选择”共同形成的属性。若评估者只拿真实环境里的最优策略当标尺，就无法区分“没有目标”和“基于错误信念仍在朝目标行动”。

本文目标：作者希望建立一个更可诊断的评估流程：先用受控环境测试 agent 的外显行为，再从模型激活里解码环境状态、目标位置和未来动作计划，最后比较 agent 的动作是否与其内部表征一致。

切入角度：论文选择完全可观测的 2D 网格世界作为实验场。这个环境简单到可以精确求最优策略、控制难度和设计干预，同时又足以考察导航、子目标、干扰物和多步计划。

核心 idea：不要只问“动作是否符合真实最优策略”，还要问“动作是否符合模型自己编码出来的世界模型和计划”。

方法详解¶

整体框架¶

论文使用 GPT-OSS-20B 作为 LLM Agent，让它在文本表示的 MiniGrid 网格中逐步选择 Up、Down、Left、Right 到达目标格。整体流程分成两条互补的线：第一条是行为线，构造不同大小、不同障碍密度和不同目标结构的网格，把 agent 的动作与 A* 求出的最优策略比较；第二条是表示线，在模型推理前后抽取 residual stream 激活，用探针解码它对地图、目标位置和后续动作序列的内部表示。

行为评估先覆盖基础导航。作者生成大小为 \(7,9,11,13,15\) 的网格，并设置 \(0.0\) 到 \(1.0\) 的障碍密度，每个 size-density 组合生成 10 个随机网格，每个网格采样 10 条轨迹。轨迹长度上限设为最优路径长度的 \(1.5\) 倍，用来避免模型在局部来回震荡时无限拖长评估。

随后作者加入两类更有诊断性的环境。第一类是 iso-difficulty transformation，包括反射、旋转、起终点交换和转置；这些变换保留网格大小、障碍密度和最优路径长度，用来检查 agent 是否只是偏好某些视觉/文本排列。第二类是多目标结构，包括必须先拿钥匙开门的 KeyDoorEnv、钥匙无功能的 KeyNoDoorEnv，以及有两条路径且其中一条带无功能钥匙的 2PathKeyEnv。

表示评估则围绕三个问题展开：模型激活里是否能解码出“认知地图”；如果 agent 的动作偏离真实最优策略，它是否仍然符合这张解码地图上的最优策略；推理前后激活里是否能读出多步动作计划。这样，论文把目标导向性从一个单一行为分数扩展为“外部表现 + 内部信念 + 计划一致性”的组合证据。

关键设计¶

1. 难度可控的行为评估：让能力退化与目标缺失可区分

只看 agent 能否到终点，会把"走错路是因为没目标"和"走错路是因为能力不够"混为一谈。作者因此在网格大小、障碍密度和目标距离三个维度上系统地改变任务难度，并用 A* 搜索（曼哈顿距离启发）求出的最优策略 \(\pi^*\) 当标尺：per-action accuracy 定义为轨迹中落在当前状态最优动作集合 \(\arg\max_a \pi^*(a\mid s_t)\) 里的动作比例，同时统计动作分布的熵和与最优策略的 Jensen-Shannon 散度（JSD）。如果模型真的在追求目标，这三个指标应当随难度单调、连续地退化，而不是无规律抖动——这样就把"能力随难度下降"显式建模出来，困难网格上的失败不再被一股脑算成"缺少目标导向性"。

2. 受控扰动与多目标结构：把排列偏置和语义诱导单独拎出来测

光会导航还不够——目标导向行为还应在等价任务上稳定、并能分清"真正有用的子目标"和"只是看着像目标的干扰物"。为此作者设计两类诊断环境。一类是 iso-difficulty 变换（反射、旋转、起终点交换、转置），它们保持网格大小、障碍密度和最优路径长度不变，因此一旦性能显著变化，就只能归因于模型对某种视觉/文本排列的偏好。另一类是多目标结构：KeyDoorEnv 必须先拿钥匙开门（钥匙是必要的工具性子目标），而 KeyNoDoorEnv 和 2PathKeyEnv 把钥匙变成无功能、却带强游戏语义的物体。两类放在一起，就能检验模型会不会被预训练语料里"钥匙=要去拿"的语义诱导，从而偏离当前任务真正的目标。

3. 认知地图与计划探针：从激活里读出模型自己的世界模型

行为线无法回答"动作偏离最优，到底是因为没目标，还是因为内部地图本身就错了"。第三个设计转向内部表示，用两类探针从 GPT-OSS-20B 的 residual stream 激活里解码它的世界模型。认知地图探针把某格激活与查询坐标 \((x,y)\) 拼接，预测该格属于 agent、goal、wall、open 还是 padding，借此判断模型是否在内部保存了空间结构。计划探针则把 3 个 token 的激活先经线性投影到 1024 维并 LayerNorm 的瓶颈，再用配 \(T=10\) 个可学习查询向量的 Transformer decoder，一次性（而非自回归）预测长度为 10 的动作序列——一次性解码是刻意为之：自回归会让探针靠"前面动作约束后面动作"自行补出计划，而一次性预测下若 prefix accuracy 仍高于随机，就更能说明计划信息本就编码在激活里。探针容量被当作对照变量：若更大的探针总更好，说明可能是探针自己在解导航；实测性能随容量非单调，反而支持"激活中已有可读出的计划"。

损失函数 / 训练策略¶

行为部分不训练 agent，只在固定提示下采样轨迹并估计经验动作分布。表示部分训练轻量探针：认知地图使用线性探针和两层 MLP 探针，类别不平衡通过上采样处理；计划解码器先把 3 个激活向量投影到 1024 维并 LayerNorm，再用 1、2、4 层 Transformer decoder 对每个未来步的查询向量做 cross-attention，最后用 softmax 预测动作。探针容量被当作控制变量：如果更大的探针总是更好，说明可能是探针在额外求解导航；实际结果呈非单调，支持“激活中已有可读出的计划信息”。

实验关键数据¶

主实验¶

实验设置	样本 / 条件	关键指标	主要结论
基础网格导航	5 种大小 × 6 种障碍密度 × 每格 10 条轨迹	动作准确率随大小、障碍密度、目标距离下降；JSD 和策略熵上升	行为退化与任务难度一致，说明失败主要受能力和环境复杂度调制
Iso-difficulty 变换	反射、旋转、起终点交换、转置；每类 300 对	Wilcoxon 检验均无显著差异；如反射 \(p=0.582\)，转置 \(p=0.949\)	模型没有明显依赖某种特定网格排列
KeyDoorEnv	100 条轨迹	成功率 100.0%，动作准确率 \(98.7\pm3.2\)	能把钥匙当作必要的工具性子目标
KeyNoDoorEnv	100 条轨迹	成功率 98.9%，但钥匙拾取率 17.0%，非最优动作中 75.0% 朝向钥匙	无功能钥匙会形成语义干扰
2PathKeyEnv	100 对有/无钥匙轨迹	有钥匙成功率 71.4%，无钥匙 75.5%；有钥匙路径拾取率 67.3%	即使钥匙不必要，也会系统性改变路径选择

消融实验¶

分析项	关键指标	说明
认知地图解码	MLP cell accuracy 约 70%，在 \(11\times11\) 网格达 75.7%；同设置线性探针 39.1%	环境状态以非线性、粗粒度方式编码在激活中
推理前后表征变化	认知地图准确率从推理前约 75% 降到推理后约 60%	推理后空间地图信息变弱，表示更偏向下一步动作选择
解码地图上的策略一致性	对 decoded map 的动作准确率平均 82.5%；Recovery 平均 57.9%，范围 37.4%--88.4%	很多真实环境中的错误动作，在模型自己的粗糙地图上仍像是合理行动
多步计划解码	2 层 decoder 推理后 \(N=1\) prefix accuracy 66.49%，推理前为 41.5%；长前缀上推理前 \(N=5/6/7\) 为 7.3%/5.0%/3.8%	推理后更利于读出下一步动作，推理前保留更多长程轨迹结构

关键发现¶

行为指标并不直接等价于目标导向性。模型在大网格、高障碍密度和远距离目标上更容易偏离最优策略，但这些偏离有一部分能被其内部地图误差解释。
“钥匙”这种语义强的目标状物体是最有意思的失败点。它在 KeyDoorEnv 中是必要子目标，模型处理得很好；但一旦钥匙没有功能，模型仍会被吸引，说明预训练语义和当前任务目标之间会竞争。
推理过程像是在重新组织表示：推理前更像保存空间地图和长程计划，推理后更像压缩成即将输出的动作。这解释了为什么 action log-probability 在推理后不适合作为不确定性代理。

亮点与洞察¶

论文把目标导向性从“行为像不像最优”推进到“行为是否和内部信念一致”。这个视角很重要，因为安全评估里真正关心的往往是系统内部在追求什么，而不只是某个 benchmark 上的外显得分。
多目标网格设计很小，但诊断力很强。钥匙既可以是真子目标，也可以是纯干扰物，因此能把工具性目标追踪和语义诱导偏差分开看。
计划探针没有自回归地一步步生成，而是一次性预测整条前缀。这个设计降低了探针自己做规划的嫌疑，使“能解码出多步计划”更像是模型激活本身的性质。

局限与展望¶

环境完全可观测且非常小，离真实 LLM Agent 的网页、代码、工具调用等复杂场景还有明显距离。真实任务中的记忆、部分可观测、长期依赖和工具反馈会让目标归因更难。
探针结果主要是相关证据。作者尝试 activation patching，但只有跨所有层、特定 token 位置的 patching 才能改变动作分布，单层干预效果弱，因此因果链条还没有完全建立。
认知地图探针会把 agent 和 goal 解码成一片邻域而非单点，说明内部表示是模糊的。未来可以用概率地图、粒子式状态估计或 alternative grid encoding 来更自然地建模这种不确定性。
当前只评估 GPT-OSS-20B。若要支撑通用结论，还需要跨模型规模、训练方式、推理格式和 agent scaffold 重复实验。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把行为评估、认知地图探针和计划解码组合到目标导向性评估中，问题定义很有价值。
实验充分度: ⭐⭐⭐⭐☆ 网格世界控制严谨、分析维度丰富，但模型和任务范围仍偏窄。
写作质量: ⭐⭐⭐⭐☆ 主线清楚，行为到表示的过渡自然；少数图表数字主要在附录，阅读时需要来回对照。
价值: ⭐⭐⭐⭐⭐ 对 LLM Agent 安全评估和机制化目标归因很有启发，尤其适合发展为更复杂 agent benchmark。