Time, Identity and Consciousness in Language Model Agents¶

会议: AAAI 2026 Spring Symposium
arXiv: 2603.09043
代码: 有
领域: LLM Agent / AI安全
关键词: 机器意识, 身份评估, 语言模型智能体, 时间一致性, Stack Theory

一句话总结¶

本文将Stack Theory的时间间隙概念应用于LLM智能体评估，提出区分"说得像一个稳定自我"和"组织得像一个稳定自我"的保守评估工具包，通过持久性得分和身份形态空间揭示不同scaffold结构的身份trade-off。

研究背景与动机¶

领域现状：机器意识评估主要通过观察行为来判断——对于语言模型来说这意味着语言和工具使用。现有评估方法允许智能体"说正确的话"（如声称自己有自我意识）即使底层约束并未同时存在。

现有痛点：（1）行为层面的评估可能被智能体的语言能力蒙蔽——模型可以生成关于自身的正确陈述而无需真正具备所讨论的属性；（2）关键成分在评估窗口内分散出现（ingredient-wise occurrence）与在某个决策步骤同时共现（co-instantiation）是不同的，现有方法未区分这两者。

核心矛盾："说得像"和"是"之间的鸿沟——语言模型可以完美模仿关于身份和意识的话语，但这不等于它在组织层面具有这些属性。

本文目标：开发一个保守的身份评估工具包，能区分模仿行为和组织层面的身份一致性。

切入角度：利用Stack Theory的"时间间隙"概念将评估scaffold化——区分成分在时间窗口内"逐一出现"和"同时共现于单个决策步"。

核心 idea：实例化Stack Theory的Arpeggio和Chord公设来评估"grounded identity statements"，生成两个持久性得分；将常见scaffold映射到身份形态空间（identity morphospace）中。

方法详解¶

整体框架¶

对LLM智能体的行为轨迹进行仪器化记录。从scaffold trace中提取身份相关的状态信息。用Arpeggio和Chord两个公设分别计算持久性得分。将多个scaffold结构映射到身份形态空间中，揭示不同设计在身份维度上的trade-off。

关键设计¶

Arpeggio vs Chord持久性得分:
- 功能：量化区分"成分逐一出现"和"成分同时共现"
- 核心思路：Arpeggio得分衡量身份相关成分在时间窗口内是否依次出现（弱形式——至少说明智能体接触过必要信息）；Chord得分衡量这些成分是否在同一个决策步骤中同时对行为产生影响（强形式——说明智能体在决策时确实同时考虑了所有相关因素）
- 设计动机：仅出现过≠同时参与决策。一个智能体可能在不同步骤分别处理身份的各个方面，但从未将它们整合到一个决策中
五个操作性身份指标:
- 功能：将抽象的身份概念操作化为可计算的指标
- 核心思路：定义五个与身份持久性相关的具体指标，如时间一致性（对同一身份问题在不同时间点的回答一致性）、上下文稳健性（在不同对话上下文中的身份表达稳定性）等。这些指标可以从仪器化的scaffold trace中直接计算
- 设计动机：需要将哲学层面的身份概念转化为可实际测量的技术指标
身份形态空间（Identity Morphospace）:
- 功能：可视化不同scaffold设计在身份维度上的trade-off
- 核心思路：将Arpeggio/Chord得分和五个身份指标作为坐标轴，将各种常见的LLM scaffold（如ReAct、Plan-then-Execute、Memory-augmented等）映射为形态空间中的点。不同scaffold在身份维度上的优劣和trade-off一目了然
- 设计动机：为LLM智能体设计者提供了一个选择scaffold时的身份维度参考

损失函数 / 训练策略¶

本文是评估框架而非训练方法。所有指标都是基于规则从仪器化trace中计算的。

实验关键数据¶

主实验¶

Scaffold类型	Arpeggio得分	Chord得分	说明
Simple prompt	低	低	几乎无身份结构
ReAct	中	低	成分出现但不共现
Memory-augmented	高	中	记忆帮助成分积累
Plan-then-Execute	中	中	规划提供一些整合

消融实验¶

特性	对Chord的影响	说明
长期记忆	增加Arpeggio	帮助成分持续出现
反思机制	增加Chord	帮助整合多个成分
System prompt固化	增加表面一致性	但不提升真正的Chord

关键发现¶

大多数现有scaffold在Arpeggio得分上尚可但Chord得分很低，说明身份成分虽然出现但很少真正在同一决策步骤中整合
Memory-augmented scaffold在身份持久性上最有优势，但仍远非"组织得像一个稳定自我"
简单的system prompt "我是XXX"可以提升表面的身份一致性但不改善底层的Chord得分

亮点与洞察¶

哲学 → 技术的转化：将Stack Theory的哲学公设操作化为可计算的指标，在哲学和工程之间建立了桥梁
Arpeggio vs Chord的区分：这个核心区分非常有洞察力——"逐一出现"vs"同时共现"精准地刻画了"模仿"和"具有"之间的差异
形态空间的可视化工具：为scaffold设计提供了新的评估维度，帮助理解设计选择的后果

局限与展望¶

Stack Theory本身是一个较新的意识理论框架，其哲学基础尚有争议
身份评估的ground truth难以确定——什么算"真正的"身份持久性？
实验规模有限，仅测试了少数scaffold和模型
仪器化记录可能改变智能体自身的行为

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将意识理论操作化为LLM评估工具非常新颖
实验充分度: ⭐⭐⭐ 概念验证为主，实验规模有限
写作质量: ⭐⭐⭐⭐ 概念解释清晰但涉及较多哲学术语
价值: ⭐⭐⭐⭐ 为AI安全中的身份/意识评估开辟了新方向