跳转至

Modeling Others' Minds as Code

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vHXo7xIer6
代码: 作者承诺开源(baseline / 数据集 / 人类评测)
领域: LLM Agent / 心智理论 / 行为预测
关键词: Theory of Mind, 程序合成, 序贯蒙特卡洛, 行为建模, 具身智能体

一句话总结

把"预测他人下一步动作"重新表述为程序合成问题——用 LLM 生成一批解释观测轨迹的 Python "行为脚本",再用序贯蒙特卡洛做贝叶斯推理筛选最可能的程序,从而高效、可解释、可泛化地预测人类与 AI 智能体的行为。

研究背景与动机

  • 领域现状: 预测他人行为(心智理论, Theory of Mind)是社会智能体的核心能力。主流两条路线各有死穴:行为克隆(BC)/逆强化学习(IRL)直接拟合"每个状态做什么",数据饥渴且脆弱,易在特定环境过拟合;贝叶斯逆向规划(BIP)等概率目标推断方法样本高效,但要在线枚举目标/信念,计算昂贵且需为每个新领域手工指定先验和假设空间
  • 现有痛点: 一边是"数据密集 + 脆弱",一边是"计算密集 + 手工构造",二者形成一个难以两全的 trade-off。LLM 类神经符号方法(BIP+LLM)虽提升鲁棒性,但每次预测动辄生成上千 token,难以快速推理。
  • 核心矛盾: 真实社会交互里,人类常常不去推断他人深层的目标/信念,而是把对方看作在"照脚本办事"——"红灯停绿灯行""走斑马线"这种被社会约定塑造、低认知负荷的常规套路(routine/script)。但目前没有计算模型能让机器以这种"脚本化"方式表征和推理他人。
  • 本文目标: 用一种既样本高效、又无需手工构造、还能跨环境复用的表征来建模他人行为。
  • 核心 idea: 把行为表征为代码而非"基于信念/欲望的策略"。日常行为本质是最小化认知负荷的可预测脚本,天然适合用程序(如有限状态机)表达;于是用 LLM 当代码合成器生成候选行为程序,用贝叶斯推理在程序空间上量化不确定性——作者称之为 ROTE(Representing Others' Trajectories as Executables)

方法详解

整体框架

ROTE 把计算受限的智能体形式化为带内部状态的程序(可看作有限状态机 \(\lambda=(S,s_0,\pi,u)\)),目标是在程序空间 \(\Lambda\) 中搜索既能复现观测动作、又最短的程序来解释历史 \(h_{0:t-1}\)。流程分两阶段:先用 LLM 把感知输入(坐标/场景图)转成自然语言路径描述并合成一批候选 Python 程序,得到分布 \(\Delta(\Lambda)\);再用序贯蒙特卡洛(SMC)做贝叶斯推理更新各程序的后验权重,最后加权组合 top-\(k\) 程序执行得到下一步动作预测。

flowchart LR
    A[观测轨迹 h_0:t-1<br/>坐标/场景图] --> B[LLM: 可选转成<br/>自然语言路径描述]
    B --> C[LLM 代码合成<br/>生成多个候选 Python 程序 Δ&#40;Λ&#41;]
    C --> D[贝叶斯推理 SMC<br/>按似然更新后验 p&#40;λ&#124;h&#41;]
    D --> E[取 top-k 程序<br/>从当前观测 o_t 执行]
    E --> F[加权组合预测下一步动作 â_t]
    F -.观测新动作.-> D

关键设计

1. 用 LLM 做"最短程序"合成,把短描述长度当先验: ROTE 不去拟合策略,而是让 LLM 针对观测历史生成多个解释行为的 Python 程序,形成候选分布 \(\Delta(\Lambda)\)。选 Python 是因其可读、图灵完备,能在最坏情况(\(|S|=|O|\))表达任意复杂决策逻辑。关键约束是鼓励程序尽量短:这并非工程偏好,而是源于 Solomonoff 归纳推理理论对奥卡姆剃刀的形式化——最短的、能生成数据的算法应被赋予最高先验,其累积预测误差被真实数据生成过程的 Kolmogorov 复杂度所界定。因此搜索最小程序 \(\arg\min|\hat\lambda|\) 不仅省算力,在泛化上也是理论最优。Prompt 还做两条假设:观测智能体在有限内部状态间做确定性转移、生成代码产出确定性动作——即便真实智能体是概率性、目标驱动的,也让 LLM 先按确定性脚本去拟合,再用噪声模型兜住随机性。

2. 序贯蒙特卡洛贝叶斯推理筛程序: 拿到候选程序分布后,ROTE 按 \(p(\lambda\mid h_{0:t-1})\propto p(h_{0:t-1}\mid\lambda)\,p(\lambda)\) 估计后验。这与逆向规划同源,但区别在于:逆规划要固定一个昂贵的 planner(MCTS/暴搜)再在目标空间上推断,而 ROTE 把所有行为约定与脚本浓缩进单个程序表征 \(\lambda\)。由于 \(\lambda\) 是确定性程序,它对观测 \(o_t\) 给出的预测动作 \(\hat a_t\) 被赋概率 \(1-\epsilon\),其余动作平摊 \(\frac{\epsilon}{|A|-1}\),从而让确定性程序也能输出动作分布 \(\Delta(A)\)。逐对累乘似然 \(p(\lambda\mid h_{0:t-1})\propto\prod_{o_i,a_i\in h_{0:t-1}}p(a_i\mid o_i,\lambda)\cdot p_\text{prior}(\lambda)\),即可直接在"以代码编码的决策过程"空间上做推理。

3. 加权组合 top-k 程序 + 脚本可迁移复用: 用精炼后的后验选出 \(k\) 个最可能程序,各自从当前观测执行,再按权重组合得到近似 \(\lambda^*\approx\hat\lambda=\sum_{\lambda}p(\lambda\mid h_{0:t-1})\cdot\lambda(\cdot\mid o_t)\)。这种动态表征可被分析、修改、跨智能体与跨环境组合:一旦推断出"逆时针巡逻"之类脚本,换到全新但相似的环境时无需重新生成文本、直接复用原程序即可预测,从而绕开 NLLM/AutoToM 每步都要重算文本的高昂成本。如 Figure 2 所示,随着观测累积(捡起玩具→放到椅子上),ROTE 会把权重从"送玩具到卧室"逐步收敛到"把玩具放椅子上"的脚本,并据此快速外推未来动作。

实验关键数据

主实验设置与结果

  • 环境: ① Construction——全可观 2D 网格世界,智能体绕障、搬运彩色方块;② Partnr——大规模具身机器人模拟器(基于 Habitat),部分可观、以自然语言场景图感知、用工具帮人完成家务。
  • 基线: 行为克隆 BC(Construction 用 LSTM,Partnr 用微调 Llama-3.1-8b)、AutoToM(LLM 生成信念/目标假设 + 贝叶斯逆规划的神经符号法)、Naive LLM(NLLM,直接 prompt LLM 预测动作)。ROTE 统一用 DeepSeek-Coder-V2-Lite-Instruct,基线取多个 LLM 中最高分以保证对比公平。
场景 / 协议 ROTE 相对最强基线 与人类对比
Construction 脚本智能体(单步+多步) 显著优于全部基线(单步 NLLM p<0.05,BC/AutoToM p<0.001) 与人类无显著差距(单步 p=0.31,多步 p=0.17)
Construction 人类智能体(单步+多步) 显著优于全部基线(单步 BC p<0.05、NLLM p<0.01、AutoToM p<0.001) 达到人类级别预测精度
Partnr 大规模具身环境 显著优于全部基线(p<0.001)
零样本跨环境泛化 显著优于全部基线(p<0.001)
综合提升幅度 最高 ~50% 准确率提升

关键发现

  • 不是在钻数据规律的空子:ROTE 准确率与"重访状态/重复动作"相关性极低(0.303 / 0.064),说明它学的是底层策略而非简单重复模式,这也解释了它强劲的多步预测能力。
  • 脚本可迁移:在原环境观测 20 步推断出脚本后,直接搬到全新环境预测后续 10 步仍显著领先,且无需重新生成文本
  • 多步推理算力反而省:单步时 ROTE 比 BC/NLLM 慢,但 Figure 6 显示其多步预测的累计计算成本随预测数增长数量级地更省——程序一旦推断出来就反复执行,长时程场景优势明显。
  • 能力边界:在"向上不行就向下""走 L 形"这类重复模式任务上 ROTE 甚至超过人类;但在"顺时针巡逻"和"把粉块搬到角落"等任务上人类仍更强,提示更强推理的 LLM 才能在所有场景达到人类水平。

亮点与洞察

  • 范式转换:把动作理解从"策略拟合/目标推断"重构为程序合成,让"代码即行为表征"这一古老 CS 思想(FSM、产生式系统)在 LLM 时代焕新。
  • 认知科学动机扎实:直接对应"人把他人看作照脚本办事"的最新认知科学发现,给"为什么不必推断深层信念"提供了理论与实证支撑。
  • 效率/精度/可解释三赢:用最短程序先验(Solomonoff)做正则,既泛化好又可读可改可组合,且多步时算力优势随时程拉大。
  • 人类研究闭环:不仅与基线比,还招募真人产生行为并做预测,证明 ROTE 能达人类级,说服力强。

局限与展望

  • 确定性假设:方法核心假设观测智能体在有限状态间做确定性转移,对高度随机或强适应性策略只能靠噪声模型近似。
  • 依赖 LLM 推理力:在巡逻、复杂目标驱动任务上仍逊于人类,瓶颈在底层 LLM 的代码推理能力,需更强模型补齐。
  • 动作空间约束:Partnr 上只预测高层工具动作,且因 AutoToM 需固定动作空间而受限,细粒度连续动作尚未验证。
  • 脚本表达力上界:现实中大量行为并非纯脚本化(情绪、临时偏好等),程序表征对这类"非套路"行为的覆盖度有待考察。

相关工作与启发

  • 动作预测两大阵营:符号派(贝叶斯逆规划 BIP,鲁棒但多智能体下指数复杂)与神经派(BC/IRL,易过拟合且难泛化);reward machine 用 FSM 表征奖励但不用 LLM。ROTE 用 LLM 生成开放式代码,对被建模智能体做更少假设,能覆盖非奖励最大化的日常决策。
  • LLM 做行为建模:枚举式社会推理与 BIP+LLM 神经符号框架提升鲁棒性,但普遍计算昂贵;ROTE 用代码表征避开了枚举每个目标的高成本。
  • 程序归纳:程序合成已在世界建模、动作选择、数学推理上奏效,神经符号 + 概率程序推理让智能体高样本效率掌握 Sokoban/Frostbite 等。区别在于以往多依赖明确奖励或领域约束,而 ROTE 不假设奖励信号或领域结构,直接从观测推断因果决策过程。
  • 启发:把"他人之心"建模为可执行、可组合、可迁移的代码,为可扩展、可适配、可解释的社会智能 AI 提供了一条新路径——尤其适合自动驾驶预测行人、人机协作等需快速适配的真实场景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把心智理论/行为预测重构为 LLM 程序合成 + 贝叶斯推理,认知科学动机与算法理论(Solomonoff 先验)结合得很自洽,是真正的范式级新意。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖网格世界与大规模具身模拟两类环境、三类强基线、单步/多步/泛化多协议,并有真人研究做闭环;略欠的是更细粒度连续动作与更随机行为的验证。
  • 写作质量: ⭐⭐⭐⭐ 动机—方法—实验链路清晰,图 2 的直观示例与理论推导兼顾,公式与代码示例到位。
  • 价值: ⭐⭐⭐⭐ 高效、可解释、可迁移的他人行为预测对人机协作、自动驾驶、社会智能体有直接应用价值,且开源承诺利于复现。