Modeling Others' Minds as Code¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vHXo7xIer6
代码: 作者承诺开源（baseline / 数据集 / 人类评测）
领域: LLM Agent / 心智理论 / 行为预测
关键词: Theory of Mind, 程序合成, 序贯蒙特卡洛, 行为建模, 具身智能体

一句话总结¶

把"预测他人下一步动作"重新表述为程序合成问题——用 LLM 生成一批解释观测轨迹的 Python "行为脚本"，再用序贯蒙特卡洛做贝叶斯推理筛选最可能的程序，从而高效、可解释、可泛化地预测人类与 AI 智能体的行为。

研究背景与动机¶

领域现状: 预测他人行为（心智理论, Theory of Mind）是社会智能体的核心能力。主流两条路线各有死穴：行为克隆（BC）/逆强化学习（IRL）直接拟合"每个状态做什么"，数据饥渴且脆弱，易在特定环境过拟合；贝叶斯逆向规划（BIP）等概率目标推断方法样本高效，但要在线枚举目标/信念，计算昂贵且需为每个新领域手工指定先验和假设空间。
现有痛点: 一边是"数据密集 + 脆弱"，一边是"计算密集 + 手工构造"，二者形成一个难以两全的 trade-off。LLM 类神经符号方法（BIP+LLM）虽提升鲁棒性，但每次预测动辄生成上千 token，难以快速推理。
核心矛盾: 真实社会交互里，人类常常不去推断他人深层的目标/信念，而是把对方看作在"照脚本办事"——"红灯停绿灯行""走斑马线"这种被社会约定塑造、低认知负荷的常规套路（routine/script）。但目前没有计算模型能让机器以这种"脚本化"方式表征和推理他人。
本文目标: 用一种既样本高效、又无需手工构造、还能跨环境复用的表征来建模他人行为。
核心 idea: 把行为表征为代码而非"基于信念/欲望的策略"。日常行为本质是最小化认知负荷的可预测脚本，天然适合用程序（如有限状态机）表达；于是用 LLM 当代码合成器生成候选行为程序，用贝叶斯推理在程序空间上量化不确定性——作者称之为 ROTE（Representing Others' Trajectories as Executables）。

方法详解¶

整体框架¶

ROTE 把计算受限的智能体形式化为带内部状态的程序（可看作有限状态机 \(\lambda=(S,s_0,\pi,u)\)），目标是在程序空间 \(\Lambda\) 中搜索既能复现观测动作、又最短的程序来解释历史 \(h_{0:t-1}\)。流程分两阶段：先用 LLM 把感知输入（坐标/场景图）转成自然语言路径描述并合成一批候选 Python 程序，得到分布 \(\Delta(\Lambda)\)；再用序贯蒙特卡洛（SMC）做贝叶斯推理更新各程序的后验权重，最后加权组合 top-\(k\) 程序执行得到下一步动作预测。

flowchart LR
    A[观测轨迹 h_0:t-1<br/>坐标/场景图] --> B[LLM: 可选转成<br/>自然语言路径描述]
    B --> C[LLM 代码合成<br/>生成多个候选 Python 程序 Δ&#40;Λ&#41;]
    C --> D[贝叶斯推理 SMC<br/>按似然更新后验 p&#40;λ&#124;h&#41;]
    D --> E[取 top-k 程序<br/>从当前观测 o_t 执行]
    E --> F[加权组合预测下一步动作 â_t]
    F -.观测新动作.-> D

关键设计¶

1. 用 LLM 做"最短程序"合成，把短描述长度当先验： ROTE 不去拟合策略，而是让 LLM 针对观测历史生成多个解释行为的 Python 程序，形成候选分布 \(\Delta(\Lambda)\)。选 Python 是因其可读、图灵完备，能在最坏情况（\(|S|=|O|\)）表达任意复杂决策逻辑。关键约束是鼓励程序尽量短：这并非工程偏好，而是源于 Solomonoff 归纳推理理论对奥卡姆剃刀的形式化——最短的、能生成数据的算法应被赋予最高先验，其累积预测误差被真实数据生成过程的 Kolmogorov 复杂度所界定。因此搜索最小程序 \(\arg\min|\hat\lambda|\) 不仅省算力，在泛化上也是理论最优。Prompt 还做两条假设：观测智能体在有限内部状态间做确定性转移、生成代码产出确定性动作——即便真实智能体是概率性、目标驱动的，也让 LLM 先按确定性脚本去拟合，再用噪声模型兜住随机性。

2. 序贯蒙特卡洛贝叶斯推理筛程序： 拿到候选程序分布后，ROTE 按 \(p(\lambda\mid h_{0:t-1})\propto p(h_{0:t-1}\mid\lambda)\,p(\lambda)\) 估计后验。这与逆向规划同源，但区别在于：逆规划要固定一个昂贵的 planner（MCTS/暴搜）再在目标空间上推断，而 ROTE 把所有行为约定与脚本浓缩进单个程序表征 \(\lambda\)。由于 \(\lambda\) 是确定性程序，它对观测 \(o_t\) 给出的预测动作 \(\hat a_t\) 被赋概率 \(1-\epsilon\)，其余动作平摊 \(\frac{\epsilon}{|A|-1}\)，从而让确定性程序也能输出动作分布 \(\Delta(A)\)。逐对累乘似然 \(p(\lambda\mid h_{0:t-1})\propto\prod_{o_i,a_i\in h_{0:t-1}}p(a_i\mid o_i,\lambda)\cdot p_\text{prior}(\lambda)\)，即可直接在"以代码编码的决策过程"空间上做推理。

3. 加权组合 top-k 程序 + 脚本可迁移复用： 用精炼后的后验选出 \(k\) 个最可能程序，各自从当前观测执行，再按权重组合得到近似 \(\lambda^*\approx\hat\lambda=\sum_{\lambda}p(\lambda\mid h_{0:t-1})\cdot\lambda(\cdot\mid o_t)\)。这种动态表征可被分析、修改、跨智能体与跨环境组合：一旦推断出"逆时针巡逻"之类脚本，换到全新但相似的环境时无需重新生成文本、直接复用原程序即可预测，从而绕开 NLLM/AutoToM 每步都要重算文本的高昂成本。如 Figure 2 所示，随着观测累积（捡起玩具→放到椅子上），ROTE 会把权重从"送玩具到卧室"逐步收敛到"把玩具放椅子上"的脚本，并据此快速外推未来动作。

实验关键数据¶

主实验设置与结果¶

环境: ① Construction——全可观 2D 网格世界，智能体绕障、搬运彩色方块；② Partnr——大规模具身机器人模拟器（基于 Habitat），部分可观、以自然语言场景图感知、用工具帮人完成家务。
基线: 行为克隆 BC（Construction 用 LSTM，Partnr 用微调 Llama-3.1-8b）、AutoToM（LLM 生成信念/目标假设 + 贝叶斯逆规划的神经符号法）、Naive LLM（NLLM，直接 prompt LLM 预测动作）。ROTE 统一用 DeepSeek-Coder-V2-Lite-Instruct，基线取多个 LLM 中最高分以保证对比公平。

场景 / 协议	ROTE 相对最强基线	与人类对比
Construction 脚本智能体（单步+多步）	显著优于全部基线（单步 NLLM p<0.05，BC/AutoToM p<0.001）	与人类无显著差距（单步 p=0.31，多步 p=0.17）
Construction 人类智能体（单步+多步）	显著优于全部基线（单步 BC p<0.05、NLLM p<0.01、AutoToM p<0.001）	达到人类级别预测精度
Partnr 大规模具身环境	显著优于全部基线（p<0.001）	—
零样本跨环境泛化	显著优于全部基线（p<0.001）	—
综合提升幅度	最高 ~50% 准确率提升	—

关键发现¶

不是在钻数据规律的空子：ROTE 准确率与"重访状态/重复动作"相关性极低（0.303 / 0.064），说明它学的是底层策略而非简单重复模式，这也解释了它强劲的多步预测能力。
脚本可迁移：在原环境观测 20 步推断出脚本后，直接搬到全新环境预测后续 10 步仍显著领先，且无需重新生成文本。
多步推理算力反而省：单步时 ROTE 比 BC/NLLM 慢，但 Figure 6 显示其多步预测的累计计算成本随预测数增长数量级地更省——程序一旦推断出来就反复执行，长时程场景优势明显。
能力边界：在"向上不行就向下""走 L 形"这类重复模式任务上 ROTE 甚至超过人类；但在"顺时针巡逻"和"把粉块搬到角落"等任务上人类仍更强，提示更强推理的 LLM 才能在所有场景达到人类水平。

亮点与洞察¶

范式转换：把动作理解从"策略拟合/目标推断"重构为程序合成，让"代码即行为表征"这一古老 CS 思想（FSM、产生式系统）在 LLM 时代焕新。
认知科学动机扎实：直接对应"人把他人看作照脚本办事"的最新认知科学发现，给"为什么不必推断深层信念"提供了理论与实证支撑。
效率/精度/可解释三赢：用最短程序先验（Solomonoff）做正则，既泛化好又可读可改可组合，且多步时算力优势随时程拉大。
人类研究闭环：不仅与基线比，还招募真人产生行为并做预测，证明 ROTE 能达人类级，说服力强。

局限与展望¶

确定性假设：方法核心假设观测智能体在有限状态间做确定性转移，对高度随机或强适应性策略只能靠噪声模型近似。
依赖 LLM 推理力：在巡逻、复杂目标驱动任务上仍逊于人类，瓶颈在底层 LLM 的代码推理能力，需更强模型补齐。
动作空间约束：Partnr 上只预测高层工具动作，且因 AutoToM 需固定动作空间而受限，细粒度连续动作尚未验证。
脚本表达力上界：现实中大量行为并非纯脚本化（情绪、临时偏好等），程序表征对这类"非套路"行为的覆盖度有待考察。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把心智理论/行为预测重构为 LLM 程序合成 + 贝叶斯推理，认知科学动机与算法理论（Solomonoff 先验）结合得很自洽，是真正的范式级新意。
实验充分度: ⭐⭐⭐⭐ 覆盖网格世界与大规模具身模拟两类环境、三类强基线、单步/多步/泛化多协议，并有真人研究做闭环；略欠的是更细粒度连续动作与更随机行为的验证。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验链路清晰，图 2 的直观示例与理论推导兼顾，公式与代码示例到位。
价值: ⭐⭐⭐⭐ 高效、可解释、可迁移的他人行为预测对人机协作、自动驾驶、社会智能体有直接应用价值，且开源承诺利于复现。