AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling¶

会议: NeurIPS 2025
arXiv: 2502.15676
代码: 有
领域: 心智理论 / LLM Agent
关键词: Theory of Mind, Bayesian inverse planning, automated agent modeling, mental inference, LLM

一句话总结¶

AutoToM 实现完全自动化的基于模型的心智理论推理——无需人工指定 agent 模型，自动提出贝叶斯网络结构并执行贝叶斯逆规划，通过推理不确定性驱动的迭代模型调整（添加心智变量或扩展时间步），在5个ToM benchmark上以82.43%平均准确率超越GPT-4o(63.39%)、o3-mini(73.94%)等SOTA模型。

研究背景与动机¶

领域现状：Theory of Mind（ToM）——理解他人心智状态（目标、信念、意图）的能力——是社会智能的基石。机器ToM有两大方法流派：(a) 直接prompt LLM进行推理（SimToM、SymbolicToM等），灵活但在复杂场景下会犯系统性错误（尤其是长上下文、多agent递归推理场景）；(b) 基于模型的贝叶斯逆规划（BIP），通过构建agent的生成模型然后反向推断心智状态，鲁棒但需要人工定义agent模型（包括心智变量集合和因果结构图），泛化差。

现有痛点：BIP-ALM和LIMP等将BIP与LLM结合的先驱工作虽然提升了鲁棒性，但仍然要求手工指定：(a) 需要哪些心智变量（目标、信念、观察等）；(b) 变量间的因果关系（MDP/POMDP/I-POMDP结构选择）；(c) 需要考虑哪些时间步。这些手工设计限制了其适用于特定领域，无法处理开放式的ToM问题。

核心矛盾：LLM灵活但不鲁棒——即使是o3-mini这样的大reasoning模型在复杂ToM中也会犯系统性错误（长上下文遗忘、递归推理崩溃）；BIP鲁棒但不灵活——需要人工为每个领域设计agent模型。核心 idea：让LLM自动发现合适的agent模型结构，然后在该模型上做自动化的贝叶斯推理——模型发现的灵活性+贝叶斯推理的鲁棒性=可扩展的开放式机器ToM。

方法详解¶

整体框架¶

AutoToM由两个核心组件构成自我改进循环：(1) Automated Bayesian Inverse Planning——在给定agent模型上用LLM作为计算后端执行贝叶斯推理；(2) Automated Agent Model Discovery——根据推理不确定性自动提出和调整agent模型。流程：信息提取→初始模型提出→自动BIP推理→评估模型效用→效用不足则调整模型→再推理→直到置信度足够。

关键设计¶

自动贝叶斯逆规划（Automated BIP）:
- 功能：在任意给定的agent模型（贝叶斯网络）上执行完整的推理过程
- 核心思路：两步走——(a) 假设采样：用LLM为每个潜在心智变量生成一小组高质量假设值（类似摊销推理），结合question和可观察变量引导采样，再通过假设缩减去掉不合理的假设（评估局部条件概率）；(b) 贝叶斯推理：用LLM估计贝叶斯网络中每个局部条件概率P(子节点|父节点)，然后通过显式计算对联合分布求边缘化得到目标变量的后验P(q|X)
- 设计动机：不同于BIP-ALM和LIMP假设固定模型结构和手工变量表示，AutoToM的BIP对任意图结构和任意变量表示都适用。支持任意阶递归推理（通过I-POMDP的嵌套信念建模），不需要领域特定实现
自动Agent模型发现（Automated Model Discovery）:
- 功能：自动构建最适合当前ToM问题的agent模型，消除人工模型设计的瓶颈
- 核心思路：模型M=(V^{ts:t}, X^{ts:t})由心智变量集合和可观察变量集合唯一定义。模型效用U(M,q) = R(M,q) - C(M)，其中R=-H(P(q|X))（推理结果的负熵=置信度）、C=α|M|（复杂度惩罚）。三个子模块：(a) 信息提取——用LLM从上下文中提取可观察变量（状态、动作、话语）沿时间线排列；(b) 初始模型提出——提出最小复杂度模型（仅包含回答问题最必要的变量），从最后一个时间步开始；(c) 迭代调整——变量调整（引入新心智变量如belief/observation/interactive state）和时间步调整（向前扩展更多时间步），每次选择效用增益最大的调整
- 设计动机：不确定性驱动——只有当推理不够置信时才增加模型复杂度，避免了过度建模（浪费计算）和欠建模（精度不足）的两难。限制在MDP/POMDP/I-POMDP的变量类型空间内保证模型能解释agent行为
统一形式化与可扩展设计:
- 功能：提供跨领域通用的ToM推理框架
- 核心思路：将BIP统一形式化为P(V^{ts:t}|X^{ts:t})的推理问题，覆盖MDP（有目标、全观测）、POMDP（部分观测+信念维护）、I-POMDP（多agent递归推理）等模型，各自只是变量集V和X的不同配置
- 设计动机：先前方法（BIP-ALM、LIMP）各自为特定模型类型定制实现，无法跨类型泛化。统一形式化使得一套推理引擎可处理所有模型变体

损失函数 / 训练策略¶

AutoToM无需训练参数——完全基于LLM的上下文推理（in-context inference）。关键超参数：模型效用阈值U_min（决定何时停止模型调整）、复杂度权重α。

实验关键数据¶

主实验（5个ToM benchmark平均准确率）¶

方法	ToMi	BigToM	MMToM-QA	MuMA-ToM	Hi-ToM	平均
GPT-4o	77.0	82.4	44.0	63.6	50.0	63.4
o3-mini-high	73.1	86.9	64.7	70.0	75.0	73.9
Gemini 2.0 Flash Thinking	78.0	82.8	54.0	82.6	73.5	74.2
DeepSeek-R1	89.4	86.3	49.7	63.4	56.5	69.1
BIP-ALM	55.6	50.3	56.2	33.9	14.5	42.1
LIMP	44.6	61.7	55.3	76.6	6.5	48.9
AutoToM (GPT-4o)	88.3	86.9	83.0	81.4	72.5	82.4

消融实验¶

配置	平均准确率	相对计算量	说明
Full AutoToM	82.4	1.0×	最优效果
w/o hypothesis reduction	~80	~1.3×	准确率微降+计算增加
w/ POMDP固定	~78	~1.1×	不灵活导致部分场景过度建模
w/o variable adjustment	~76	~0.8×	无法适应需要信念/观察的场景
w/ last timestep only	~74	~0.6×	丢失历史上下文
w/ all timesteps	~79	~1.5×	不必要的计算开销

关键发现¶

AutoToM以GPT-4o为后端（82.4%）大幅超越GPT-4o自身（63.4%）——结构化推理>纯LLM推理
在最具挑战性的MMToM-QA（长上下文+多模态）上提升最大：83.0% vs GPT-4o 44.0%、o3-mini 64.7%
随着上下文长度、agent数量和递归深度增加，AutoToM的优势越来越大（图4），而大reasoning模型的性能波动剧烈
换用不同LLM后端（Qwen3-235B、DeepSeek-V3、Gemini-2.5-Flash）仍一致超越对应LLM本身，验证了框架的后端无关性
多次运行的统计可靠性：MMToM-QA上3次运行均值82.56%±0.45%

亮点与洞察¶

自动模型发现是最核心的贡献——将基于模型的ToM从"需要认知科学家手工建模"提升为"全自动化系统"，真正实现了开放式ToM推理
不确定性驱动的模型扩展设计非常优雅——最小起步，按需扩展，兼顾效率和效果。本质是对model complexity做了自适应搜索
LLM作为概率推理后端而非直接推理器——这一角色定位是关键洞察。LLM不擅长系统性推理，但擅长估计局部条件概率（给定具体场景评估某变量取某值的似然性）
产生类人的置信度估计（不只是答案，还有确信程度）——这对embodied assistance等下游任务至关重要

局限与展望¶

模型发现质量仍受限于LLM后端的常识推理能力——如果LLM无法正确识别需要哪些心智变量，模型可能不合适
假设采样和局部条件概率估计的准确性依赖LLM的上下文理解，对于非常规或反直觉的agent行为可能不准
多agent高阶递归推理的计算成本随递归深度指数增长
当前模型发现限制在MDP/POMDP/I-POMDP的变量类型空间内，可能遗漏非标准心智变量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 完全自动化的模型化ToM是突破性贡献，自动模型发现+自动BIP的组合前所未有
实验充分度: ⭐⭐⭐⭐⭐ 5个benchmark+认知实验+embodied任务+多LLM后端+消融+统计可靠性检验
写作质量: ⭐⭐⭐⭐⭐ 统一形式化清晰，图表优秀，实验分析深入
价值: ⭐⭐⭐⭐⭐ 对社会智能AI和人机交互有深远影响，框架通用性强