跳转至

AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling

会议: NeurIPS 2025
arXiv: 2502.15676
代码: 有
领域: 心智理论 / LLM Agent
关键词: Theory of Mind, Bayesian inverse planning, automated agent modeling, mental inference, LLM

一句话总结

AutoToM 实现完全自动化的基于模型的心智理论推理——无需人工指定 agent 模型,自动提出贝叶斯网络结构并执行贝叶斯逆规划,通过推理不确定性驱动的迭代模型调整(添加心智变量或扩展时间步),在5个ToM benchmark上以82.43%平均准确率超越GPT-4o(63.39%)、o3-mini(73.94%)等SOTA模型。

研究背景与动机

领域现状:Theory of Mind(ToM)——理解他人心智状态(目标、信念、意图)的能力——是社会智能的基石。机器ToM有两大方法流派:(a) 直接prompt LLM进行推理(SimToM、SymbolicToM等),灵活但在复杂场景下会犯系统性错误(尤其是长上下文、多agent递归推理场景);(b) 基于模型的贝叶斯逆规划(BIP),通过构建agent的生成模型然后反向推断心智状态,鲁棒但需要人工定义agent模型(包括心智变量集合和因果结构图),泛化差。

现有痛点:BIP-ALM和LIMP等将BIP与LLM结合的先驱工作虽然提升了鲁棒性,但仍然要求手工指定:(a) 需要哪些心智变量(目标、信念、观察等);(b) 变量间的因果关系(MDP/POMDP/I-POMDP结构选择);(c) 需要考虑哪些时间步。这些手工设计限制了其适用于特定领域,无法处理开放式的ToM问题。

核心矛盾:LLM灵活但不鲁棒——即使是o3-mini这样的大reasoning模型在复杂ToM中也会犯系统性错误(长上下文遗忘、递归推理崩溃);BIP鲁棒但不灵活——需要人工为每个领域设计agent模型。核心 idea:让LLM自动发现合适的agent模型结构,然后在该模型上做自动化的贝叶斯推理——模型发现的灵活性+贝叶斯推理的鲁棒性=可扩展的开放式机器ToM。

方法详解

整体框架

AutoToM由两个核心组件构成自我改进循环:(1) Automated Bayesian Inverse Planning——在给定agent模型上用LLM作为计算后端执行贝叶斯推理;(2) Automated Agent Model Discovery——根据推理不确定性自动提出和调整agent模型。流程:信息提取→初始模型提出→自动BIP推理→评估模型效用→效用不足则调整模型→再推理→直到置信度足够。

关键设计

  1. 自动贝叶斯逆规划(Automated BIP):

    • 功能:在任意给定的agent模型(贝叶斯网络)上执行完整的推理过程
    • 核心思路:两步走——(a) 假设采样:用LLM为每个潜在心智变量生成一小组高质量假设值(类似摊销推理),结合question和可观察变量引导采样,再通过假设缩减去掉不合理的假设(评估局部条件概率);(b) 贝叶斯推理:用LLM估计贝叶斯网络中每个局部条件概率P(子节点|父节点),然后通过显式计算对联合分布求边缘化得到目标变量的后验P(q|X)
    • 设计动机:不同于BIP-ALM和LIMP假设固定模型结构和手工变量表示,AutoToM的BIP对任意图结构和任意变量表示都适用。支持任意阶递归推理(通过I-POMDP的嵌套信念建模),不需要领域特定实现
  2. 自动Agent模型发现(Automated Model Discovery):

    • 功能:自动构建最适合当前ToM问题的agent模型,消除人工模型设计的瓶颈
    • 核心思路:模型M=(V^{ts:t}, X^{ts:t})由心智变量集合和可观察变量集合唯一定义。模型效用U(M,q) = R(M,q) - C(M),其中R=-H(P(q|X))(推理结果的负熵=置信度)、C=α|M|(复杂度惩罚)。三个子模块:(a) 信息提取——用LLM从上下文中提取可观察变量(状态、动作、话语)沿时间线排列;(b) 初始模型提出——提出最小复杂度模型(仅包含回答问题最必要的变量),从最后一个时间步开始;(c) 迭代调整——变量调整(引入新心智变量如belief/observation/interactive state)和时间步调整(向前扩展更多时间步),每次选择效用增益最大的调整
    • 设计动机:不确定性驱动——只有当推理不够置信时才增加模型复杂度,避免了过度建模(浪费计算)和欠建模(精度不足)的两难。限制在MDP/POMDP/I-POMDP的变量类型空间内保证模型能解释agent行为
  3. 统一形式化与可扩展设计:

    • 功能:提供跨领域通用的ToM推理框架
    • 核心思路:将BIP统一形式化为P(V^{ts:t}|X^{ts:t})的推理问题,覆盖MDP(有目标、全观测)、POMDP(部分观测+信念维护)、I-POMDP(多agent递归推理)等模型,各自只是变量集V和X的不同配置
    • 设计动机:先前方法(BIP-ALM、LIMP)各自为特定模型类型定制实现,无法跨类型泛化。统一形式化使得一套推理引擎可处理所有模型变体

损失函数 / 训练策略

AutoToM无需训练参数——完全基于LLM的上下文推理(in-context inference)。关键超参数:模型效用阈值U_min(决定何时停止模型调整)、复杂度权重α。

实验关键数据

主实验(5个ToM benchmark平均准确率)

方法 ToMi BigToM MMToM-QA MuMA-ToM Hi-ToM 平均
GPT-4o 77.0 82.4 44.0 63.6 50.0 63.4
o3-mini-high 73.1 86.9 64.7 70.0 75.0 73.9
Gemini 2.0 Flash Thinking 78.0 82.8 54.0 82.6 73.5 74.2
DeepSeek-R1 89.4 86.3 49.7 63.4 56.5 69.1
BIP-ALM 55.6 50.3 56.2 33.9 14.5 42.1
LIMP 44.6 61.7 55.3 76.6 6.5 48.9
AutoToM (GPT-4o) 88.3 86.9 83.0 81.4 72.5 82.4

消融实验

配置 平均准确率 相对计算量 说明
Full AutoToM 82.4 1.0× 最优效果
w/o hypothesis reduction ~80 ~1.3× 准确率微降+计算增加
w/ POMDP固定 ~78 ~1.1× 不灵活导致部分场景过度建模
w/o variable adjustment ~76 ~0.8× 无法适应需要信念/观察的场景
w/ last timestep only ~74 ~0.6× 丢失历史上下文
w/ all timesteps ~79 ~1.5× 不必要的计算开销

关键发现

  • AutoToM以GPT-4o为后端(82.4%)大幅超越GPT-4o自身(63.4%)——结构化推理>纯LLM推理
  • 在最具挑战性的MMToM-QA(长上下文+多模态)上提升最大:83.0% vs GPT-4o 44.0%、o3-mini 64.7%
  • 随着上下文长度、agent数量和递归深度增加,AutoToM的优势越来越大(图4),而大reasoning模型的性能波动剧烈
  • 换用不同LLM后端(Qwen3-235B、DeepSeek-V3、Gemini-2.5-Flash)仍一致超越对应LLM本身,验证了框架的后端无关性
  • 多次运行的统计可靠性:MMToM-QA上3次运行均值82.56%±0.45%

亮点与洞察

  • 自动模型发现是最核心的贡献——将基于模型的ToM从"需要认知科学家手工建模"提升为"全自动化系统",真正实现了开放式ToM推理
  • 不确定性驱动的模型扩展设计非常优雅——最小起步,按需扩展,兼顾效率和效果。本质是对model complexity做了自适应搜索
  • LLM作为概率推理后端而非直接推理器——这一角色定位是关键洞察。LLM不擅长系统性推理,但擅长估计局部条件概率(给定具体场景评估某变量取某值的似然性)
  • 产生类人的置信度估计(不只是答案,还有确信程度)——这对embodied assistance等下游任务至关重要

局限与展望

  • 模型发现质量仍受限于LLM后端的常识推理能力——如果LLM无法正确识别需要哪些心智变量,模型可能不合适
  • 假设采样和局部条件概率估计的准确性依赖LLM的上下文理解,对于非常规或反直觉的agent行为可能不准
  • 多agent高阶递归推理的计算成本随递归深度指数增长
  • 当前模型发现限制在MDP/POMDP/I-POMDP的变量类型空间内,可能遗漏非标准心智变量

相关工作与启发

  • LLM+概率推理的范式:AutoToM展示了LLM作为概率推理后端(估计似然+生成假设)而非端到端推理器的巨大潜力,可推广到其他需要结构化推理的领域
  • 自动建模与LLM:与Li等人的统计模型自动构建、Wang等人的假设生成+程序验证思路呼应,但首次应用于BIP/ToM领域
  • human-like AI:AutoToM产生的置信度估计与人类行为实验数据匹配,暗示其推理机制可能捕获了人类ToM的某些计算特征

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 完全自动化的模型化ToM是突破性贡献,自动模型发现+自动BIP的组合前所未有
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个benchmark+认知实验+embodied任务+多LLM后端+消融+统计可靠性检验
  • 写作质量: ⭐⭐⭐⭐⭐ 统一形式化清晰,图表优秀,实验分析深入
  • 价值: ⭐⭐⭐⭐⭐ 对社会智能AI和人机交互有深远影响,框架通用性强